Сочетание кода Клода с локальными моделями

12.06.2026 ideipro.ru

Локальные модели в 2026 году вполне достаточны. Для задач, которые Клод Код решает ежедневно: автозавершение кода, рефакторинг, отладка, объяснение кодовой базы; хорошо подобранная квантованная модель, работающая локально, охватывает подавляющее большинство реальных сценариев использования с нулевой стоимостью за токен и без ограничений скорости запросов.

# Введение

Сеансы кодирования в рамках агентского подхода обходятся дорого. Один сеанс Claude Code — чтение файлов, написание кода, запуск тестов, итерации — может израсходовать в 10–50 раз больше токенов, чем обычный чат. В больших масштабах это быстро накапливается. Добавьте к этому ограничения скорости запросов, которые могут прервать длительный рабочий процесс посреди сеанса, и зависимость от стороннего API, который может изменять цены, применять более строгие правила или выходить из строя в любой момент, и аргументы в пользу локального вывода становятся очевидными.

Локальные модели в 2026 году вполне достаточны. Для задач, которые Клод Код выполняет ежедневно — автозавершение кода, рефакторинг, отладка, объяснение кодовой базы — хорошо подобранная квантованная модель, работающая локально, охватывает подавляющее большинство реальных сценариев использования с нулевой стоимостью за токен и без ограничений скорости. В этой статье рассматриваются три бэкенда для вывода результатов ( Ollama , LM Studio и llama.cpp ), точные переменные среды и файлы конфигурации для подключения каждого из них к Клоду Коду, тщательно подобранная таблица моделей, которые стоит запустить, и способы устранения неполадок, с которыми вы действительно столкнетесь.

# Как код Клода подключается к любой локальной модели

Механизм проще, чем кажется из большинства руководств. Claude Code отправляет запросы в формате API Anthropic Messages. По умолчанию эти запросы направляются на серверы Anthropic. Установка параметра ANTHROPIC_BASE_URL перенаправляет их на любой сервер, поддерживающий тот же формат, что теперь включает Ollama, LM Studio и llama.cpp.

Согласно официальной документации по переменным среды Claude Code, для данной настройки важны следующие переменные:

ANTHROPIC_BASE_URL: перенаправляет все вызовы API с серверов Anthropic на указанный вами URL. Установите это значение равным адресу вашего локального сервера обработки данных.
ANTHROPIC_API_KEY: ключ API, отправляемый в заголовке запроса. Локальные серверы обычно игнорируют аутентификацию, поэтому обычно он устанавливается в виде строки-заполнителя, например, » local » или » ollama «.
ANTHROPIC_AUTH_TOKEN: альтернативный заголовок аутентификации. Некоторые локальные серверы проверяют его вместо ключа API. Установите его на тот же заполнитель.

ANTHROPIC_DEFAULT_SONNET_MODEL, ANTHROPIC_DEFAULT_HAIKU_MODEL и ANTHROPIC_DEFAULT_OPUS_MODEL: Claude Code внутренне запрашивает разные уровни моделей в зависимости от задачи. Эти три переменные сопоставляют каждый уровень с именем вашей локальной модели. Без них Claude Code отправляет запросы на claude-sonnet-4-20250514 на ваш локальный сервер, который отклонит запрос, поскольку такой модели локально не существует.

В январе 2026 года Ollama добавила встроенную поддержку API антропических сообщений, что стало техническим изменением, сделавшим этот рабочий процесс практичным без использования прокси-серверов трансляции. LM Studio добавила встроенную конечную точку /v1/messages в версии 0.4.1. Файл llama.cpp имеет прямую поддержку API антропических сообщений уже давно. Все три компонента теперь используют собственный протокол Claude Code.

Четкая архитектурная схема, демонстрирующая Claude Code, Ollama, LM Studio и файл llama.cpp.

Схема архитектуры, отображающая Claude Code, Ollama, LM Studio и llama.cpp | Изображение предоставлено автором

# Backend 1: Ollama

Ollama — это идеальная отправная точка. Она берет на себя все сложности управления моделями — загрузку весов, квантизацию, распределение ресурсов GPU и CPU, а также запуск — за простым интерфейсом командной строки (CLI). Одна команда для установки, одна команда для загрузки модели, несколько переменных окружения для настройки. После установки она работает как фоновая служба, поэтому ручной запуск сервера не требуется.

Предварительные требования

macOS, Linux или Windows (для Windows рекомендуется WSL2)
Для практического использования требуется не менее 16 ГБ оперативной памяти (рекомендуется 32 ГБ).
Для выполнения вычислений на GPU требуется графический процессор с объемом видеопамяти 8 ГБ и более, или же достаточное количество оперативной памяти только для центрального процессора.
Для поддержки API антропных сообщений требуется Ollama версии 0.14.0 или более поздней.

Установите Ollama:

# macOS и Linux — установка одной командой: curl -fsSL https://ollama.com/install.sh | sh # Проверка версии — для совместимости с Claude Code должна быть 0.14.0+ ollama version # Ожидаемая версия: 0.14.x или выше # Windows: загрузите установщик с https://ollama.com # Поддержка Windows значительно улучшена в последних версиях

После установки Ollama автоматически запускается как фоновая служба на порту 11434. Вы можете проверить, работает ли она:

# Проверка работоспособности сервера Ollama: curl http://localhost:11434 # Ожидаемый ответ: # Ollama запущен

Создайте модель кодирования:

# GLM-4.7-Flash — рекомендуемая отправная точка # Мощный вызов инструментов, контекст 128K, помещается на 8 ГБ видеопамяти # Лицензия Apache 2.0 ollama pull glm-4.7-flash:latest # Qwen3-Coder — мощная генерация кода и отслеживание инструкций # Требуется более 20 ГБ видеопамяти для полной модели ollama pull qwen3-coder # Devstral-Small — специально разработан для рабочих процессов агентного кодирования # Протестировано сообществом на совместимость с кодом Клода # 24B, требуется более 16 ГБ видеопамяти ollama pull devstral-small-2:24b # Проверка загрузки и готовности модели ollama list # Отображает все загруженные модели с их размерами и датами модификации

// Настройка кода Клода для использования Ollama

Вариант 1: Экспорт командной оболочки (только для текущей сессии терминала)

# Перенаправьте Claude Code на ваш локальный сервер Ollama export ANTHROPIC_BASE_URL=»http://localhost:11434″ # Локальные серверы не требуют реальной аутентификации # Установите для них любое непустое значение — Ollama игнорирует это значение export ANTHROPIC_API_KEY=»ollama» export ANTHROPIC_AUTH_TOKEN=»ollama» # Сопоставьте запросы уровня модели Claude Code с вашим локальным именем модели # Claude Code внутренне запрашивает sonnet/haiku/opus — эти переменные # преобразуют эти имена уровней в любую модель, которую вы получили локально export ANTHROPIC_DEFAULT_SONNET_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_OPUS_MODEL=»glm-4.7-flash:latest» # Запуск кода Claude — теперь он будет использовать Ollama вместо API Anthropic Claude

Вариант 2: ~/.claude/settings.json (постоянный, применяется ко всем сессиям)

Этот подход сохраняется после перезагрузки терминала и применяется каждый раз при запуске Claude Code. Claude Code считывает переменные окружения из файла settings.json при запуске, поэтому они вступают в силу независимо от способа запуска Claude.

Создайте или отредактируйте файл ~/.claude/settings.json:

{ «env»: { «ANTHROPIC_BASE_URL»: «http://localhost:11434», «ANTHROPIC_API_KEY»: «ollama», «ANTHROPIC_AUTH_TOKEN»: «ollama», «ANTHROPIC_DEFAULT_SONNET_MODEL»: «glm-4.7-flash:latest», «ANTHROPIC_DEFAULT_HAIKU_MODEL»: «glm-4.7-flash:latest», «ANTHROPIC_DEFAULT_OPUS_MODEL»: «glm-4.7-flash:latest» } }

Вариант 3: файл .env в каталоге проекта (переопределение для каждого проекта)

Если вы хотите, чтобы для конкретного проекта использовалась другая модель, при этом сохраняя глобальные настройки в Anthropic API:

# Файл .env в корневой директории вашего проекта — загружается автоматически Claude Code ANTHROPIC_BASE_URL=http://localhost:11434 ANTHROPIC_API_KEY=ollama ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_DEFAULT_SONNET_MODEL=qwen3-coder ANTHROPIC_DEFAULT_HAIKU_MODEL=qwen3-coder ANTHROPIC_DEFAULT_OPUS_MODEL=qwen3-coder

Проверьте соединение:

# Запустите Claude Code с простым тестовым примером: claude # Внутри Claude Code выполните простую командную строку: # > Какую модель вы используете? # Локальная модель должна отвечать без каких-либо вызовов к Anthropic API. # Чтобы убедиться, что внешние вызовы не выполняются, запустите с подробным логированием: claude —verbose # Найдите строки, показывающие запросы, идущие к localhost:11434, # а не к api.anthropic.com

Полная рабочая последовательность с нуля:

curl -fsSL https://ollama.com/install.sh | sh # 1. Установка Ollama ollama pull glm-4.7-flash:latest # 2. Загрузка модели (~4 ГБ) export ANTHROPIC_BASE_URL=»http://localhost:11434″ # 3. Перенаправление кода Клода export ANTHROPIC_API_KEY=»ollama» # 4. Установка аутентификатора-заполнителя export ANTHROPIC_AUTH_TOKEN=»ollama» export ANTHROPIC_DEFAULT_SONNET_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_OPUS_MODEL=»glm-4.7-flash:latest» claude # 5. Запуск

# Backend 2: LM Studio

LM Studio — правильный выбор, если вам нужен графический интерфейс для просмотра и управления моделями, а не работа исключительно в терминале. Начиная с версии 0.4.1, он включает в себя собственную конечную точку /v1/messages , совместимую с Anthropic — тот же путь, который ожидает Claude Code, — поэтому слой трансляции или прокси не требуются.

Предварительные требования:

macOS, Windows или Linux
Рекомендуется видеокарта с 6 ГБ и более видеопамяти (можно использовать только процессор, но это будет медленно).
Загрузите с сайта lmstudio.ai или используйте установщик CLI для безмониторных серверов.

Установите и настройте LM Studio:

# На сервере или виртуальной машине без графического интерфейса — установка через командную строку: curl -fsSL https://releases.lmstudio.ai/cli/install.sh | bash # Или загрузите настольное приложение с https://lmstudio.ai для использования с графическим интерфейсом

Этапы настройки графического интерфейса:

Откройте LM Studio и найдите модель кодирования (найдите «qwen coder» или «devstral»).
Загрузите модель. LM Studio автоматически выбирает режим квантования.
Перейдите на вкладку «Локальный сервер» (значок в левой боковой панели).
Задайте размер контекста. LM Studio рекомендует начинать как минимум с 25 000 токенов и увеличивать это значение для достижения лучших результатов.
Нажмите «Запустить сервер» .
Обратите внимание на порт (по умолчанию: 1234) и скопируйте название модели точно так, как показано.

Примечание: Скопируйте идентификатор модели точно. LM Studio отобразит именно ту строку, которую необходимо передать в ANTHROPIC_DEFAULT_SONNET_MODEL. Несоответствие в этом случае является наиболее распространенной причиной ошибки.

Настройка кода Клода:

# Установите базовый URL-адрес на локальный сервер LM Studio export ANTHROPIC_BASE_URL=»http://localhost:1234″ export ANTHROPIC_API_KEY=»lm-studio» export ANTHROPIC_AUTH_TOKEN=»lm-studio» # Замените имя модели на то, которое LM Studio отображает для вашей загруженной модели # Скопируйте его точно — включая любой суффикс версии или тег квантизации export ANTHROPIC_DEFAULT_SONNET_MODEL=»qwen2.5-coder-32b-instruct» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»qwen2.5-coder-32b-instruct» export ANTHROPIC_DEFAULT_OPUS_MODEL=»qwen2.5-coder-32b-instruct»

Или постоянно в файле ~/.claude/settings.json:

{ «env»: { «ANTHROPIC_BASE_URL»: «http://localhost:1234», «ANTHROPIC_API_KEY»: «lm-studio», «ANTHROPIC_AUTH_TOKEN»: «lm-studio», «ANTHROPIC_DEFAULT_SONNET_MODEL»: «qwen2.5-coder-32b-instruct», «ANTHROPIC_DEFAULT_HAIKU_MODEL»: «qwen2.5-coder-32b-instruct», «ANTHROPIC_DEFAULT_OPUS_MODEL»: «qwen2.5-coder-32b-instruct» } }

Как бегать:

# 1. Запустите сервер LM Studio из графического интерфейса (вкладка «Локальный сервер» > «Запустить сервер»). # 2. Установите переменные среды: export ANTHROPIC_BASE_URL=»http://localhost:1234″ export ANTHROPIC_API_KEY=»lm-studio» export ANTHROPIC_AUTH_TOKEN=»lm-studio» export ANTHROPIC_DEFAULT_SONNET_MODEL=»your-model-name-here» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»your-model-name-here» export ANTHROPIC_DEFAULT_OPUS_MODEL=»your-model-name-here» # 3. Запустите Claude.

# Backend 3: llama.cpp

Файл llama.cpp — правильный выбор, когда вам нужен прямой контроль над параметрами вывода — типом квантизации, конфигурацией кэша ключ-значение, размером пакета, количеством потоков — или когда вы работаете на сервере и хотите минимизировать накладные расходы. Он имеет встроенную поддержку Anthropic Messages API, поэтому не требуется прокси-сервер или слой трансляции.

Предварительные требования:

Файл модели в формате GGUF (скачать с сайта Hugging Face; найдите версии любой модели в формате «GGUF»)
Для выполнения вычислений на GPU требуется графический процессор с поддержкой CUDA, а для более медленных вычислений — только центральный процессор.
Для сборки из исходного кода необходимы CMake и компилятор C++ (на Linux/CUDA рекомендуется сборка из исходного кода).

Установите llama.cpp:

# macOS — Homebrew — самый простой способ: brew install llama.cpp # Linux с CUDA — сборка из исходного кода для оптимальной производительности GPU: git clone https://github.com/ggml-org/llama.cpp cd llama.cpp cmake -B build -DGGML_CUDA=ON # Включение ускорения CUDA: cmake —build build —config Release # Сборка # Бинарные файлы в ./build/bin/ # Linux — сборка только для ЦП: cmake -B build cmake —build build —config Release # Windows — предварительно собранные бинарные файлы доступны по адресу: # https://github.com/ggml-org/llama.cpp/releases # Загрузите вариант CUDA или CPU, соответствующий вашему оборудованию

Скачать модель GGUF:

# Установите Hugging Face CLI, если у вас его нет: pip install huggingface-hub # Загрузите GLM-4.7-Flash в квантизации Q4_K_XL (~4,5 ГБ) # Эта квантизация обеспечивает хороший баланс размера и качества для кодирования: huggingface-cli download unsloth/GLM-4.7-Flash-GGUF GLM-4.7-Flash-UD-Q4_K_XL.gguf —local-dir ./models/ # Или загрузите Qwen3-Coder в квантизации Q4 (~15 ГБ для 32B): huggingface-cli download Qwen/Qwen3-Coder-32B-Instruct-GGUF qwen3-coder-32b-instruct-q4_k_m.gguf —local-dir ./models/

Запустите сервер llama.cpp:

# Запуск llama-server с поддержкой Anthropic API и контекстным окном размером 128 КБ llama-server —model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf —alias «glm-4.7-flash» # Это имя указывается в ANTHROPIC_DEFAULT_SONNET_MODEL —port 8001 —ctx-size 131072 # Контекст 128 КБ — важно для больших кодовых баз —flash-attn # Эффективное использование памяти для механизма внимания, повышает скорость —n-gpu-layers 99 # Перенос всех слоев на GPU; удалить для работы только на ЦП # Для вывода только на ЦП (без ГП): llama-server —model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf —alias «glm-4.7-flash» —port 8001 —ctx-size 32768 # Уменьшить размер контекста на ЦП, чтобы память оставалась управляемой —threads 8 # Соответствовать количеству ядер вашего ЦП

Пояснение к ключевым флагам:

—alias: строковое имя модели, которое Клод Код будет отправлять в запросах. Установите ANTHROPIC_DEFAULT_SONNET_MODEL так, чтобы оно точно соответствовало этому имени.
—ctx-size: размер контекстного окна в токенах. 131072 = 128 КБ . Больший размер лучше для анализа кода, но требует больше видеопамяти. Уменьшите размер, если возникают ошибки нехватки памяти.
—flash-attn: Функция Flash Attention снижает пиковую нагрузку на видеопамять, обрабатывая внимание меньшими блоками. Включите её, если ваша сборка её поддерживает.
—n-gpu-layers 99: переносит все слои преобразователя на графический процессор. Сервер автоматически использует меньше слоев, если видеопамять ограничена.

Настройка кода Клода:

export ANTHROPIC_BASE_URL=»http://localhost:8001″ export ANTHROPIC_API_KEY=»llama-cpp» export ANTHROPIC_AUTH_TOKEN=»llama-cpp» # Должно точно соответствовать —alias, переданному в llama-server export ANTHROPIC_DEFAULT_SONNET_MODEL=»glm-4.7-flash» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»glm-4.7-flash» export ANTHROPIC_DEFAULT_OPUS_MODEL=»glm-4.7-flash»

Как бегать:

# Терминал 1: запуск сервера llama.cpp llama-server —model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf —alias «glm-4.7-flash» —port 8001 —ctx-size 131072 —flash-attn —n-gpu-layers 99 # Терминал 2: настройка и запуск кода Клода export ANTHROPIC_BASE_URL=»http://localhost:8001″ export ANTHROPIC_API_KEY=»llama-cpp» export ANTHROPIC_AUTH_TOKEN=»llama-cpp» export ANTHROPIC_DEFAULT_SONNET_MODEL=»glm-4.7-flash» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»glm-4.7-flash» export ANTHROPIC_DEFAULT_OPUS_MODEL=»glm-4.7-flash» claude

# Полный файл settings.json

Экспорт переменных окружения действует только в течение сеанса терминала. Для обеспечения стабильной конфигурации используйте файл ~/.claude/settings.json. Claude Code считывает переменные из этого файла при запуске, поэтому они применяются независимо от способа запуска Claude — из терминала, из задачи VS Code или из скрипта.

Вот готовый к использованию файл settings.json со всеми пояснениями к переменным:

Почему значение CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS: «1» имеет значение:

При использовании Claude Code через бэкенды, не относящиеся к Anthropic, Claude Code добавляет в заголовки запросов экспериментальные бета-флаги, специфичные для Anthropic, — флаги, которые сторонние и локальные серверы не распознают. Это приводит к ошибке Error: Unexpected value(s) for the anthropic-beta header на большинстве локальных серверов вывода. Установка этой переменной в значение «1» удаляет эти заголовки перед отправкой запроса, что устраняет ошибку, не влияя на основные функции Claude Code.

Переключение между бэкэндами:

Если вы работаете с несколькими бэкэндами — Ollama для повседневного использования, Anthropic API для сложных задач — наиболее удобный подход заключается в использовании отдельных скриптов оболочки, а не в постоянном редактировании файла settings.json:

# use-local.sh — переключение на Ollama export ANTHROPIC_BASE_URL=»http://localhost:11434″ export ANTHROPIC_API_KEY=»ollama» export ANTHROPIC_AUTH_TOKEN=»ollama» export ANTHROPIC_DEFAULT_SONNET_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_HAIKU_MODEL=»glm-4.7-flash:latest» export ANTHROPIC_DEFAULT_OPUS_MODEL=»glm-4.7-flash:latest» echo «Код Клода → локальная Ollama (glm-4.7-flash)»

# use-anthropic.sh — вернуться к Anthropic API unset ANTHROPIC_BASE_URL unset ANTHROPIC_AUTH_TOKEN unset ANTHROPIC_DEFAULT_SONNET_MODEL unset ANTHROPIC_DEFAULT_HAIKU_MODEL unset ANTHROPIC_DEFAULT_OPUS_MODEL # ANTHROPIC_API_KEY уже должен быть установлен на ваш реальный ключ в вашем rc-файле echo «Код Клода → Anthropic API»

Запустите любой из скриптов в текущей сессии:

source ./use-local.sh claude # Когда для сложной задачи нужен настоящий API: source ./use-anthropic.sh claude

# Лучшие местные модели для Claude Code в 2026 году

Основное ограничение — это аппаратное обеспечение. Чтобы Claude Code с локальными моделями действительно пригоден для задач программирования, а не просто для демонстрации, следует стремиться к 32 ГБ оперативной памяти — Apple Silicon Unified Memory или PC RAM. 16 ГБ вполне достаточно для моделей с меньшим количеством квантований и разгрузкой ЦП, но скорость генерации будет заметно ниже в многошаговых агентных задачах.

Модель	Требуется видеопамять	Контекст	Сильные стороны	Лицензия	Команда «Вытянуть»
glm-4.7-flash	8 ГБ	128K	Быстрый вызов инструментов, низкое потребление видеопамяти.	Apache 2.0	ollama pull glm-4.7-flash
devstral-small-2:24b	16 Гб	32K	Рабочие процессы кодирования агентов	Apache 2.0	ollama pull devstral-small-2:24b
qwen3-coder	20 ГБ	128K	Генерация кода, инструкции	Apache 2.0	ollama pull qwen3-coder
qwen3.5:27b	20 ГБ	256K	Отличный во всех отношениях, огромный контекст	Apache 2.0	оллама тянет qwen3.5:27b
gemma4:26b	20 ГБ	256K	Логическое мышление, 77% в тестах по программированию.	Джемма Лицензия	оллама тянет gemma4:26b

# Устранение распространенных проблем

При запуске Claude Code соединение отклонено: сервер вывода не запущен. Это наиболее распространенная и простая в диагностике проблема. # Проверка запуска Ollama curl http://localhost:11434 # Ожидается: «Ollama запущена» # Проверка запуска сервера LM Studio curl http://localhost:1234/v1/models # Должен возвращать список загруженных моделей в формате JSON # Проверка запуска llama-server curl http://localhost:8001/health # Должен возвращать {«status»:»ok»} # Если не запущен — сначала запустите сервер, затем запустите Claude Code ollama serve # Ollama # LM Studio: используйте вкладку «Локальный сервер» в графическом интерфейсе # llama.cpp: запустите команду llama-server из раздела «Backend 3»
Ошибка «Модель не найдена» или «Неизвестная модель»: имя модели в вашем ANTHROPIC_DEFAULT_SONNET_MODEL не совпадает с тем, что известно серверу. # Список всех доступных моделей Ollama ollama list # Имя модели в ANTHROPIC_DEFAULT_SONNET_MODEL должно совпадать ТОЧНО, # включая тег — «glm-4.7-flash:latest», а не «glm-4.7-flash» # Проверьте с помощью прямого вызова API, чтобы убедиться, что видит сервер curl http://localhost:11434/v1/models
Сбои или ошибки при вызове инструментов: Для потоковых вызовов инструментов, которые Claude Code использует при выполнении функций или скриптов, требуется версия Ollama 0.14.3-rc1 или более поздняя. Более ранние версии серии 0.14.x имели неполную поддержку потоковых вызовов инструментов. # Проверьте свою версию Ollama ollama version # Если версия ниже 0.14.3, обновите Ollama curl -fsSL https://ollama.com/install.sh | sh
Ошибка заголовка anthropic-beta:
Вы увидите сообщение об ошибке: Error: Unexpected value(s) for the anthropic-beta header. Это происходит потому, что Claude Code добавляет экспериментальные бета-флаги, специфичные для Anthropic, которые локальные серверы не распознают. Исправьте это, добавив следующий код в блок env вашего файла settings.json:

«CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS»: «1»
Возврат к антропному API: # Сессия оболочки — отмените установку переменных перенаправления unset ANTHROPIC_BASE_URL unset ANTHROPIC_AUTH_TOKEN unset ANTHROPIC_DEFAULT_SONNET_MODEL unset ANTHROPIC_DEFAULT_HAIKU_MODEL unset ANTHROPIC_DEFAULT_OPUS_MODEL # Затем убедитесь, что установлен ваш реальный ключ API echo $ANTHROPIC_API_KEY # Должен отобразиться ваш ключ sk-ant-…, а не заполнитель # Если вы использовали settings.json — удалите или закомментируйте блок env # и перезапустите Claude Code
Низкая скорость генерации: для задач генерации кода Клода с использованием агентов скорость генерации имеет значение, поскольку каждый вызов инструмента — это цикл «туда и обратно». Если скорость недостаточна:
- Переключитесь на модель меньшего размера или с более агрессивным квантованием (Q4_K_M вместо Q8).
- Включите параметр —flash-attn в файле llama.cpp, если он еще не установлен.
- Уменьшите размер контекста (—ctx-size); более крупные контексты заполняются медленнее.
- В Ollama установите параметр OLLAMA_NUM_GPU_LAYERS=99 в настройках среды, чтобы принудительно включить максимальную разгрузку графического процессора.

# Заключение

То, что раньше требовало ненадежных адаптеров и обходных путей, теперь представляет собой пятиэтапный процесс. Установите бэкенд для вывода результатов, загрузите модель, установите три переменные среды, и Claude Code будет направлять запросы на ваш локальный компьютер вместо API Anthropic. Настройка займет менее пяти минут после загрузки модели.

В результате вы получаете помощника по программированию, который ничего не стоит после установки, не имеет ограничений по количеству запросов, хранит весь ваш код на вашем компьютере и охватывает подавляющее большинство реальных сценариев использования программирования на уровнях качества, недоступных в локальных моделях год назад. Начните с Ollama и glm-4.7-flash — у них самые низкие требования к оборудованию, наиболее стабильная поддержка вызова инструментов и самый быстрый путь к работающей настройке. После запуска масштабируйте модель в соответствии с вашим оборудованием и необходимым уровнем качества.

Шитту Олумиде — инженер-программист и технический писатель, увлеченный использованием передовых технологий для создания захватывающих повествований, обладающий острым вниманием к деталям и умением упрощать сложные концепты. Шитту также можно найти в Твиттере.

Источник: www.kdnuggets.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Сочетание кода Клода с локальными моделями

# Введение

# Как код Клода подключается к любой локальной модели

# Backend 1: Ollama

// Настройка кода Клода для использования Ollama

# Backend 2: LM Studio

# Backend 3: llama.cpp

# Полный файл settings.json

# Лучшие местные модели для Claude Code в 2026 году

# Устранение распространенных проблем

# Заключение

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

# Введение

# Как код Клода подключается к любой локальной модели

# Backend 1: Ollama

// Настройка кода Клода для использования Ollama

# Backend 2: LM Studio

# Backend 3: llama.cpp

# Полный файл settings.json

# Лучшие местные модели для Claude Code в 2026 году

# Устранение распространенных проблем

# Заключение

Похожие записи

Похожие записи

Супер-Земля, расположенная менее чем в 20 световых годах от нас,- захватывающий кандидат для поиска жизни

Приложения Agentic RAG: агенты Slack Knowledge компании

Системная карта Sora | OpenAI

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI