5 небольших языковых моделей для вызова инструментов агента
Вот 5 небольших языковых моделей, которые объединяет одна важная черта: все они поддерживают структурированный вызов инструментов в компактном, открытом пакете.

# Введение
Системы агентного ИИ зависят от способности модели надежно вызывать инструменты, выбирая правильную функцию, корректно форматируя аргументы и интегрируя результаты в многоэтапные рабочие процессы. Крупные перспективные модели, такие как ChatGPT, Claude и Gemini, хорошо справляются с этим, но они сопряжены с компромиссами в стоимости, задержке и требованиях к оборудованию, что делает их непрактичными для многих реальных задач. Небольшие языковые модели успешно заполнили этот пробел, и несколько компактных, открытых вариантов теперь предлагают первоклассную поддержку вызова инструментов без необходимости использования центра обработки данных для их запуска.
А теперь, в произвольном порядке, представляем 5 небольших языковых моделей для вызова инструментов агентами. Обратите внимание, что для удобства и согласованности все ссылки на модели ведут к моделям, размещенным на платформе Hugging Face.
# 1. SmolLM3-3B
- Дата выхода: 8 июля 2025 года
- Разработчик: Hugging Face
- Местоположение: HuggingFaceTB/SmolLM3-3B
| Технический аспект | Подробности |
|---|---|
| Параметры | 3Б |
| Архитектура | Трансформатор только для декодера (GQA + NoPE, соотношение 3:1) |
| Длина контекста | 64K в нативном режиме; до 128K с экстраполяцией YaRN. |
| Тренировочные токены | 11.2Т |
| Многоязычная поддержка | 6 языков (EN, FR, ES, DE, IT, PT) |
| Режим рассуждений | Двухрежимный (переключение между режимом обдумывания и режимом бездумного ожидания) |
| Вызов инструмента | Да: JSON/XML (xml_tools) и Python (python_tools) |
| Лицензия | Apache 2.0 |
SmolLM3 — это языковая модель с 3 миллиардами параметров, разработанная для расширения возможностей небольших моделей, поддерживающая двухрежимное рассуждение, 6 языков и длинный контекст. Это трансформер, использующий только декодер, групповое внимание к запросам (GQA) и отсутствие позиционных встраиваний (NoPE) (в соотношении 3:1), предварительно обученный на 11,2 миллиардах токенов с поэтапной программой обучения, включающей веб-данные, код, математические данные и данные для рассуждений. После обучения был проведен промежуточный этап на 140 миллиардах токенов для рассуждений, за которым последовала контролируемая тонкая настройка и выравнивание с помощью оптимизации привязанных предпочтений (APO), подхода HuggingFace к выравниванию предпочтений вне политики. Модель поддерживает два различных интерфейса вызова инструментов: JSON/XML-объекты через xml_tools и вызовы функций в стиле Python через python_tools, что делает ее очень гибкой для агентных конвейеров и систем RAG. Будучи полностью открытой версией, включающей веса, наборы данных и код обучения, SmolLM3 идеально подходит для чат-ботов, систем RAG и программных помощников на оборудовании с ограниченными ресурсами, таком как периферийные устройства или машины с малым объемом видеопамяти.
# 2. Qwen3-4B-Instruct-2507
- Дата выхода: 6 августа 2025 года
- Разработчик: Alibaba (команда Qwen)
- Место проведения: Qwen/Qwen3-4B-Instruct-2507
| Технический аспект | Подробности |
|---|---|
| Параметры | 4.0B (3.6B без встраивания) |
| Архитектура | Причинно-следственная LM, 36 слоев, GQA (32 Q-головки / 8 KV-головок) |
| Длина контекста | 262 144 токенов (нативные) |
| Режим рассуждений | Только немыслительные действия (никаких блоков мышления) |
| Многоязычный | Более 100 языков |
| Вызов инструмента | Да: нативный, через Qwen-Agent / MCP |
| Лицензия | Apache 2.0 |
Qwen3-4B-Instruct-2507 — это обновлённая версия неразмышляющего режима Qwen3-4B, отличающаяся значительными улучшениями в общих возможностях, включая: следование инструкциям, логическое рассуждение, понимание текста, математику, естественные науки, программирование и использование инструментов. Она также обладает существенным улучшением охвата знаний в рамках многоязычной архитектуры. Как вариант Instruct, так и вариант Thinking используют в общей сложности 4 миллиарда параметров (3,6 миллиарда без учёта эмбеддингов), построенных на 36 слоях трансформеров, с использованием GQA с 32 заголовочными блоками запросов и 8 блоками ключ/значение, что обеспечивает эффективное управление памятью для очень длинных контекстов. Этот конкретный неразмышляющий вариант оптимизирован для сценариев использования с прямым и быстрым откликом, таких как предоставление кратких ответов без явных следов цепочки мыслей, что делает его хорошо подходящим для чат-ботов, служб поддержки клиентов и агентов вызова инструментов, где важна низкая задержка. Qwen3 отличается превосходными возможностями вызова инструментов, и Alibaba рекомендует использовать фреймворк Qwen-Agent, который внутренне инкапсулирует шаблоны вызова инструментов и парсеры, снижая сложность кодирования, а также поддерживает файлы конфигурации сервера MCP.
# 3. Phi-3-mini-4k-instruct
- Дата выхода: апрель 2024 года
- Разработчик: Microsoft
- Местоположение: microsoft/Phi-3-mini-4k-instruct
| Технический аспект | Подробности |
|---|---|
| Параметры | 3.8Б |
| Архитектура | Трансформатор только для декодера |
| Длина контекста | 4K токенов |
| Размер словаря | 32 064 токенов |
| обучающие данные | Синтетические + отфильтрованные общедоступные веб-данные |
| После обучения | SFT + DPO |
| Вызов инструмента | Да: через шаблон чата (требуются трансформаторы HF ≥ 4.41.2) |
| Лицензия | MIT |
Phi-3-Mini-4K-Instruct — это облегченная, современная открытая модель с 3,8 миллиардами параметров, обученная на наборах данных Phi-3, включающих как синтетические данные, так и отфильтрованные общедоступные веб-данные, с акцентом на высокое качество и высокую вычислительную мощность. Модель прошла постобучение с использованием методов Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO) для обеспечения точности выполнения инструкций и безопасности. Флагманская модель Microsoft, «маленькая, но умная», Phi-3-mini, при запуске отличалась способностью работать на устройствах, включая смартфоны, и конкурировала с GPT-3.5 по производительности в тестах. Модель в первую очередь предназначена для сред с ограниченными ресурсами памяти и вычислительной мощности, сценариев с высокой задержкой и задач, требующих высокой вычислительной мощности, особенно математической и логической. Несмотря на то, что эта модель старше других в этом списке и ограничена контекстным окном 4K, лицензия MIT делает её одной из самых либеральных доступных версий, а её убедительная общая аргументация сделала её популярной основой для тонкой настройки в коммерческих приложениях.
# 4. Gemma-4-E2B-it
- Дата выхода: 2 апреля 2026 года
- Разработчик: Google DeepMind
- Местоположение: google/gemma-4-E2B-it
| Технический аспект | Подробности |
|---|---|
| Эффективные параметры | 2,3 млрд (всего 5,1 млрд с учетом встраиваний) |
| Архитектура | Плотное, гибридное внимание (скользящее окно + глобальное) + PLE |
| Слои | 35 |
| Раздвижное окно | 512 токенов |
| Длина контекста | 128 тыс. токенов |
| Размер словаря | 262K |
| Модальности | Текст, изображение, аудио (≤30 сек), видео (в виде кадров) |
| Многоязычный | Более 35 лет — носитель языка, владею более чем 140 языками. |
| Вызов инструмента | Да: вызов нативной функции |
| Лицензия | Apache 2.0 |
Gemma-4-E2B является частью семейства Gemma 4 от Google DeepMind, которое использует гибридный механизм внимания: локальное скользящее окно внимания и полное глобальное внимание. Такая конструкция обеспечивает высокую скорость обработки и низкое потребление памяти, характерные для легковесных моделей, без ущерба для глубокого понимания, необходимого для сложных задач с длинным контекстом. Буква «E» в E2B означает «эффективные» параметры, обеспечиваемые ключевым архитектурным нововведением, называемым Per-Layer Embeddings (PLE), которое добавляет выделенный вектор обусловливания на каждом слое декодера. Именно этот механизм позволяет E2B работать с объемом памяти менее 1,5 ГБ с квантизацией и при этом выдавать ценные результаты. Модель поддерживает вызов собственных функций, что позволяет использовать агентные рабочие процессы, и оптимизирована для развертывания на мобильных устройствах и устройствах IoT, способных обрабатывать текстовые, графические, аудио- и видеовходы. Выпущенная под лицензией Apache 2.0 (в отличие от более ограничительной пользовательской лицензии предыдущих поколений Gemma), Gemma 4 E2B является привлекательным вариантом для разработчиков, создающих многомодальные агентные приложения, работающие полностью на периферии сети.
# 5. Mistral-7B-Instruct-v0.3
- Дата выхода: 27 мая 2024 года
- Разработчик: Mitral AI
- Местоположение: Mistral-7B-Instruct-v0.3
| Технический аспект | Подробности |
|---|---|
| Параметры | 7.25B |
| Архитектура | Трансформатор, GQA + SWA |
| Длина контекста | 32 768 токенов |
| Размер словаря | 32 768 токенов (расширено по сравнению с версией 0.2) |
| Токенизатор | токенизатор Mistral v3 |
| Вызов функции | Да: через токены TOOL_CALLS / AVAILABLE_TOOLS / TOOL_RESULTS (см. здесь) |
| Лицензия | Apache 2.0 |
Mistral-7B-Instruct-v0.3 — это оптимизированная по алгоритмам инструкций версия Mistral-7B-v0.3, в которой по сравнению с v0.2 были внесены три ключевых изменения: расширенный словарь до 32 768 токенов, поддержка токенизатора v3 и поддержка вызова функций. Модель использует механизм внимания с групповыми запросами для более быстрого вывода и механизм внимания со скользящим окном (SWA) для эффективной обработки длинных последовательностей, а поддержка вызова функций обеспечивается расширенным словарем, включающим выделенные токены для TOOL_CALLS, AVAILABLE_TOOLS и TOOL_RESULTS. Будучи самой крупной моделью в этом обзоре (7 миллиардов параметров), Mistral-7B-Instruct-v0.3 предлагает наилучшую общую производительность при следовании инструкциям в группе и стала отраслевым стандартом, широко доступным через Ollama, vLLM и большинство платформ вывода.
# Завершение
Пять рассматриваемых здесь моделей — SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it и Mistral-7B-Instruct-v0.3 — охватывают широкий спектр архитектур, количества параметров, контекстных окон и дат выпуска, но всех их объединяет одна важная черта: все они поддерживают структурированный вызов инструментов в компактном, открытом пакете.
От полностью прозрачной модели SmolLM3 от Hugging Face до оптимизированной для многомодальных периферийных вычислений модели Gemma 4 E2B от Google DeepMind — представленный выбор демонстрирует, что для развертывания эффективных агентных моделей больше не требуется масштабная инфраструктура и передовые модели. Независимо от того, что для вас важнее — вывод данных на устройстве, обработка длинных контекстов, многоязычное покрытие или максимально либеральная лицензия, — в этом списке найдется модель, заслуживающая внимания.
Следует помнить, что это не единственные небольшие языковые модели с возможностью вызова инструментов. Однако они хорошо представляют те, с которыми у меня есть непосредственный опыт и которые я считаю целесообразным включить в список на основе полученных результатов.
Мэтью Мэйо ( @mattmayo13 ) имеет степень магистра компьютерных наук и диплом специалиста по анализу данных. Будучи главным редактором KDnuggets & Statology и внештатным редактором Machine Learning Mastery, Мэтью стремится сделать сложные концепции науки о данных доступными для всех. В сферу его профессиональных интересов входят обработка естественного языка, языковые модели, алгоритмы машинного обучения и изучение новых технологий искусственного интеллекта. Его движет стремление демократизировать знания в сообществе специалистов по науке о данных. Мэтью занимается программированием с 6 лет.
Источник: www.kdnuggets.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.