5 небольших языковых моделей для вызова инструментов агента

Вот 5 небольших языковых моделей, которые объединяет одна важная черта: все они поддерживают структурированный вызов инструментов в компактном, открытом пакете.

# Введение

Системы агентного ИИ зависят от способности модели надежно вызывать инструменты, выбирая правильную функцию, корректно форматируя аргументы и интегрируя результаты в многоэтапные рабочие процессы. Крупные перспективные модели, такие как ChatGPT, Claude и Gemini, хорошо справляются с этим, но они сопряжены с компромиссами в стоимости, задержке и требованиях к оборудованию, что делает их непрактичными для многих реальных задач. Небольшие языковые модели успешно заполнили этот пробел, и несколько компактных, открытых вариантов теперь предлагают первоклассную поддержку вызова инструментов без необходимости использования центра обработки данных для их запуска.

А теперь, в произвольном порядке, представляем 5 небольших языковых моделей для вызова инструментов агентами. Обратите внимание, что для удобства и согласованности все ссылки на модели ведут к моделям, размещенным на платформе Hugging Face.

# 1. SmolLM3-3B

Дата выхода: 8 июля 2025 года
Разработчик: Hugging Face
Местоположение: HuggingFaceTB/SmolLM3-3B

Технический аспект	Подробности
Параметры	3Б
Архитектура	Трансформатор только для декодера (GQA + NoPE, соотношение 3:1)
Длина контекста	64K в нативном режиме; до 128K с экстраполяцией YaRN.
Тренировочные токены	11.2Т
Многоязычная поддержка	6 языков (EN, FR, ES, DE, IT, PT)
Режим рассуждений	Двухрежимный (переключение между режимом обдумывания и режимом бездумного ожидания)
Вызов инструмента	Да: JSON/XML (xml_tools) и Python (python_tools)
Лицензия	Apache 2.0

SmolLM3 — это языковая модель с 3 миллиардами параметров, разработанная для расширения возможностей небольших моделей, поддерживающая двухрежимное рассуждение, 6 языков и длинный контекст. Это трансформер, использующий только декодер, групповое внимание к запросам (GQA) и отсутствие позиционных встраиваний (NoPE) (в соотношении 3:1), предварительно обученный на 11,2 миллиардах токенов с поэтапной программой обучения, включающей веб-данные, код, математические данные и данные для рассуждений. После обучения был проведен промежуточный этап на 140 миллиардах токенов для рассуждений, за которым последовала контролируемая тонкая настройка и выравнивание с помощью оптимизации привязанных предпочтений (APO), подхода HuggingFace к выравниванию предпочтений вне политики. Модель поддерживает два различных интерфейса вызова инструментов: JSON/XML-объекты через xml_tools и вызовы функций в стиле Python через python_tools, что делает ее очень гибкой для агентных конвейеров и систем RAG. Будучи полностью открытой версией, включающей веса, наборы данных и код обучения, SmolLM3 идеально подходит для чат-ботов, систем RAG и программных помощников на оборудовании с ограниченными ресурсами, таком как периферийные устройства или машины с малым объемом видеопамяти.

# 2. Qwen3-4B-Instruct-2507

Дата выхода: 6 августа 2025 года
Разработчик: Alibaba (команда Qwen)
Место проведения: Qwen/Qwen3-4B-Instruct-2507

Технический аспект	Подробности
Параметры	4.0B (3.6B без встраивания)
Архитектура	Причинно-следственная LM, 36 слоев, GQA (32 Q-головки / 8 KV-головок)
Длина контекста	262 144 токенов (нативные)
Режим рассуждений	Только немыслительные действия (никаких блоков мышления)
Многоязычный	Более 100 языков
Вызов инструмента	Да: нативный, через Qwen-Agent / MCP
Лицензия	Apache 2.0

Qwen3-4B-Instruct-2507 — это обновлённая версия неразмышляющего режима Qwen3-4B, отличающаяся значительными улучшениями в общих возможностях, включая: следование инструкциям, логическое рассуждение, понимание текста, математику, естественные науки, программирование и использование инструментов. Она также обладает существенным улучшением охвата знаний в рамках многоязычной архитектуры. Как вариант Instruct, так и вариант Thinking используют в общей сложности 4 миллиарда параметров (3,6 миллиарда без учёта эмбеддингов), построенных на 36 слоях трансформеров, с использованием GQA с 32 заголовочными блоками запросов и 8 блоками ключ/значение, что обеспечивает эффективное управление памятью для очень длинных контекстов. Этот конкретный неразмышляющий вариант оптимизирован для сценариев использования с прямым и быстрым откликом, таких как предоставление кратких ответов без явных следов цепочки мыслей, что делает его хорошо подходящим для чат-ботов, служб поддержки клиентов и агентов вызова инструментов, где важна низкая задержка. Qwen3 отличается превосходными возможностями вызова инструментов, и Alibaba рекомендует использовать фреймворк Qwen-Agent, который внутренне инкапсулирует шаблоны вызова инструментов и парсеры, снижая сложность кодирования, а также поддерживает файлы конфигурации сервера MCP.

# 3. Phi-3-mini-4k-instruct

Дата выхода: апрель 2024 года
Разработчик: Microsoft
Местоположение: microsoft/Phi-3-mini-4k-instruct

Технический аспект	Подробности
Параметры	3.8Б
Архитектура	Трансформатор только для декодера
Длина контекста	4K токенов
Размер словаря	32 064 токенов
обучающие данные	Синтетические + отфильтрованные общедоступные веб-данные
После обучения	SFT + DPO
Вызов инструмента	Да: через шаблон чата (требуются трансформаторы HF ≥ 4.41.2)
Лицензия	MIT

Phi-3-Mini-4K-Instruct — это облегченная, современная открытая модель с 3,8 миллиардами параметров, обученная на наборах данных Phi-3, включающих как синтетические данные, так и отфильтрованные общедоступные веб-данные, с акцентом на высокое качество и высокую вычислительную мощность. Модель прошла постобучение с использованием методов Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO) для обеспечения точности выполнения инструкций и безопасности. Флагманская модель Microsoft, «маленькая, но умная», Phi-3-mini, при запуске отличалась способностью работать на устройствах, включая смартфоны, и конкурировала с GPT-3.5 по производительности в тестах. Модель в первую очередь предназначена для сред с ограниченными ресурсами памяти и вычислительной мощности, сценариев с высокой задержкой и задач, требующих высокой вычислительной мощности, особенно математической и логической. Несмотря на то, что эта модель старше других в этом списке и ограничена контекстным окном 4K, лицензия MIT делает её одной из самых либеральных доступных версий, а её убедительная общая аргументация сделала её популярной основой для тонкой настройки в коммерческих приложениях.

# 4. Gemma-4-E2B-it

Дата выхода: 2 апреля 2026 года
Разработчик: Google DeepMind
Местоположение: google/gemma-4-E2B-it

Технический аспект	Подробности
Эффективные параметры	2,3 млрд (всего 5,1 млрд с учетом встраиваний)
Архитектура	Плотное, гибридное внимание (скользящее окно + глобальное) + PLE
Слои	35
Раздвижное окно	512 токенов
Длина контекста	128 тыс. токенов
Размер словаря	262K
Модальности	Текст, изображение, аудио (≤30 сек), видео (в виде кадров)
Многоязычный	Более 35 лет — носитель языка, владею более чем 140 языками.
Вызов инструмента	Да: вызов нативной функции
Лицензия	Apache 2.0

Gemma-4-E2B является частью семейства Gemma 4 от Google DeepMind, которое использует гибридный механизм внимания: локальное скользящее окно внимания и полное глобальное внимание. Такая конструкция обеспечивает высокую скорость обработки и низкое потребление памяти, характерные для легковесных моделей, без ущерба для глубокого понимания, необходимого для сложных задач с длинным контекстом. Буква «E» в E2B означает «эффективные» параметры, обеспечиваемые ключевым архитектурным нововведением, называемым Per-Layer Embeddings (PLE), которое добавляет выделенный вектор обусловливания на каждом слое декодера. Именно этот механизм позволяет E2B работать с объемом памяти менее 1,5 ГБ с квантизацией и при этом выдавать ценные результаты. Модель поддерживает вызов собственных функций, что позволяет использовать агентные рабочие процессы, и оптимизирована для развертывания на мобильных устройствах и устройствах IoT, способных обрабатывать текстовые, графические, аудио- и видеовходы. Выпущенная под лицензией Apache 2.0 (в отличие от более ограничительной пользовательской лицензии предыдущих поколений Gemma), Gemma 4 E2B является привлекательным вариантом для разработчиков, создающих многомодальные агентные приложения, работающие полностью на периферии сети.

# 5. Mistral-7B-Instruct-v0.3

Дата выхода: 27 мая 2024 года
Разработчик: Mitral AI
Местоположение: Mistral-7B-Instruct-v0.3

Технический аспект	Подробности
Параметры	7.25B
Архитектура	Трансформатор, GQA + SWA
Длина контекста	32 768 токенов
Размер словаря	32 768 токенов (расширено по сравнению с версией 0.2)
Токенизатор	токенизатор Mistral v3
Вызов функции	Да: через токены TOOL_CALLS / AVAILABLE_TOOLS / TOOL_RESULTS (см. здесь)
Лицензия	Apache 2.0

Mistral-7B-Instruct-v0.3 — это оптимизированная по алгоритмам инструкций версия Mistral-7B-v0.3, в которой по сравнению с v0.2 были внесены три ключевых изменения: расширенный словарь до 32 768 токенов, поддержка токенизатора v3 и поддержка вызова функций. Модель использует механизм внимания с групповыми запросами для более быстрого вывода и механизм внимания со скользящим окном (SWA) для эффективной обработки длинных последовательностей, а поддержка вызова функций обеспечивается расширенным словарем, включающим выделенные токены для TOOL_CALLS, AVAILABLE_TOOLS и TOOL_RESULTS. Будучи самой крупной моделью в этом обзоре (7 миллиардов параметров), Mistral-7B-Instruct-v0.3 предлагает наилучшую общую производительность при следовании инструкциям в группе и стала отраслевым стандартом, широко доступным через Ollama, vLLM и большинство платформ вывода.

# Завершение

Пять рассматриваемых здесь моделей — SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it и Mistral-7B-Instruct-v0.3 — охватывают широкий спектр архитектур, количества параметров, контекстных окон и дат выпуска, но всех их объединяет одна важная черта: все они поддерживают структурированный вызов инструментов в компактном, открытом пакете.

От полностью прозрачной модели SmolLM3 от Hugging Face до оптимизированной для многомодальных периферийных вычислений модели Gemma 4 E2B от Google DeepMind — представленный выбор демонстрирует, что для развертывания эффективных агентных моделей больше не требуется масштабная инфраструктура и передовые модели. Независимо от того, что для вас важнее — вывод данных на устройстве, обработка длинных контекстов, многоязычное покрытие или максимально либеральная лицензия, — в этом списке найдется модель, заслуживающая внимания.

Следует помнить, что это не единственные небольшие языковые модели с возможностью вызова инструментов. Однако они хорошо представляют те, с которыми у меня есть непосредственный опыт и которые я считаю целесообразным включить в список на основе полученных результатов.

Мэтью Мэйо ( @mattmayo13 ) имеет степень магистра компьютерных наук и диплом специалиста по анализу данных. Будучи главным редактором KDnuggets & Statology и внештатным редактором Machine Learning Mastery, Мэтью стремится сделать сложные концепции науки о данных доступными для всех. В сферу его профессиональных интересов входят обработка естественного языка, языковые модели, алгоритмы машинного обучения и изучение новых технологий искусственного интеллекта. Его движет стремление демократизировать знания в сообществе специалистов по науке о данных. Мэтью занимается программированием с 6 лет.

Источник: www.kdnuggets.com

✅ Найденные теги: 5, Вызова, Инструментов, Моделей, Небольших, новости, Языковых

5 небольших языковых моделей для вызова инструментов агента

# Введение

# 1. SmolLM3-3B

# 2. Qwen3-4B-Instruct-2507

# 3. Phi-3-mini-4k-instruct

# 4. Gemma-4-E2B-it

# 5. Mistral-7B-Instruct-v0.3

# Завершение

Добавить комментарий Отменить ответ

Новости других рубрик

# Введение

# 1. SmolLM3-3B

# 2. Qwen3-4B-Instruct-2507

# 3. Phi-3-mini-4k-instruct

# 4. Gemma-4-E2B-it

# 5. Mistral-7B-Instruct-v0.3

# Завершение

Похожие записи

Добавить комментарий Отменить ответ

Новости других рубрик