В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.

13.06.2026 ideipro.ru

Шон Майкл Кернер

На этой неделе компания Moonshot AI выпустила Kimi K2.7-Code, обновление с открытым исходным кодом для своего семейства моделей программирования K2, заявив о более простом алгоритме рассуждений и двузначном повышении производительности.

K2.7-Code построен на той же архитектуре с триллионом параметров, созданной на основе взаимодействия экспертов, что и его предшественник K2.6, и интегрируется через API, совместимый с OpenAI, что важно для команд, уже использующих K2.6 в производственных шлюзах.

Когда K2.6 был запущен в апреле, он возглавил еженедельный рейтинг LLM от OpenRouter — рейтинг, основанный на фактических решениях разработчиков по маршрутизации API, а не на самостоятельно заявленных результатах бенчмарков.

Компания Moonshot AI утверждает, что K2.7-Code решает проблему, которую они называют «избыточным обдумыванием», сокращая использование токенов мышления на 30% по сравнению с K2.6 — цифра, которая напрямую повлияет на затраты на вывод данных для команд, использующих агентные рабочие процессы. Вопрос о том, сохранится ли это повышение эффективности в независимых сравнительных тестах, уже начал подниматься практикующими специалистами.

Что такое Kimi K2.7-Code?

K2.7-Code распространяется под модифицированной лицензией MIT, а веса доступны на HuggingFace. Модель может быть развернута с помощью vLLM или SGLang. Она работает исключительно в режиме обдумывания и не поддерживает настройку температуры — Moonshot AI исправила это в версии 1.0, а это значит, что команды не могут настраивать детерминированность выходных данных так же, как это можно делать с другими моделями.

Ключевое отличие от K2.6 заключается в способе генерации низкоуровневого кода. Если K2.6 создавал реализации путем обертывания существующих библиотек и маршрутизации через устоявшиеся фреймворки, то K2.7-Code создает реализации напрямую. Moonshot AI утверждает, что это обеспечивает более надежную обобщающую способность для Rust, Go и Python, а также для различных типов задач, включая разработку фронтенда, DevOps и оптимизацию производительности.

По результатам бенчмарков, Moonshot AI заявляет о приросте производительности на 21,8% в Kimi Code Bench v2, на 11% в Program Bench и на 31,5% в MLS Bench Lite. Все три теста являются собственными разработками Moonshot AI. Модель не была протестирована в DeepSWE, независимом тесте для оценки производительности кодирования, который показывает разброс результатов в 70 пунктов по всем моделям — по сравнению с 30 пунктами в SWE-Bench Pro — что делает его более информативным сигналом для команд, настраивающих системы маршрутизации моделей.

VB Transform · 14–15 июля · Менло-Парк · Инфраструктура для вывода данных и искусственного интеллекта

Компания GM добилась 300-процентного роста числа объединенных PR-кампаний, перепроектировав свою архитектуру для агентов. Вот что они создали.

На конференции Transform в рамках направления «Инфраструктура» рассматриваются вопросы генерации видео в реальном времени, стеки межмашинного анализа и то, что действительно необходимо для запуска агентов в масштабах предприятия.

Ознакомиться с полной программой →

Более честный, но от этого слабее.

Ситуация, если не учитывать собственные тесты Moonshot, гораздо сложнее.

Исследователь Эллиот Арледж сравнил K2.7-Code с K2.6 и Claude Fable 5 на KernelBench-Hard, общедоступном бенчмарке, ориентированном на оптимизацию ядра GPU, и опубликовал полные журналы своих запусков на kernelbench.com.

«K2.7 честнее, но не способнее», — написал Арледж на X.

В пяти из шести задач K2.7-Code выдал реальные авторские ядра Triton, тогда как K2.6 использовал библиотечные обертки. Два из этих ядер завершились с ошибкой, допущенной самой моделью. Результат ядра MoE снизился с 0,222 (K2.6) до 0,157.

«Для сравнения, Fable превосходит все остальные игры, в которых честно не проигрывает», — написал Арледж.

Сугумаран Баласубраманиян, разработчик, создавший модель-маршрутизатор задач для платформы Hermes Agent, используя DeepSWE в качестве эталонного сигнала, публично отреагировал на выпуск K2.7-Code и напрямую оспорил выбор бенчмарков у Moonshot AI.

«С уважением, каждая модель „улучшает“ результаты на двузначное число процентов в своем собственном наборе тестов», — написал Баласубраманиян на X.

Он отметил, что K2.6 набрал 24% в DeepSWE, сравнявшись с GPT-5.4-mini, и спросил, будет ли Moonshot AI тестировать K2.7-Code на том же бенчмарке.

Баласубраманиян сказал, что потребовалось 13 раундов проверки, чтобы получить правильные данные для бенчмарка его маршрутизатора, и что он передаст задачи по программированию компании K2.7-Code, если независимые результаты подтвердятся.

Что это значит для предприятий

Повышение эффективности использования токенов становится ощутимым уже сейчас. Команды, использующие K2.6 в производственной среде, могут заменить его на K2.7-Code через API, совместимый с OpenAI, и ожидать снижения затрат на вывод данных в агентных рабочих процессах без изменения архитектуры. Снижение количества токенов, необходимых для анализа данных, на 30% — это собственное число Moonshot, но путь интеграции достаточно безопасен, чтобы протестировать его на собственных рабочих нагрузках перед принятием окончательного решения.

Практический вопрос заключается в том, сохраняются ли эти преимущества в эффективности при распределении задач внутри команды. Запуск K2.7-Code на собственных рабочих нагрузках перед корректировкой весовых коэффициентов шлюза — это наименее рискованный способ это выяснить.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.

Что такое Kimi K2.7-Code?

Более честный, но от этого слабее.

Что это значит для предприятий

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Что такое Kimi K2.7-Code?

Более честный, но от этого слабее.

Что это значит для предприятий

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Индия планирует проверять и регистрировать каждый находящийся в обращении смартфон

Что будет, если заставить ИИ-агента работать с тысячами API

Про технологии: Нейросети: +1 в команде, часть 1

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI