В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.
Шон Майкл Кернер
Источник: Изображение создано VentureBeat с помощью FLUX-2-Pro.
На этой неделе компания Moonshot AI выпустила Kimi K2.7-Code, обновление с открытым исходным кодом для своего семейства моделей программирования K2, заявив о более простом алгоритме рассуждений и двузначном повышении производительности.
K2.7-Code построен на той же архитектуре с триллионом параметров, созданной на основе взаимодействия экспертов, что и его предшественник K2.6, и интегрируется через API, совместимый с OpenAI, что важно для команд, уже использующих K2.6 в производственных шлюзах.
Когда K2.6 был запущен в апреле, он возглавил еженедельный рейтинг LLM от OpenRouter — рейтинг, основанный на фактических решениях разработчиков по маршрутизации API, а не на самостоятельно заявленных результатах бенчмарков.
Компания Moonshot AI утверждает, что K2.7-Code решает проблему, которую они называют «избыточным обдумыванием», сокращая использование токенов мышления на 30% по сравнению с K2.6 — цифра, которая напрямую повлияет на затраты на вывод данных для команд, использующих агентные рабочие процессы. Вопрос о том, сохранится ли это повышение эффективности в независимых сравнительных тестах, уже начал подниматься практикующими специалистами.
Что такое Kimi K2.7-Code?
K2.7-Code распространяется под модифицированной лицензией MIT, а веса доступны на HuggingFace. Модель может быть развернута с помощью vLLM или SGLang. Она работает исключительно в режиме обдумывания и не поддерживает настройку температуры — Moonshot AI исправила это в версии 1.0, а это значит, что команды не могут настраивать детерминированность выходных данных так же, как это можно делать с другими моделями.
Ключевое отличие от K2.6 заключается в способе генерации низкоуровневого кода. Если K2.6 создавал реализации путем обертывания существующих библиотек и маршрутизации через устоявшиеся фреймворки, то K2.7-Code создает реализации напрямую. Moonshot AI утверждает, что это обеспечивает более надежную обобщающую способность для Rust, Go и Python, а также для различных типов задач, включая разработку фронтенда, DevOps и оптимизацию производительности.
По результатам бенчмарков, Moonshot AI заявляет о приросте производительности на 21,8% в Kimi Code Bench v2, на 11% в Program Bench и на 31,5% в MLS Bench Lite. Все три теста являются собственными разработками Moonshot AI. Модель не была протестирована в DeepSWE, независимом тесте для оценки производительности кодирования, который показывает разброс результатов в 70 пунктов по всем моделям — по сравнению с 30 пунктами в SWE-Bench Pro — что делает его более информативным сигналом для команд, настраивающих системы маршрутизации моделей.
VB Transform · 14–15 июля · Менло-Парк · Инфраструктура для вывода данных и искусственного интеллекта
Компания GM добилась 300-процентного роста числа объединенных PR-кампаний, перепроектировав свою архитектуру для агентов. Вот что они создали.
На конференции Transform в рамках направления «Инфраструктура» рассматриваются вопросы генерации видео в реальном времени, стеки межмашинного анализа и то, что действительно необходимо для запуска агентов в масштабах предприятия.
Ознакомиться с полной программой →
Более честный, но от этого слабее.
Ситуация, если не учитывать собственные тесты Moonshot, гораздо сложнее.
Исследователь Эллиот Арледж сравнил K2.7-Code с K2.6 и Claude Fable 5 на KernelBench-Hard, общедоступном бенчмарке, ориентированном на оптимизацию ядра GPU, и опубликовал полные журналы своих запусков на kernelbench.com.
«K2.7 честнее, но не способнее», — написал Арледж на X.
В пяти из шести задач K2.7-Code выдал реальные авторские ядра Triton, тогда как K2.6 использовал библиотечные обертки. Два из этих ядер завершились с ошибкой, допущенной самой моделью. Результат ядра MoE снизился с 0,222 (K2.6) до 0,157.
«Для сравнения, Fable превосходит все остальные игры, в которых честно не проигрывает», — написал Арледж.
Сугумаран Баласубраманиян, разработчик, создавший модель-маршрутизатор задач для платформы Hermes Agent, используя DeepSWE в качестве эталонного сигнала, публично отреагировал на выпуск K2.7-Code и напрямую оспорил выбор бенчмарков у Moonshot AI.
«С уважением, каждая модель „улучшает“ результаты на двузначное число процентов в своем собственном наборе тестов», — написал Баласубраманиян на X.
Он отметил, что K2.6 набрал 24% в DeepSWE, сравнявшись с GPT-5.4-mini, и спросил, будет ли Moonshot AI тестировать K2.7-Code на том же бенчмарке.
Баласубраманиян сказал, что потребовалось 13 раундов проверки, чтобы получить правильные данные для бенчмарка его маршрутизатора, и что он передаст задачи по программированию компании K2.7-Code, если независимые результаты подтвердятся.
Что это значит для предприятий
Повышение эффективности использования токенов становится ощутимым уже сейчас. Команды, использующие K2.6 в производственной среде, могут заменить его на K2.7-Code через API, совместимый с OpenAI, и ожидать снижения затрат на вывод данных в агентных рабочих процессах без изменения архитектуры. Снижение количества токенов, необходимых для анализа данных, на 30% — это собственное число Moonshot, но путь интеграции достаточно безопасен, чтобы протестировать его на собственных рабочих нагрузках перед принятием окончательного решения.
Практический вопрос заключается в том, сохраняются ли эти преимущества в эффективности при распределении задач внутри команды. Запуск K2.7-Code на собственных рабочих нагрузках перед корректировкой весовых коэффициентов шлюза — это наименее рискованный способ это выяснить.

Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
Похожие записи
Похожие записи
Подробности крупной ставки Rivian на системы автономного вождения на основе искусственного интеллекта.
13.12.2025
PowerLattice привлекает инвестиции бывшего генерального директора Intel Пэта Гелсингера для своего энергосберегающего чиплета
17.11.2025
