В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.
Шон Майкл Кернер
Источник: Изображение создано VentureBeat с помощью FLUX-2-Pro.
На этой неделе компания Moonshot AI выпустила Kimi K2.7-Code, обновление с открытым исходным кодом для своего семейства моделей программирования K2, заявив о более простом алгоритме рассуждений и двузначном повышении производительности.
K2.7-Code построен на той же архитектуре с триллионом параметров, созданной на основе взаимодействия экспертов, что и его предшественник K2.6, и интегрируется через API, совместимый с OpenAI, что важно для команд, уже использующих K2.6 в производственных шлюзах.
Когда K2.6 был запущен в апреле, он возглавил еженедельный рейтинг LLM от OpenRouter — рейтинг, основанный на фактических решениях разработчиков по маршрутизации API, а не на самостоятельно заявленных результатах бенчмарков.
Компания Moonshot AI утверждает, что K2.7-Code решает проблему, которую они называют «избыточным обдумыванием», сокращая использование токенов мышления на 30% по сравнению с K2.6 — цифра, которая напрямую повлияет на затраты на вывод данных для команд, использующих агентные рабочие процессы. Вопрос о том, сохранится ли это повышение эффективности в независимых сравнительных тестах, уже начал подниматься практикующими специалистами.
Что такое Kimi K2.7-Code?
K2.7-Code распространяется под модифицированной лицензией MIT, а веса доступны на HuggingFace. Модель может быть развернута с помощью vLLM или SGLang. Она работает исключительно в режиме обдумывания и не поддерживает настройку температуры — Moonshot AI исправила это в версии 1.0, а это значит, что команды не могут настраивать детерминированность выходных данных так же, как это можно делать с другими моделями.
Ключевое отличие от K2.6 заключается в способе генерации низкоуровневого кода. Если K2.6 создавал реализации путем обертывания существующих библиотек и маршрутизации через устоявшиеся фреймворки, то K2.7-Code создает реализации напрямую. Moonshot AI утверждает, что это обеспечивает более надежную обобщающую способность для Rust, Go и Python, а также для различных типов задач, включая разработку фронтенда, DevOps и оптимизацию производительности.
По результатам бенчмарков, Moonshot AI заявляет о приросте производительности на 21,8% в Kimi Code Bench v2, на 11% в Program Bench и на 31,5% в MLS Bench Lite. Все три теста являются собственными разработками Moonshot AI. Модель не была протестирована в DeepSWE, независимом тесте для оценки производительности кодирования, который показывает разброс результатов в 70 пунктов по всем моделям — по сравнению с 30 пунктами в SWE-Bench Pro — что делает его более информативным сигналом для команд, настраивающих системы маршрутизации моделей.
VB Transform · 14–15 июля · Менло-Парк · Инфраструктура для вывода данных и искусственного интеллекта
Компания GM добилась 300-процентного роста числа объединенных PR-кампаний, перепроектировав свою архитектуру для агентов. Вот что они создали.
На конференции Transform в рамках направления «Инфраструктура» рассматриваются вопросы генерации видео в реальном времени, стеки межмашинного анализа и то, что действительно необходимо для запуска агентов в масштабах предприятия.
Ознакомиться с полной программой →
Более честный, но от этого слабее.
Ситуация, если не учитывать собственные тесты Moonshot, гораздо сложнее.
Исследователь Эллиот Арледж сравнил K2.7-Code с K2.6 и Claude Fable 5 на KernelBench-Hard, общедоступном бенчмарке, ориентированном на оптимизацию ядра GPU, и опубликовал полные журналы своих запусков на kernelbench.com.
«K2.7 честнее, но не способнее», — написал Арледж на X.
В пяти из шести задач K2.7-Code выдал реальные авторские ядра Triton, тогда как K2.6 использовал библиотечные обертки. Два из этих ядер завершились с ошибкой, допущенной самой моделью. Результат ядра MoE снизился с 0,222 (K2.6) до 0,157.
«Для сравнения, Fable превосходит все остальные игры, в которых честно не проигрывает», — написал Арледж.
Сугумаран Баласубраманиян, разработчик, создавший модель-маршрутизатор задач для платформы Hermes Agent, используя DeepSWE в качестве эталонного сигнала, публично отреагировал на выпуск K2.7-Code и напрямую оспорил выбор бенчмарков у Moonshot AI.
«С уважением, каждая модель „улучшает“ результаты на двузначное число процентов в своем собственном наборе тестов», — написал Баласубраманиян на X.
Он отметил, что K2.6 набрал 24% в DeepSWE, сравнявшись с GPT-5.4-mini, и спросил, будет ли Moonshot AI тестировать K2.7-Code на том же бенчмарке.
Баласубраманиян сказал, что потребовалось 13 раундов проверки, чтобы получить правильные данные для бенчмарка его маршрутизатора, и что он передаст задачи по программированию компании K2.7-Code, если независимые результаты подтвердятся.
Что это значит для предприятий
Повышение эффективности использования токенов становится ощутимым уже сейчас. Команды, использующие K2.6 в производственной среде, могут заменить его на K2.7-Code через API, совместимый с OpenAI, и ожидать снижения затрат на вывод данных в агентных рабочих процессах без изменения архитектуры. Снижение количества токенов, необходимых для анализа данных, на 30% — это собственное число Moonshot, но путь интеграции достаточно безопасен, чтобы протестировать его на собственных рабочих нагрузках перед принятием окончательного решения.
Практический вопрос заключается в том, сохраняются ли эти преимущества в эффективности при распределении задач внутри команды. Запуск K2.7-Code на собственных рабочих нагрузках перед корректировкой весовых коэффициентов шлюза — это наименее рискованный способ это выяснить.

Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
Похожие записи
- SK hynix почти готова к массовому производству 375-слойной памяти 3D NAND
- Защищено профессионалами: система охранной сигнализации Dahua AirShield переопределяет интегрированную интеллектуальную безопасность
- Мансардное окно Philips позволяет воссоздать естественный дневной свет в любом уголке вашего дома.
Похожие записи
«Воровство» космического масштаба: Луну уличили в поглощении атмосферы нашей планеты
14.01.2026Компания Gateway Capital объявляет о первом этапе привлечения средств в размере 25 миллионов долларов США для фонда Fund II.
04.04.2026
