Архив рубрики ~Лента новостей~

В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.

В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.
В Kimi K2.7-Code количество токенов для размышлений сокращается на 30%, но специалисты утверждают, что контрольные показатели не подтверждают эту теорию.

Шон Майкл Кернер

Источник: Изображение создано VentureBeat с помощью FLUX-2-Pro.

На этой неделе компания Moonshot AI выпустила Kimi K2.7-Code, обновление с открытым исходным кодом для своего семейства моделей программирования K2, заявив о более простом алгоритме рассуждений и двузначном повышении производительности.

K2.7-Code построен на той же архитектуре с триллионом параметров, созданной на основе взаимодействия экспертов, что и его предшественник K2.6, и интегрируется через API, совместимый с OpenAI, что важно для команд, уже использующих K2.6 в производственных шлюзах.

Когда K2.6 был запущен в апреле, он возглавил еженедельный рейтинг LLM от OpenRouter — рейтинг, основанный на фактических решениях разработчиков по маршрутизации API, а не на самостоятельно заявленных результатах бенчмарков.

Компания Moonshot AI утверждает, что K2.7-Code решает проблему, которую они называют «избыточным обдумыванием», сокращая использование токенов мышления на 30% по сравнению с K2.6 — цифра, которая напрямую повлияет на затраты на вывод данных для команд, использующих агентные рабочие процессы. Вопрос о том, сохранится ли это повышение эффективности в независимых сравнительных тестах, уже начал подниматься практикующими специалистами.

Что такое Kimi K2.7-Code?

K2.7-Code распространяется под модифицированной лицензией MIT, а веса доступны на HuggingFace. Модель может быть развернута с помощью vLLM или SGLang. Она работает исключительно в режиме обдумывания и не поддерживает настройку температуры — Moonshot AI исправила это в версии 1.0, а это значит, что команды не могут настраивать детерминированность выходных данных так же, как это можно делать с другими моделями.

Ключевое отличие от K2.6 заключается в способе генерации низкоуровневого кода. Если K2.6 создавал реализации путем обертывания существующих библиотек и маршрутизации через устоявшиеся фреймворки, то K2.7-Code создает реализации напрямую. Moonshot AI утверждает, что это обеспечивает более надежную обобщающую способность для Rust, Go и Python, а также для различных типов задач, включая разработку фронтенда, DevOps и оптимизацию производительности.

По результатам бенчмарков, Moonshot AI заявляет о приросте производительности на 21,8% в Kimi Code Bench v2, на 11% в Program Bench и на 31,5% в MLS Bench Lite. Все три теста являются собственными разработками Moonshot AI. Модель не была протестирована в DeepSWE, независимом тесте для оценки производительности кодирования, который показывает разброс результатов в 70 пунктов по всем моделям — по сравнению с 30 пунктами в SWE-Bench Pro — что делает его более информативным сигналом для команд, настраивающих системы маршрутизации моделей.

VB Transform · 14–15 июля · Менло-Парк · Инфраструктура для вывода данных и искусственного интеллекта

Компания GM добилась 300-процентного роста числа объединенных PR-кампаний, перепроектировав свою архитектуру для агентов. Вот что они создали.

На конференции Transform в рамках направления «Инфраструктура» рассматриваются вопросы генерации видео в реальном времени, стеки межмашинного анализа и то, что действительно необходимо для запуска агентов в масштабах предприятия.

Ознакомиться с полной программой →

Более честный, но от этого слабее.

Ситуация, если не учитывать собственные тесты Moonshot, гораздо сложнее.

Исследователь Эллиот Арледж сравнил K2.7-Code с K2.6 и Claude Fable 5 на KernelBench-Hard, общедоступном бенчмарке, ориентированном на оптимизацию ядра GPU, и опубликовал полные журналы своих запусков на kernelbench.com.

«K2.7 честнее, но не способнее», — написал Арледж на X.

В пяти из шести задач K2.7-Code выдал реальные авторские ядра Triton, тогда как K2.6 использовал библиотечные обертки. Два из этих ядер завершились с ошибкой, допущенной самой моделью. Результат ядра MoE снизился с 0,222 (K2.6) до 0,157.

«Для сравнения, Fable превосходит все остальные игры, в которых честно не проигрывает», — написал Арледж.

Сугумаран Баласубраманиян, разработчик, создавший модель-маршрутизатор задач для платформы Hermes Agent, используя DeepSWE в качестве эталонного сигнала, публично отреагировал на выпуск K2.7-Code и напрямую оспорил выбор бенчмарков у Moonshot AI.

«С уважением, каждая модель „улучшает“ результаты на двузначное число процентов в своем собственном наборе тестов», — написал Баласубраманиян на X.

Он отметил, что K2.6 набрал 24% в DeepSWE, сравнявшись с GPT-5.4-mini, и спросил, будет ли Moonshot AI тестировать K2.7-Code на том же бенчмарке.

Баласубраманиян сказал, что потребовалось 13 раундов проверки, чтобы получить правильные данные для бенчмарка его маршрутизатора, и что он передаст задачи по программированию компании K2.7-Code, если независимые результаты подтвердятся.

Что это значит для предприятий

Повышение эффективности использования токенов становится ощутимым уже сейчас. Команды, использующие K2.6 в производственной среде, могут заменить его на K2.7-Code через API, совместимый с OpenAI, и ожидать снижения затрат на вывод данных в агентных рабочих процессах без изменения архитектуры. Снижение количества токенов, необходимых для анализа данных, на 30% — это собственное число Moonshot, но путь интеграции достаточно безопасен, чтобы протестировать его на собственных рабочих нагрузках перед принятием окончательного решения.

Практический вопрос заключается в том, сохраняются ли эти преимущества в эффективности при распределении задач внутри команды. Запуск K2.7-Code на собственных рабочих нагрузках перед корректировкой весовых коэффициентов шлюза — это наименее рискованный способ это выяснить.

Transform: Посмотрите, кто участвует в CTA

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Code, Kimi, В, Количество, новости, Размышлений, Токенов
Читайте также
Архив рубрики ~Обо всем~ Облачные технологии против дымчатого леопарда: реакция Америки на центры обработки данных продемонстрирована в зоопарке Нэшвилла. Архив рубрики ~Обо всем~ Подвинься, Фиолетовая Морковка: мой любимый веганский набор для приготовления еды – это полная неожиданность. Архив рубрики ~Обо всем~ Страховочная система для каждой задачи: как собрать команду Клодов для выполнения одной работы. Архив рубрики ~Обо всем~ Игра Dave the Diver появится на iOS и Android в августе этого года. Архив рубрики ~Обо всем~ Я нашел лучшие предложения Apple в рамках Prime Day: MacBook, iPad, AirPods и многое другое. Архив рубрики ~Обо всем~ Я протестировал 12 проекторов с карданным подвесом. Вот тот, который я бы купил. Архив рубрики ~Обо всем~ Я думал, что разработка данных — это просто написание скриптов. Я ошибался. Архив рубрики ~Обо всем~ Механизмы нарушения регуляции эмоций при биполярном расстройстве Архив рубрики ~Обо всем~ Удостоенный наград исследователь обучил роботов делать обоснованные предположения. Архив рубрики ~Полезное~ Midjourney для чайников за пару минут Архив рубрики ~Полезное~ Как нейросети “понимают” команды: механика Prompt Engineering простыми словами Архив рубрики ~Обо всем~ Электрическое поле подавило температурные пульсации в пламени метана: Физика Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 12 июня, #1819 Архив рубрики ~Обо всем~ Прекратите возвращать плоский текст из PDF-файлов: реляционная структура, необходимая для RAG. Архив рубрики ~Обо всем~ Облачные технологии против дымчатого леопарда: реакция Америки на центры обработки данных продемонстрирована в зоопарке Нэшвилла. Архив рубрики ~Обо всем~ Подвинься, Фиолетовая Морковка: мой любимый веганский набор для приготовления еды – это полная неожиданность. Архив рубрики ~Обо всем~ Страховочная система для каждой задачи: как собрать команду Клодов для выполнения одной работы. Архив рубрики ~Обо всем~ Игра Dave the Diver появится на iOS и Android в августе этого года. Архив рубрики ~Обо всем~ Я нашел лучшие предложения Apple в рамках Prime Day: MacBook, iPad, AirPods и многое другое. Архив рубрики ~Обо всем~ Я протестировал 12 проекторов с карданным подвесом. Вот тот, который я бы купил. Архив рубрики ~Обо всем~ Я думал, что разработка данных — это просто написание скриптов. Я ошибался. Архив рубрики ~Обо всем~ Механизмы нарушения регуляции эмоций при биполярном расстройстве Архив рубрики ~Обо всем~ Удостоенный наград исследователь обучил роботов делать обоснованные предположения. Архив рубрики ~Полезное~ Midjourney для чайников за пару минут Архив рубрики ~Полезное~ Как нейросети “понимают” команды: механика Prompt Engineering простыми словами Архив рубрики ~Обо всем~ Электрическое поле подавило температурные пульсации в пламени метана: Физика Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 12 июня, #1819 Архив рубрики ~Обо всем~ Прекратите возвращать плоский текст из PDF-файлов: реляционная структура, необходимая для RAG.

Оставить комментарий