Image

Kimi представили новую модель — Kimi-Linear-48B-A3B-Base

07903b15a10f8bdd871656fd4af1b6f4

Модель хороша тем, что даёт почти уровень больших LLM на длинных контекстах, но при этом заметно экономит память и работает быстрее за счёт линейной архитектуры.

Что улучшили:

— требует до 75% меньше памяти на KV-кэш

— до 6.3? быстрее декодирование на длинных контекстах

Как устроена:

— гибридный подход: Kimi Delta Attention + MLA

— модель хорошо оптимизирована под длиннный контекст и высокую пропускную способность

По бенчмаркам модель обгоняет и MLA, и GDN-H, включая задачи с длинным контекстом. В задачах на рассуждения и длинную RL-генерацию Kimi-Linear показывает заметно лучшие результаты, чем MLA.

Архитектура модели пример того, как линейные attention-архитектуры выходят на уровень, где они конкурируют с классическими решениями не только по скорости, но и по качеству.

Github: github.com/MoonshotAI/Kimi-Linear

Hf: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

Источник: huggingface.co

Источник: ai-news.ru

✅ Найденные теги: Kimi, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Цифровой компонент на фоне блокчейн-технологии и сетевых данных.
Пирамида факторов риска, симптомов и локаций для тропических заболеваний.
Улучшение моделей работы мозга с помощью ZAPBench
ideipro logotyp
Программирование в стиле Vibe с чрезмерно усердным ИИ: уроки, извлеченные из использования Google AI Studio как инструмента командной работы.
Футуристический 3D-анализ почвы с деревьями в цифровом пространстве.
Смартфон Google Pixel синего цвета, вид сбоку.
Мем со сценой из "Властелина колец" и упоминанием "Звезды смерти" из "Звездных войн".
Image Not Found
ideipro logotyp

Материалы учредительного заседания Международного общества трактографии — IST 2025, Бордо.

arXiv:2602.12410v2 Тип объявления: replace-cross Аннотация: Данная подборка включает в себя тезисы докладов, представленных на постерных, презентационных и устных сессиях на первой конференции Международного общества трактографии (IST Conference 2025), состоявшейся в Бордо, Франция, с 13 по 16 октября…

Мар 5, 2026
Цифровой компонент на фоне блокчейн-технологии и сетевых данных.

Новый ИИ-агент учится использовать САПР для создания 3D-объектов по эскизам.

Виртуальный инструмент VideoCAD может повысить производительность дизайнеров и помочь в обучении инженеров основам автоматизированного проектирования. Инженеры из MIT стремятся упростить освоение САПР с помощью новой модели искусственного интеллекта, которая может использовать программное обеспечение САПР так же, как…

Мар 5, 2026
Пирамида факторов риска, симптомов и локаций для тропических заболеваний.

Сравнительный анализ программ магистратуры в области здравоохранения для глобального здравоохранения

Набор данных и конвейер для сравнительного анализа с использованием синтетических персон для понимания и оптимизации производительности LLM в отношении тропических и инфекционных заболеваний (TRINDs). Быстрые ссылки Бумага Делиться Скопировать ссылку × Крупные языковые модели (КГМ) продемонстрировали потенциал…

Мар 5, 2026
Улучшение моделей работы мозга с помощью ZAPBench

Улучшение моделей работы мозга с помощью ZAPBench

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука В сотрудничестве с HHMI Janelia и Гарвардом мы представляем ZAPBench — набор данных и эталонный набор для анализа активности всего мозга с…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых