Новая модель Google Gemma 4 12B предназначена для работы на любом ноутбуке с 16 ГБ оперативной памяти.
Gemma 4 12B использует новую схему кодирования и предсказание токенов, что позволяет ей превосходить ожидания.
Источник: Google Источник: Google
Бум генеративного ИИ взвинтил стоимость памяти до заоблачных высот, и Google играет ключевую роль в этой тенденции. Поэтому вполне логично, что Google предлагает несколько менее требовательных к оперативной памяти локальных моделей ИИ. Компания анонсировала выпуск новой модели Gemma 4, которая заполняет пробел в линейке, запущенной ранее в этом году. Новая модель достаточно эффективна, чтобы её можно было запустить на довольно среднем потребительском ноутбуке.
В апреле Google выпустила четыре модели семейства Gemma 4, что также ознаменовало переход к более открытой лицензии Apache 2.0. Первоначальные модели включали два варианта, оптимизированных для мобильных устройств (E2B и E4B), а также пару моделей для более серьезной работы (26B Mixture of Experts и 31B Dense). Это оставило довольно большую незаполненную нишу посередине, и именно там находится новая модель.
Gemma 4 12B значительно превосходит мобильные версии по производительности, но для её локального запуска не потребуется ускоритель ИИ стоимостью 20 000 долларов. Google утверждает, что уникальность Gemma 4 12B заключается в том, что она может работать на многих потребительских ноутбуках без потери качества. При наличии компьютера с 16 ГБ системной оперативной или видеопамяти, модель с 12 миллиардами параметров будет работать. Это примерно половина общего объема памяти Gemma 4 26B MoE, и Google утверждает, что новая модель почти так же производительна, по крайней мере, по результатам бенчмарков.
Gemma 4 12B почти так же функциональна, как и версия с 26 миллиардами параметров. Источник: Google.Google утверждает, что новая модель способна к сложным многоэтапным рассуждениям и агентным рабочим процессам, которые ранее требовали более крупных вариантов Gemma. Несмотря на меньшее количество параметров, Gemma 4 12B поставляется с недавно разработанными алгоритмами прогнозирования множественных токенов (MTP), которые используют неиспользуемые вычислительные циклы для расчета возможных будущих токенов. Результатом является повышение скорости и эффективности. Google выпустила опциональные версии MTP для других моделей Gemma 4, но это первая модель, в которой MTP включена «из коробки».
Gemma 4 12B также более эффективна благодаря новому подходу к мультимодальности. Семейство Gemma 4 изначально мультимодально, принимая в качестве входных данных текст, аудио или изображения. Большинство моделей искусственного интеллекта, включая другие варианты Gemma 4, используют специальные кодировщики для обработки нетекстовых входных данных и передачи этих данных в LLM. Это работает достаточно хорошо, но увеличивает задержку и потребление памяти.
В новой модели среднего веса Google реализовала упрощенный модуль встраивания для обработки изображений, включающий умножение одной матрицы и позиционное встраивание, что позволяет передавать данные в LLM с правильным пространственным представлением. Это устраняет необходимость в громоздком промежуточном кодировщике. Для аудио кодирование вообще отсутствует. Разработчики разработали метод проецирования необработанного аудиосигнала в те же векторы, которые используются для текстовых токенов.
Если вы хотите ознакомиться с новой моделью Gemma 4, она доступна без скачивания через такие инструменты, как LM Studio, Google AI Edge Gallery и другие. Но вся идея Gemma 4 12B заключается в том, что вы можете запускать её локально и на своих условиях. Если у вас достаточно оперативной памяти, веса модели доступны для немедленной загрузки на Kaggle и Hugging Face. Размер файла составляет чуть менее 18 ГБ.
Источник: arstechnica.com


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.