Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Новая открытая программа Google Gemma 4 12B анализирует аудио и видео и работает полностью локально на типичном корпоративном ноутбуке с 16 ГБ оперативной памяти.

Карл Франзен

Google Gemma gem на ноутбуке

Источник: VentureBeat, создано с помощью OpenAI ChatGPT-Images-2.0

В то время как многие поставщики моделей ИИ с открытым исходным кодом стремятся к созданию более крупных и мощных моделей, Google по-прежнему уделяет внимание более мелкому, локальному сегменту рынка. Сегодня технологический гигант выпустил Gemma 4 12B, модель с открытыми весами, содержащую 11,95 миллиардов параметров и распространяемую под разрешительной лицензией Apache 2.0, оптимизированную для локального выполнения на стандартном корпоративном ноутбуке с использованием всего 16 ГБ видеопамяти или унифицированной памяти.

Это означает, что корпоративные пользователи, желающие продолжать работу с ИИ во время полета без Wi-Fi или пытающиеся отключить его по соображениям безопасности, теперь могут делать это гораздо проще и с гораздо меньшими затратами (бесплатно скачивать и использовать).

Наиболее заметным достижением Gemma 4 12B является архитектура «Unified» без использования кодировщика, которая позволяет передавать необработанные аудиосигналы и визуальные патчи непосредственно в основную магистраль LLM без задержек и дополнительных затрат памяти, характерных для модулей вторичной обработки.

Доступная для немедленной загрузки на Hugging Face и Kaggle, а также для использования в Google AI Edge Gallery, Gemma 4 12B включает в себя контекстное окно с 256 000 токенов, встроенные возможности использования агентных инструментов и явный пошаговый режим рассуждений в высокооптимизированном формате, который устраняет разрыв между мобильными моделями на периферии сети и мощной инфраструктурой центров обработки данных.

Архитектурные изменения: понимание преимуществ отсутствия энкодера

Gemma 4 12B имеет большое значение для корпоративной архитектуры благодаря своей инновационной «унифицированной» структуре.

Традиционные мультимодальные системы обычно используют дискретные, отдельные кодировщики для преобразования аудиосигналов и визуальных данных в представления, которые может обрабатывать основная языковая модель.

Этот традиционный подход неизбежно увеличивает как задержку при выполнении вычислений, так и общее потребление памяти.

Gemma 4 12B кардинально меняет этот конвейер, функционируя полностью без этих вторичных кодировщиков. Вместо этого визуальные фрагменты и необработанные аудиоволны проецируются непосредственно в пространство встраивания основной большой языковой модели через легковесные линейные слои.

Визуальный энкодер заменен модулем с 35 миллионами параметров, использующим однократное матричное умножение, а аудиоэнкодер полностью исключен.

Для корпоративных инженерных команд эта унифицированная архитектура обеспечивает существенные операционные преимущества: меньшую задержку для многомодальных задач, сниженные требования к видеопамяти (до 16 ГБ — типично для ноутбуков) и возможность тонкой настройки всей многомодальной системы за один согласованный проход.

Показатели эффективности и основные возможности

Несмотря на компактные размеры, Gemma 4 12B демонстрирует результаты, близкие к показателям более крупной модели Google 26B Mixture-of-Experts.

Сравнительная таблица результатов теста Gemma 4 12B.

Сравнительная таблица результатов теста Gemma 4 12B. Источник: Google.

Помимо статических тестов производительности, модель поддерживает огромное контекстное окно из 256 000 токенов. Это критически важно для предприятий, которым необходимо обрабатывать объемные финансовые отчеты, обширные репозитории кода или стенограммы часовых совещаний.

Кроме того, Gemma 4 12B включает в себя встроенный «режим мышления», позволяющий пошагово прорабатывать ход рассуждений перед генерацией ответа. Также она обеспечивает встроенную поддержку вызова функций и системных подсказок, что является необходимым условием для создания высокоэффективных автономных программных агентов.

Вывод издания Enterprise: Стоит ли внедрять Gemma 4 12B?

Короткий ответ — да, при условии, что ваши операционные потребности соответствуют требованиям периферийных вычислений, строгой конфиденциальности данных или автоматизации на основе агентов. Однако внедрение не должно означать полную замену всей существующей инфраструктуры ИИ. Вместо этого техническим руководителям следует рассматривать Gemma 4 12B как специализированный инструмент, оптимизированный для конкретных условий развертывания.

  • Строгие требования к конфиденциальности данных и соблюдению нормативных требований : Многие предприятия работают в секторах с высоким уровнем регулирования, таких как здравоохранение, финансы или оборона, где передача конфиденциальных данных, проприетарного кода или секретных внутренних документов через API третьих лиц недопустима. Поскольку Gemma 4 12B достаточно мала, чтобы работать локально на машинах, оснащенных всего 16 ГБ видеопамяти или унифицированной памяти, организации могут обрабатывать конфиденциальные многомодальные данные полностью локально или непосредственно на ноутбуках сотрудников. Локальное выполнение исключает риск утечки данных и обеспечивает соответствие строгим нормативным требованиям.

  • Многомодальные рабочие процессы автономных агентов : если ваш план развития включает в себя взаимодействие автономных агентов с реальными входными данными, Gemma 4 12B идеально подходит в качестве механизма рассуждений. Сочетание вызова нативных функций, надежных возможностей программирования и способности обрабатывать аудио в реальном времени и изображения с переменным разрешением делает его очень подходящим для задач, связанных с агентами. Google одновременно выпустил специальный репозиторий навыков Gemma, специально предназначенный для поддержки разработки агентов с использованием этих новых моделей.

  • Экономически выгодные развертывания на периферии сети : Для приложений, работающих на периферии сети — таких как мониторинг складских запасов в розничной торговле с помощью камер, локальные киоски обслуживания клиентов или приложения для выездного обслуживания в автономном режиме — поддержание постоянного облачного соединения обходится дорого, а иногда и невозможно. Архитектура без кодировщика значительно снижает общую стоимость владения за счет уменьшения аппаратного порога, необходимого для выполнения вычислений. Развертывание высокопроизводительной модели 12B локально позволяет избежать повторяющихся затрат на API и непредсказуемого выставления счетов за облачные вычисления.

Когда следует рассматривать альтернативные решения

Несмотря на то, что Gemma 4 12B обладает широкими возможностями, она имеет определенные ограничения, которые должны учитывать технические руководители.

  • Массовый поиск знаний : Как и все большие языковые модели, Gemma 4 12B — это механизм рассуждений, а не статическая база данных. Если ваш основной сценарий использования основан на обширном, обобщенном поиске фактов без использования надежного конвейера генерации с расширением поиска, вам все равно могут потребоваться более крупные базовые модели.

  • Расширенная обработка видео и аудио : Модель имеет жесткие ограничения на обработку медиафайлов. Обработка аудиовходов строго ограничена 30 секундами, а понимание видео — 60 секундами (при условии обработки одного кадра в секунду). Предприятия, стремящиеся обрабатывать полнометражные видеоролики или большие аудиоархивы собственными силами, столкнутся с узкими местами и должны рассмотреть модели на основе API или архитектуры с разбивкой на фрагменты.

Внедрение и готовность экосистемы

Одним из самых веских аргументов в пользу внедрения этой модели в корпоративной среде является ее непосредственная совместимость с более широкой экосистемой разработки открытого исходного кода.

Google гарантирует, что Gemma 4 12B — это не изолированный эксперимент; она готова к использованию в производственной среде. Веса доступны на Hugging Face и Kaggle, а модель легко интегрируется со стандартными отраслевыми платформами развертывания, такими как vLLM, SGLang, MLX и llama.cpp.

Для организаций, глубоко интегрированных с Google Cloud, конечные точки можно быстро развернуть с помощью Gemini Enterprise Agent Platform Model Garden, Cloud Run или Google Kubernetes Engine.

Для руководителей предприятий, стремящихся децентрализовать свои рабочие нагрузки в области ИИ, Gemma 4 12B предлагает редкое сочетание эффективности, ориентированной на периферийные устройства, и передовых методов обработки данных. Если вашей организации требуется высококонфиденциальная многомодальная обработка без задержек и затрат, связанных с зависимостью от облака, Gemma 4 12B следует серьезно рассмотреть для вашего следующего производственного конвейера.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: 12B, Gemma, Google, Новая, новости, Открытая, программа

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Каждый байт имеет значение Архив рубрики ~Лента новостей~: По словам источника, компания Lovable заключила многолетнее соглашение с Google Cloud о пятикратном увеличении использования сервиса. Архив рубрики ~Лента новостей~: Тод Маховер получил медаль Джорджа Пибоди за вклад в музыку и технологии. Архив рубрики ~Лента новостей~: Тод Маховер получил медаль Джорджа Пибоди за вклад в музыку и технологии. Архив рубрики ~Лента новостей~: Следующая глава в области устойчивости к наводнениям: открытый исходный код гидрологической платформы Google. Архив рубрики ~Лента новостей~: Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов? Архив рубрики ~Лента новостей~: Демократы находятся на огромном перепутье в борьбе за пост губернатора Калифорнии | Норман Соломон Архив рубрики ~Лента новостей~: [Перевод] Квантовые компьютеры — не угроза 128-битным симметричным ключам