
Мы отмечаем основные достижения Google Research на конференции I/O 2025, включая наши последние научные прорывы и вклад в модели Google Gemini и продукты генеративного искусственного интеллекта.
Каждый год на конференции Google I/O мы делимся некоторыми из самых передовых технологий Google. Мы показываем, как они могут быть полезны и предоставлять новые возможности, а также как разработчики и другие сообщества могут использовать их для инноваций. Многие из этих новых технологий появились в результате многолетней работы в Google Research, многие — в сотрудничестве с другими командами, опираясь на многочисленные последовательные прорывы в области ИИ и других областях компьютерных наук. В этом году конференция I/O подчеркивает влияние воплощения исследований в реальность. Как сказал Сундар: «Весь этот прогресс означает, что мы находимся на новом этапе перехода к новой платформе ИИ. Когда десятилетия исследований теперь становятся реальностью для людей, предприятий и сообществ по всему миру».
Помимо вклада Google Research в Gemini и продуктов генеративного ИИ, представленных на сцене I/O, вот некоторые из наших фаворитов этого года, демонстрирующие многолетние усилия Google Research по реализации волшебного цикла исследований.
MedGemma и AMIE: Развитие здравоохранения с помощью ИИ.
С момента первого представления Med-PaLM в 2022 году, а затем Med-PaLM2 и Med-Gemini, наши исследовательские группы постоянно совершенствуют ИИ, чтобы сделать здравоохранение более доступным и эффективным. На конференции I/O мы анонсировали MedGemma, самую мощную открытую модель Google для многомодального понимания медицинского текста и изображений. Она способна ускорить разработку новых продуктов для здравоохранения.
MedGemma основана на Gemma 3 и разработана как отправная точка для разработчиков, создающих приложения для здравоохранения, например, для анализа рентгеновских снимков или обобщения клинических данных. Небольшой размер позволяет эффективно настраивать её под конкретные нужды, а при оценке на бенчмарке MedQA её базовая производительность в задачах, связанных с клиническими знаниями и рассуждениями, сопоставима с производительностью гораздо более крупных моделей. Поскольку MedGemma является открытой моделью, её можно запускать в предпочитаемой разработчиком среде, включая платформу Google Cloud Platform или локально. Модели MedGemma 4B и 27B, работающие только с текстом, теперь доступны на HuggingFace и Vertex Model Garden в рамках нашей программы Health AI Developer Foundations (HAI-DEF).

Базовые показатели MedGemma в задачах на клинические знания и логическое мышление сопоставимы с показателями гораздо более крупных моделей.
MedGemma является продолжением нашего недавнего анонса AMIE, разработанного в сотрудничестве с Google DeepMind, который также был представлен на конференции I/O. AMIE — это исследовательский ИИ-агент для медицинских диагностических бесед. Новая мультимодальная версия может интеллектуально интерпретировать визуальную медицинскую информацию и рассуждать на её основе, помогая врачам ставить более точные диагнозы.
LearnLM: Делаем Gemini ведущей мировой моделью обучения
В течение почти двух лет наши команды в Google Research и по всей компании сотрудничали с экспертами в области образования над LearnLM — семейством тщательно разработанных моделей обучения. На конференции I/O мы объявили, что LearnLM теперь будет доступен непосредственно в Gemini 2.5, что делает его ведущей в мире моделью обучения. Наш последний технологический отчет демонстрирует, что Gemini 2.5 Pro превосходит альтернативные модели по принципам науки об обучении и является предпочтительным выбором для преподавателей. Он обладает расширенными возможностями STEM-мышления, мультимодального понимания, функциями тестирования и оценки, и многим другим.

Мы также запустили новый раздел викторин в Gemini, в разработке и оптимизации которого для обучения нам помогла наша исследовательская группа. Студенты (в возрасте 18 лет и старше) могут попросить Gemini создать для них индивидуальные викторины, которые помогут им изучить любую тему, основываясь на их конспектах лекций или учебных материалах, и система предоставит обратную связь и пояснения к правильным и неправильным ответам.
Ознакомьтесь с нашим руководством по использованию подсказок LearnLM, чтобы максимально повысить педагогическую ценность Gemini, например, попросив его выступать в роли учителя биологии или скорректировать уровень сложности текста для конкретного школьного класса.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Помимо внедрения педагогических подходов в продукты Google, мы работаем с партнерами над тем, чтобы предоставить мощные возможности наших моделей LearnLM образовательным учреждениям. Совместно с Kayma мы провели пилотное тестирование автоматической оценки как коротких, так и длинных текстов на тысячах учащихся и преподавателей средних школ Ганы, и сейчас работаем над масштабированием проекта на большее количество учащихся и стран.
Многоязычие и эффективность в Gemma: делаем наши модели доступными и полезными для всех.
В рамках миссии Google по обеспечению всеобщей доступности информации во всем мире мы продвигаем исследования в области многоязычности, чтобы гарантировать, что многоязычные модели будут выдавать надежные результаты на разных языках и будут действительно полезны для всех во всем мире. Два месяца назад Google представила Gemma3, и наши исследования помогли Gemma расширить поддержку более чем на 140 языков, сделав ее сегодня лучшей многоязычной открытой моделью. На конференции I/O мы объявили, что эти возможности теперь доступны в последней версии Gemmaverse — Gemma3n, модели, которая может работать всего на двух гигабайтах оперативной памяти и предназначена для приложений, работающих непосредственно на устройстве. Наши усилия по повышению эффективности позволяют модели Gemma3n снизить задержку и быть более энергоэффективной.
Чтобы помочь разработчикам создавать и совершенствовать многоязычные модели, исследовательский центр Google недавно представил ECLeKTic — новый бенчмарк для оценки межъязыковой передачи знаний в многоязычных моделях.
Эффективные и обоснованные модели: вклад в развитие искусственного интеллекта в поиске.
По мере роста масштабов LLM-моделей и увеличения спроса, наша способность повышать эффективность моделей, сохраняя и даже улучшая их качество, определяет наш успех в демократизации доступа к этим высокопроизводительным моделям. Например, исследовательский центр Google совершил прорывы в области эффективности, которые стали отраслевыми стандартами, например, наша работа над спекулятивным декодированием и каскадами.
Мы опубликовали исследования по методам и оценкам фактической согласованности, а также установили планку в области фактологии и обоснованности фактов с помощью таких функций, как двойная проверка и таблица лидеров FACTS Grounding, выпущенные в сотрудничестве с Google DeepMind и Kaggle. Теперь мы внесли свой вклад в AI Mode, чтобы существенно улучшить пользовательский опыт.
Представленный на конференции I/O, режим AI Mode — это самый мощный на сегодняшний день поисковый сервис Google с использованием искусственного интеллекта, обладающий расширенными возможностями логического мышления. Он внедряется для всех пользователей в США, позволяя проводить более глубокие исследования с помощью дополнительных вопросов и ссылок на соответствующие сайты. Наша работа над повышением эффективности позволяет моделям работать более надежно и быстрее выдавать результаты, а наши исследования в области достоверности улучшили способ поиска в интернете с помощью AI Mode, помогая гарантировать, что предоставляемые ответы являются высокоточными и основаны на нескольких источниках с соответствующими ссылками.
Мультимодальная фактичность: вклад в Imagen4, Gemini 2.5 и аватары ИИ в видео.
Поскольку мультимодальный контент становится повсеместным, наша команда по обеспечению достоверности информации продвигает исследования в этой области, чтобы гарантировать высокие стандарты точности во всех продуктах Google. Мы улучшили качество Imagen4 в приложении Gemini, новейшей модели изображений, анонсированной на I/O, которая способна создавать визуальные образы с реалистичной детализацией. Для ИИ-аватаров в видео, новой функции, позволяющей пользователям создавать видеоконтент с выбранными ИИ-аватарами за считанные секунды, мы помогли оценить качество модели и подписей к изображениям. Мы также значительно улучшили возможности распознавания видео в моделях Gemini 2.5, уделяя особое внимание распознаванию движений, чтобы Gemini лучше оценивала движения человека в сферах здоровья и фитнеса.
Sparkify: Превращаем любой вопрос в анимированное видео.
Наши команды помогли запустить новый эксперимент Labs — Sparkify. Объединяя возможности Gemini, MusicLM, AudioLM и Veo, Sparkify позволяет пользователям превращать любой вопрос или идею в короткий и увлекательный анимационный ролик в выбранном ими стиле оформления. Проект основан на базовых моделях и их фактической достоверности. Запишитесь в список ожидания, чтобы получить шанс попробовать его.
Посмотрите фильм
Ссылка на видео на YouTube
FireSat: Позволяет обнаруживать небольшие лесные пожары на ранних стадиях.
В рамках наших давних усилий по снижению разрушительных последствий лесных пожаров, исследовательское подразделение Google в партнерстве с Earth Fire Alliance, фондом Moore Foundation и Muon Space разработало FireSat. FireSat — это группировка спутников, созданная для более раннего и точного обнаружения лесных пожаров по всему миру. Она использует многоспектральные спутниковые снимки высокого разрешения и искусственный интеллект для предоставления информации в режиме, близком к реальному времени, для служб экстренного реагирования, а также позволяет ученым и экспертам по машинному обучению изучать распространение огня. В марте мы запустили первый из более чем 50 спутников в составе группировки. Эта работа расширяет наши возможности по отслеживанию границ лесных пожаров, что делает важную информацию доступной в Поиске и Картах, а также синтетический набор данных Firebench, который мы выпустили на платформе Google Cloud Platform для продвижения научных исследований в этой области.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
FireSat — это первая спутниковая группировка, предназначенная для раннего обнаружения лесных пожаров с помощью изображений высокого разрешения.
Квантовый ИИ: реальный потенциал для применения в реальном мире.
На сцене «Диалоги» Синеад Бовелл, основательница WAYE, и Джулиан Келли, старший директор нашей команды по квантовому оборудованию, обсудили перспективы квантовых вычислений и инженерные и научные проблемы, которые еще предстоит преодолеть. Джулиан рассказал о последних достижениях команды квантового ИИ Google Research, включая наш чип Willow и прогресс в таких областях, как квантовая коррекция ошибок. Вычисления, недоступные для классических компьютеров, могут быть выполнены на квантовом чипе за считанные минуты, что открывает путь для различных реальных применений в будущем. Потенциал для революционных изменений в таких областях, как разработка лекарств и энергоэффективность, становится все более ощутимым.
Мы также создали интерактивную игру с использованием квантового ИИ для участников конференции I/O: «Квантовый бегун по лабиринту». Игрокам предстояло наперегонки со временем пройти лабиринт, а затем посмотреть, как его решит квантовый компьютер.
Соисследователь в области ИИ: ускорение научных открытий
Наш ИИ-соисследователь, упомянутый на конференции I/O и разработанный в сотрудничестве с Google DeepMind, представляет собой многоагентную систему на основе Gemini, способную синтезировать информацию и выполнять сложные задачи логического мышления. Он разработан как инструмент для совместной работы ученых, помогающий им создавать новые гипотезы и исследовательские предложения, а также ускорять биомедицинские открытия. Он продемонстрировал потенциал в таких областях, как перепрофилирование лекарств от острого миелоидного лейкоза и выдвижение гипотез о новых мишенях для лечения фиброза печени.
Это одна из многих наших инициатив по ускорению научных исследований в более широкой экосистеме. Наша новая инициатива по геопространственному анализу направлена на развитие здравоохранения, городского планирования, комплексного бизнес-планирования, климатологии и многого другого. Мы также развиваем нейронауку, о чем свидетельствует наша недавняя публикация о LICONN — первом в мире методе использования широко доступных световых микроскопов для всестороннего картирования нейронов и их связей в тканях головного мозга, а также выпуск эталонного набора данных для прогнозирования активности рыбок данио (ZAPBench), который впервые позволяет исследователям изучать взаимосвязь между структурной проводкой и динамической нейронной активностью во всем головном мозге позвоночных. Мы также развиваем исследования в области геномики для диагностики редких заболеваний; REGLE — это модель глубокого обучения без учителя, которая помогает исследователям выявлять ассоциации с генетическими вариантами. И мы открыли исходный код новых моделей DeepVariant в рамках сотрудничества по персонализированным пангеномным эталонам, которые могут снизить количество ошибок на 30% при анализе геномов различного происхождения.
Заключение
Представленные здесь исследования отражают часть текущей работы исследовательских групп Google, которые совершают прорывы в самых разных областях и воплощают их в жизнь. В этот золотой век исследований «волшебный цикл» между исследованиями и их применением в реальном мире становится все быстрее и шире, и конференция I/O предоставила прекрасную возможность продемонстрировать, как это приводит к большему влиянию на людей, бизнес, науку и общество.
Благодарности
Выражаем благодарность многочисленным командам и сотрудникам, внесшим свой вклад в этот блог и представленную здесь работу.
Источник: research.google





















