Как искусственный интеллект, обученный на птицах, раскрывает подводные тайны
Мы описываем, как Perch 2.0, базовая биоакустическая модель Google DeepMind, обученная на вокализациях птиц и других наземных животных, переносит задачи акустики китов в подводную среду, демонстрируя потрясающие результаты.
Быстрые ссылки
- Бумага
- Демонстрация Colab
- Делиться
Подводные звуки имеют решающее значение для понимания невидимых закономерностей поведения морских видов и их среды обитания. Звуковой ландшафт океана полон таинственных шумов и нераскрытых открытий. Например, загадочный звук «биотванг», недавно приписанный неуловимым китам Брайда Национальным управлением океанических и атмосферных исследований США (NOAA), иллюстрирует постоянную проблему выявления новых типов песен и определения видовой принадлежности.
Компания Google имеет долгую историю сотрудничества с внешними учеными в области использования биоакустики для мониторинга и защиты китов, включая наши оригинальные исследовательские модели для определения классификации горбатых китов и выпуск нашей многовидовой модели китов в 2024 году. Чтобы идти в ногу со временем, подход Google к ИИ для биоакустики развивается, обеспечивая более эффективную связь между новыми открытиями и научными выводами в больших масштабах. В августе 2025 года Google DeepMind выпустила новейшую базовую биоакустическую модель Perch, Perch 2.0, модель, обученную в основном на птицах и других наземных животных, издающих звуки. Удивительно, но, несмотря на отсутствие подводного звука в процессе обучения, Perch 2.0 показала хорошие результаты в качестве модели для переноса обучения в задачах морской валидации.
Белуха — «канарейка» моря. (Фото: Лорен Харрелл)
В нашей последней статье «Perch 2.0 переносит задачи, связанные с китами, на подводный мир», подготовленной в сотрудничестве Google Research и Google DeepMind и представленной на семинаре NeurIPS 2025 по искусственному интеллекту для коммуникации животных, мы подробно рассматриваем эти результаты. Мы показываем, как эта базовая биоакустическая модель, обученная в основном на данных о птицах, может быть использована для получения и масштабирования аналитических данных о подводных морских экосистемах, в частности, для классификации вокализаций китов. Мы также делимся полным руководством в Google Colab для нашего гибкого рабочего процесса моделирования, демонстрирующим, как использовать Perch 2.0 для создания пользовательского классификатора для вокализаций китов с использованием архива пассивных акустических данных NOAA NCEI через Google Cloud.
Как работает биоакустическая классификация
Если предварительно обученная модель классификации, такая как наша модель для китов разных видов, уже имеет необходимые метки и хорошо работает на наборе данных исследователя, ее можно использовать напрямую для получения оценок и меток для его аудиоданных. Однако для создания нового пользовательского классификатора для недавно обнаруженных звуков или для повышения точности на новых данных мы можем использовать трансферное обучение вместо создания новой модели с нуля. Такой подход значительно сокращает объем вычислений и экспериментов, необходимых для создания нового пользовательского классификатора.
В биоакустике для переноса обучения используется предварительно обученная модель (например, Perch 2.0) для создания эмбеддингов для каждого окна аудио. Эти эмбеддинги уменьшают большой объем аудиоданных до гораздо меньшего массива признаков, которые служат входными данными для простого классификатора. Для создания новой пользовательской модели для любого набора размеченных аудиоданных мы применяем предварительно обученную модель к аудиоданным, чтобы получить эмбеддинги, которые используются в качестве входных признаков для классификатора логистической регрессии. Вместо обучения всех параметров для глубокой нейронной сети, теперь нам нужно обучить новые параметры только для последнего шага логистической регрессии, что гораздо эффективнее как с точки зрения времени исследователя, так и вычислительных ресурсов.
Оценка
Мы оценили Perch 2.0, используя линейный пробный набор данных с небольшим количеством примеров, на морских задачах, таких как различение разных видов усатых китов или разных субпопуляций косаток. Его производительность сравнивалась с предварительно обученными моделями, поддерживаемыми в нашем репозитории Perch Hoplite для гибкого моделирования и трансферного обучения. К ним относятся Perch 2.0, Perch 1.0, SurfPerch и модель для анализа нескольких видов китов.
Для анализа подводных данных мы использовали три набора данных: NOAA PIPAN, ReefSet и DCLDE.
- NOAA PIPAN : Аннотированное подмножество данных пассивной акустики из архива NOAA NCEI, полученное из записей Тихоокеанского научно-исследовательского центра рыболовства NOAA. Оно включает метки, использованные в наших предыдущих моделях китов, а также новые аннотации для видов с усами, таких как обыкновенный малый полосатик, горбатый кит, сейвал, синий кит, финвал и кит Брайда.
- ReefSet: Этот набор данных, разработанный для обучения модели SurfPerch, использует аннотации данных из проекта Google Arts and Culture: Calling in Our Corals. Он включает в себя смесь биологических шумов рифов (кваканье, треск, рычание), конкретных классов видов/родов (например, рыбы-дама, дельфины и груперы), а также антропоморфных шумов и классов волн.
- DCLDE: Этот набор данных оценивается с использованием трех различных наборов меток:
- Вид: Для различения косаток, горбатых китов, абиотических звуков и неизвестных подводных звуков (с некоторой неопределенностью в обозначениях косаток и горбатых китов).
- Известная биологическая информация о виде: Для некоторых видов косаток и горбатых китов.
- Экотип: Используется для различения субпопуляций косаток (экотипов), включая транзитных/биггсовских, северных оседлых, южных оседлых, косаток юго-восточной Аляски и косаток, обитающих в открытом море.
В этом протоколе для заданного целевого набора данных с размеченными данными мы вычисляем эмбеддинги для каждой из моделей-кандидатов. Затем мы выбираем фиксированное количество примеров для каждого класса (4, 8, 16 или 32) и обучаем простую многоклассовую модель логистической регрессии на основе этих эмбеддингов. Полученный классификатор используется для вычисления площади под кривой рабочей характеристики приемника (AUC_ROC), где значения, близкие к 1, указывают на более высокую способность различать классы. Этот процесс имитирует использование заданной предварительно обученной модели эмбеддингов для создания пользовательского классификатора на основе небольшого количества размеченных примеров.
Наши результаты показывают, что увеличение количества примеров на класс улучшает производительность всех моделей, за исключением данных ReefSet, где производительность высока даже при наличии всего четырех примеров на класс для всех моделей, кроме модели для мультивидовых китов. Примечательно, что Perch 2.0 неизменно является либо лучшей, либо второй лучшей моделью для каждого набора данных и размера выборки.
Производительность обученных моделей на морских наборах данных при изменении количества ( k ) обучающих примеров на класс. Более высокие значения AUC_ROC указывают на улучшенную производительность классификации.* Класс «Bm» исключен при k = 16; **Классы «Bm» и «Be» исключены при k = 32 в данных NOAA PIPAN.
Мы также сравниваем Perch 2.0 с эмбеддингами из AVES-bird и AVES-bio (трансформаторные биоакустические модели проекта Earth Species Project, обученные на звуках птиц и биологических звуках соответственно) и BirdNet v2.3 из Центра биоакустики сохранения им. К. Лизы Янг в Корнелльской лаборатории орнитологии. Perch 2.0 превосходит AVES-bird и AVES-bio в большинстве подводных задач, но есть и другие предварительно обученные модели, которые также показывают хорошие результаты, хотя и не были обучены на подводном аудио.
Как работает Perch 2.0, чтобы быть таким «китом»?
Мы предлагаем несколько возможных причин такой эффективности переноса результатов от нашей модели, обученной в основном на звуках птиц, к подводным звукам. Во-первых, предыдущие исследования показывают, что более крупные модели с обширными обучающими данными лучше обобщают результаты, что позволяет нашей биоакустической модели хорошо справляться даже с задачами классификации звуков по видам и звуков, не включенных в обучающий набор данных. Кроме того, задача классификации похожих птичьих криков («урок выпи») заставляет модель изучать детальные акустические характеристики, которые затем могут быть информативными для других биоакустических задач. Например, в Северной Америке обитает 14 видов голубей, каждый из которых имеет свой собственный, едва уловимый звук «воркования». Модель, которая извлекает признаки, позволяющие различать каждый видоспецифический звук «воркования», вероятно, сможет выделить признаки, которые помогут разделить другие классы звуков. Наконец, перенос признаков между различными типами видов также может быть связан с самим механизмом звукообразования, где различные виды — включая птиц и морских млекопитающих — развили схожие способы звукообразования.
Высокоэффективная модель будет иметь информативные и линейно разделимые эмбеддинги для применяемых целевых классов. Для визуализации мы строим график сводки эмбеддингов из каждой модели, используя процедуру tSNE, где разные цвета представляют разные классы. Высокоинформативная модель будет показывать четкие кластеры для каждого класса, тогда как в менее информативной модели (например, в модели Google для нескольких видов китов) классы будут более перемешаны. Хотя почти все модели показывают некоторые четкие кластеры точек для южных популяций косаток (KW_SRKW) и южных популяций косаток Аляски (KW_SAR), результирующие эмбеддинги звуков северных популяций косаток (KW_NRKW), транзитных косаток (KW_TKW) и косаток открытого моря (KW_OKW) перемешаны в таких моделях, как AVES-bio, AVES-bird и SurfPerch, но более четко различимы в BirdNet v2.3 и Perch 2.0.
Графики tSNE для векторных представлений каждой модели на наборе данных DCLDE 2026 Ecotype, который содержит пять вариантов экотипов косаток (орков). Графики были сгенерированы с помощью библиотек sci-kit learn PCA и tSNE , при этом векторные представления сначала были спроецированы на 32-мерные векторы перед применением tSNE.
Взгляд в будущее
Команда Google DeepMind Perch в сотрудничестве с Google Research и внешними партнерами разработала новаторский гибкий подход к моделированию биоакустики, позволяющий создать собственный классификатор на основе небольшого количества размеченных примеров всего за пару часов. Для поддержки как партнеров Google Research, так и всего сообщества исследователей акустики китообразных, мы создали комплексную демонстрацию работы с данными NOAA из набора данных Passive Acoustic Archive, размещенного в Google Cloud, обновив наши предыдущие руководства с использованием более эффективных баз данных Perch Hoplite для управления эмбеддингами.
Благодарности
В состав команды Perch, разработавшей модель Perch 2.0 и входящей в состав Google DeepMind, входят Том Дентон, Барт ван Мерриенбоер, Винсент Дюмулен, Дженни Хамер, Изабель Симпсон, Андреа Бернс и Лорен Харрелл (Google Research). Особая благодарность Энн Аллен (Тихоокеанский центр рыболовства NOAA) и Меган Вуд (Saltwater Inc. при поддержке NOAA) за предоставление дополнительных аннотаций, использованных в наборе данных NOAA PIPAN, а также Дэну Моррису (Google Research) и Мэтту Харви (Google DeepMind).
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.