ideipro logotyp

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль.

До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.

Но Google DeepMind, похоже, нашли лекарство. На днях в Nature вышла их статья, которая меняет правила игры. Они представили метод, заставляющий модели «думать» о картинках так же, как это делаем мы.

Я закопался в их пейпер, покрутил демки и примеры, и теперь готов рассказать, почему это не просто очередное «улучшение на 2%», а реальный шаг к AGI.

Что вообще произошло?

Если коротко: DeepMind доказали, что сырая мощь (больше слоев, больше данных) не лечит «слепоту» моделей к контексту.

Они выяснили, что разрыв между тем, как видит человек, и как видит машина — системный. Люди группируют объекты иерархически (это «еда», это «инструмент»), а нейронки цепляются за низкоуровневый шум (это «рябое», это «гладкое»).

Решение от DeepMind: Они создали процесс выравнивания (alignment) визуальных представлений, используя простой, но гениальный когнитивный тест — «Третий лишний» (Odd-One-Out).

Личный тест-драйв: как я ломал старое зрение

Поскольку исходный код их фреймворка AligNet только начинает появляться в открытом доступе (а веса моделей обещают чуть позже), я решил воспроизвести логику их экспериментов на текущих топовых моделях, чтобы понять масштаб бедствия.

Эксперимент «Яблоко раздора»

Суть метода DeepMind в триплетах. Я взял три изображения:

  1. 🍎 Красное яблоко

  2. 🍏 Зеленое яблоко

  3. 🔴 Красный мяч

Как думаете, кто здесь лишний? Для вас, как для человека, ответ очевиден: лишний — мяч. Потому что два других объекта — это фрукты. Мы смотрим на суть.

Что видит стандартная Vision-модель (до фикса): Я прогнал эти эмбеддинги через стандартный CLIP. И знаете что? Для него «лишним» часто оказывается зеленое яблоко. Почему? Потому что для нейронки Красное яблоко и Красный мяч — это «круглые красные штуки». Текстура и цвет для неё важнее, чем семантическая категория «фрукт».

Что сделал DeepMind?

Они натренировали модели на миллионах таких триплетов, используя данные из когнитивной психологии (датасет THINGS). Грубо говоря, они били нейросеть по рукам каждый раз, когда она группировала объекты по цвету, а не по смыслу.

В результате их новая модель в тесте с яблоками уверенно выкидывает мяч.

Инсайт: Это звучит просто, но на масштабе это решает проблему «галлюцинаций зрения». Если робот-помощник видит на столе красную кружку и красную кнопку аварийной остановки, он больше не перепутает их из-за того, что «ну они же обе красные и блестящие».

Грабли и подводные камни

В процессе разбора пейпера и первых тестов этой концепции я наткнулся на несколько нюансов, о которых в пресс-релизах молчат:

  1. Цена вопроса — синтетика. Чтобы обучить такую модель, DeepMind пришлось сгенерировать миллионы синтетических примеров «третьего лишнего». Реальных человеческих разметок не хватает. Это значит, что мы снова упираемся в качество синтетических данных. Если «учитель» ошибется, модель выучит бред.

  2. Потеря креативности? Есть гипотеза, которую я пока не могу подтвердить цифрами, но она витает в воздухе: если мы жестко заставим модель видеть как человек, не потеряет ли она способность замечать паттерны, которые мы упускаем? Иногда «инопланетный» взгляд нейросети полезен (например, в медицине, где текстура опухоли важнее её формы).

  3. Вычислительная стоимость. Инференс выровненных моделей стал чуть тяжелее, потому что пространство признаков стало сложнее и «плотнее».

Почему это важно прямо сейчас?

В той же пачке новостей промелькнула инфа про SIMA 2 — нового агента от DeepMind, который бегает в 3D-мирах. Так вот, эти две новости связаны напрямую.

Агенту в виртуальном (или реальном) мире бесполезно просто «распознавать пиксели». Ему нужно понимать аффордансы — то есть, как предметы используются.

  • Старая модель видит «коричневый цилиндр» (бревно) и «коричневый цилиндр» (ржавая труба) как одно и то же.

  • Новая модель, выровненная по-человечески, понимает: одно — дерево, другое — металл.

Вердикт за кофе ☕️

Хайп или польза? Однозначно польза, причем фундаментальная.

Это не очередная «генералка картинок», это фикс багов в самом фундаменте машинного зрения. Мы годами строили небоскребы на кривом фундаменте текстурного смещения. DeepMind наконец-то залили туда бетон человеческой логики.

Кому зайдет:

  • Тем, кто делает роботов и автономных агентов (мастхэв).

  • Разработчикам поиска по картинкам (search relevance взлетит).

  • Всем, кто устал от тупых ошибок Vision-моделей в продакшене.

Я уже жду, когда веса AligNet выложат в открытый доступ (или появятся дистиллированные версии на Hugging Face), чтобы вкрутить это в свой пайплайн классификации. Кажется, эра «чихуахуа-маффинов» подходит к концу.

Источник: DeepMind улучшает восприятие моделей для AGI

Привет! Меня зовут Alsok, я разработчик и автор Telegram-канала «Breaking AI News», в котором каждый день я публикую несколько коротких кейсов и инструментов из мира ИИ. Подписывайтесь, чтобы экономить время и получать только практику.

Источник: habr.com

✅ Найденные теги: Нейросети, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых