Золотой кубок с трещинами на пьедестале, фон красная сетка.

Как социальные сети поощряют худшие проявления оптимизма в отношении ИИ

Эпоха, когда сначала шумиха, а потом размышления.

С подставки падает разбитый трофей с логотипом Open AI.

Фотоиллюстрация Сары Роджерс/MITTR | Фотографии Getty

Демис Хассабис, генеральный директор Google DeepMind, выразил суть проблемы тремя словами: «Это позор».

Хассабис отвечал в X на чрезмерно восторженный пост Себастьяна Бубека, научного сотрудника конкурирующей компании OpenAI, в котором тот объявил, что два математика использовали новейшую большую языковую модель OpenAI, GPT-5, для решения 10 нерешенных математических задач. «Ускорение науки с помощью ИИ официально началось», — хвастался Бубек.

Давайте на минутку включим математику и разберемся, в чем заключался конфликт середины октября. Это прекрасный пример того, что сейчас не так с искусственным интеллектом.

Бубек был рад, что GPT-5, похоже, каким-то образом решил ряд загадок, известных как проблемы Эрдоша.

Поль Эрдош, один из самых плодовитых математиков XX века, оставил после себя сотни головоломок. Чтобы отслеживать, какие из них были решены, Томас Блум, математик из Манчестерского университета (Великобритания), создал сайт erdosproblems.com, на котором перечислено более 1100 задач, и отмечается, что около 430 из них имеют решения.

Когда Бубек отпраздновал открытие GPT-5, Блум быстро его разоблачил. «Это вопиющее искажение фактов», — написал он на X. Блум объяснил, что проблема не обязательно не решена, если на этом сайте нет решения. Это просто означает, что Блум не знал о его существовании. Существуют миллионы научных работ по математике, и никто не читал их все. Но GPT-5, вероятно, читал.

Оказалось, что вместо того, чтобы предложить новые решения для 10 нерешенных проблем, GPT-5 прочесал интернет в поисках 10 уже существующих решений, которые Блум раньше не видел. Вот незадача!

Из всего этого можно сделать два вывода. Во-первых, не стоит делать в социальных сетях поспешных заявлений о крупных открытиях: нужно меньше импульсивных реакций и больше — проверки интуиции.

Во-вторых, способность GPT-5 находить отсылки к предыдущим работам, о которых Блум не знал, тоже поразительна. Ажиотаж затмил то, что само по себе должно было быть довольно крутым.

Математики проявляют большой интерес к использованию линейных моделей обучения для анализа огромного количества существующих результатов, — рассказал мне Франсуа Шартон, научный сотрудник стартапа Axiom Math, занимающегося изучением применения линейных моделей обучения в математике, когда я обсуждал с ним этот нюанс, связанный с работами Эрдоша.

Но поиск литературы — это скучное занятие по сравнению с настоящим открытием, особенно для ярых сторонников ИИ в социальных сетях. Ошибка Бубека — не единственный тому пример.

В августе пара математиков показала, что ни один из тогдашних магистров права не мог решить математическую задачу, известную как 554-я задача Ю Цумуры. Два месяца спустя социальные сети взорвались сообщениями о том, что GPT-5 теперь может это сделать. «Для многих наступает момент Ли Седоля», — прокомментировал один из наблюдателей, имея в виду мастера игры в го, проигравшего ИИ AlphaGo от DeepMind в 2016 году.

Однако Шартон отметил, что решение 554-й задачи Ю Цумуры не представляет собой большой проблемы для математиков. «Это вопрос, который вы бы задали студенту», — сказал он. «Существует тенденция переусердствовать во всем».

Тем временем появляются более трезвые оценки того, в чём могут быть хороши или не хороши LLM-ы. В то же время, когда математики спорили в интернете о GPT-5, вышли два новых исследования, которые подробно рассматривали использование LLM-ов в медицине и юриспруденции (двух областях, в которых, по утверждению разработчиков моделей, их технологии преуспевают).

Краткая история ажиотажа вокруг Сэма Альтмана. Читать далее.

Исследователи обнаружили, что юристы-практики могут ставить определенные медицинские диагнозы, но их рекомендации по лечению не всегда верны. Что касается юриспруденции, исследователи выяснили, что юристы-практики часто дают противоречивые и неверные советы. «Доказанные на данный момент доказательства совершенно не соответствуют требованиям», — заключили авторы.

Но на X такое сообщение воспринимается не очень хорошо. «Эта атмосфера ажиотажа создается благодаря тому, что все активно общаются — никто не хочет отставать», — сказал Чартон. Именно на X впервые появляются новости об ИИ, именно здесь объявляются о новых результатах, и именно здесь ключевые игроки, такие как Сэм Альтман, Ян Лекун и Гэри Маркус, публично выясняют отношения. За всем этим сложно уследить — и еще сложнее отвести взгляд.

Пост Бубека стал неловким только потому, что его ошибку заметили. Не все ошибки замечают. Пока ничего не изменится, исследователи, инвесторы и некие некие спонсоры будут продолжать подставлять друг друга. «Некоторые из них — ученые, многие — нет, но все они — зануды», — сказал мне Чартон. «Громкие заявления очень хорошо работают в этих сетях».

*****

И вот заключение! Всё вышесказанное я написал для колонки «Алгоритмы» в январско-февральском номере журнала MIT Technology Review за 2026 год (он скоро выйдет). Через два дня после выхода номера в печать компания Axiom сообщила мне, что её собственная математическая модель AxiomProver решила две открытые задачи Эрдоша (№ 124 и № 481, для любителей математики). Это впечатляющие результаты для небольшого стартапа, основанного всего несколько месяцев назад. Да, искусственный интеллект развивается быстро!

Но это еще не все. Пять дней спустя компания объявила, что AxiomProver решила девять из двенадцати задач в конкурсе имени Патнэма этого года — математической задаче университетского уровня, которую некоторые считают сложнее, чем более известная Международная математическая олимпиада (которую несколько месяцев назад блестяще решили студенты магистратуры из Google DeepMind и OpenAI).

Результаты конкурса имени Патнэма были высоко оценены на X известными специалистами в этой области, включая Джеффа Дина, главного научного сотрудника Google DeepMind, и Томаса Вольфа, соучредителя компании Hugging Face, занимающейся разработкой ИИ. В ответах вновь развернулись знакомые дискуссии. Несколько исследователей отметили, что, хотя Международная математическая олимпиада требует более творческого подхода к решению задач, конкурс имени Патнэма проверяет математические знания, что делает его чрезвычайно сложным для студентов бакалавриата, но теоретически более простым для магистров права, освоивших интернет.

Как следует оценивать достижения Axiom? По крайней мере, не в социальных сетях. И впечатляющие победы в конкурсах — это только отправная точка. Чтобы определить, насколько хорошо LLM-модели разбираются в математике, потребуется более глубокое изучение того, что именно делают эти модели, когда решают сложные (читай: сложные для человека) математические задачи.

Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об искусственном интеллекте. Чтобы первыми получать подобные статьи на свою электронную почту, подпишитесь здесь.

Источник: www.technologyreview.com

✅ Найденные теги: ИИ, Как, новости, Оптимизм, социальные сети

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых