Как 12 страниц из Google переписали нейросети — и стали главной угрозой для его поискового бизнеса

25.05.2026 ideipro.ru

В июне 2017 года восемь исследователей из Google опубликовали работу под названием «Внимание — это всё, что вам нужно». Двенадцать страниц. Описание новой архитектуры нейронной сети, которую они назвали трансформером.

Как 12 страниц из Google переписали нейросети - и стали главной угрозой для его поискового бизнеса

К 2023 году на этой архитектуре работали все языковые модели, которые имели значение. GPT-серия OpenAI — трансформер. Claude от Anthropic — трансформер. Llama от Meta — трансформер. Gemini от Google — тоже трансформер. Когда Google выпустил свой ответ на ChatGPT, он использовал ту же архитектуру, которую его же сотрудники описали шесть лет назад.

И все восемь авторов к тому моменту уже ушли из Google.

До 2017 года нейронные сети для работы с текстом строились на рекуррентных сетях. Принцип там был последовательный — сеть читала текст слово за словом, слева направо, и на каждом шаге обновляла своё внутреннее состояние, которое играло роль памяти. Чтобы понять, почему это ограничение, достаточно представить человека, которому дают прочитать роман, но при этом позволяют держать в голове только последние несколько предложений, а всё прочитанное раньше нужно «сжать» в одно число. Именно так работала рекуррентная сеть.

Инженеры понимали эту проблему и в 1990-х разработали более сложную версию — долгую краткосрочную память, архитектуру, специально спроектированную для того, чтобы важная информация дольше сохранялась в, скажем так, памяти сети. Это был значительный шаг вперёд, и на долгой краткосрочной памяти работали лучшие модели распознавания речи, машинного перевода и ряда других задач вплоть до середины 2010-х.

Промокод NEIROSKUF — 15% скидка

syntx.aiSYNTX.AI

Но у обоих подходов оставалась одна фундаментальная проблема — последовательность. Чтобы обработать слово на позиции 500 в тексте, сеть должна была сначала обработать слова с первого по 499-е. Параллельно это сделать нельзя. Для обучения на больших объёмах текста это означало огромные затраты времени. Пока доступные вычислительные мощности росли, рекуррентные сети успевали использовать их рост. Когда мощности стали позволять значительно большее, архитектура стала узким местом.

Механизм внимания к тому времени уже существовал как дополнение к рекуррентным сетям. В задачах машинного перевода он позволял сети при формировании каждого слова перевода смотреть на все слова исходного текста и взвешивать их важность для конкретного места. Это улучшало результаты, особенно на длинных предложениях. Но всё равно рекуррентная часть оставалась, и никто всерьёз не предлагал убрать её полностью.

Возьмём предложение «Кошка сидела на ковре, потому что она устала». Местоимение «она» — это кошка или ковёр? Человек понимает это немедленно. Рекуррентная сеть к моменту обработки слова «она» уже прошла через «ковёр» и могла потерять достаточную силу связи со словом «кошка», стоявшим несколько позиций раньше.

Механизм внимания решает это иначе. Каждое слово в предложении одновременно вычисляет, насколько оно важно для каждого другого слова. При обработке слова «она» сеть строит взвешенную карту по всему тексту — и в этой карте слово «кошка» получает высокий вес, а слово «ковёр» — низкий. Это не последовательное чтение, а одновременный взгляд на всё, и решение принимается на основе всей картины целиком.

В трансформере этот механизм реализован через три вектора для каждого слова — запрос, ключ и значение. Запрос — это вопрос, который задаёт слово: «кто мне важен?». Ключ — это то, что каждое другое слово предлагает в ответ: «я вот такой, нужен ли я тебе?». Значение — то, что слово передаёт, если его выбрали. Веса вычисляются как произведение запроса одного слова на ключи всех остальных, и результат нормализуется. Это чистая линейная алгебра, хорошо параллелизуемая и хорошо работающая на видеокартах.

Кроме того, в трансформере это происходит несколько раз параллельно с разными параметрами — так называемое многоголовое внимание. Каждая голова ищет разные типы отношений: одна может специализироваться на синтаксических связях, другая — на семантических, третья замечает что-то, что исследователи до сих пор не вполне понимают. Эти головы работают параллельно, их результаты объединяются.

Главное следствие — полная параллельность на этапе обучения. Всё предложение, весь документ, весь контекст обрабатываются одновременно. Это радикально ускоряет обучение и позволяет строить модели, которые при рекуррентном подходе потребовали бы нереальных вычислительных ресурсов или попросту не обучились бы за разумное время.

К 2017 году Google был в положении, которое казалось неуязвимым. Лучшие исследователи в области нейронных сетей в мире работали в Google Brain и Google Research. Самый большой в мире парк специализированных чипов для обучения нейросетей — тоже у Google, они разработали их сами и называли «тензорными процессорами». Данных у Google было столько, что другим организациям такое количество не могло присниться.

При таких ресурсах опубликовать сильную статью об архитектуре было внутренним событием, не более. Работа называлась провокационно, почти дерзко — «всё, что вам нужно», как будто авторы заранее знали, что сказали что-то окончательное.

На конференции по нейронным сетям в декабре 2017-го приняли хорошо. В академической среде это была чистая, элегантная работа с убедительными результатами на задачах перевода. Трансформер обходил лучшие модели того времени на стандартных тестах — и делал это значительно быстрее в обучении. Люди это заметили.

Но ощущения, что они сидят в зале и наблюдают за точкой разрыва — не было.

В 2018-м Google выпустил BERT — языковую модель на основе трансформера, заточенную под понимание текста. BERT обучали на огромном корпусе, задача была такая: предсказать пропущенные слова в предложениях. Из этого простого обучения возникало богатое понимание языка, которое потом тонкой настройкой переносилось на конкретные задачи. BERT поменял то, как работает поиск Google — модель внедрили в ранжирование результатов, и это стало одним из крупнейших изменений в поиске за годы.

В том же 2018-м OpenAI выпустил GPT-1 — трансформер, заточенный под другое. Не понимание, а генерацию. Просто предсказывать следующее слово, снова и снова, на огромных объёмах текста. Задача казалась проще, чем подход BERT. Оказалась мощнее.

GPT-2 в 2019-м. OpenAI поначалу не хотели публиковать его полностью — сказали, что модель слишком мощная и может использоваться для генерации дезинформации. Потом опубликовали. Большого скандала не случилось, но разговор о том, что языковые модели скоро станут сложно отличимы от человека, начался всерьёз.

GPT-3 в 2020-м — 175 миллиардов параметров, что на тот момент было на порядок больше всего, что публиковалось раньше. Модель показала так называемые эмерджентные способности — умения, которые не были явно задачей обучения, но появились как побочный эффект масштаба. Она умела писать код, решать задачи по аналогии, отвечать на вопросы, которые требовали рассуждений. Это стало первым серьёзным сигналом о том, что у масштабирования нет очевидного потолка.

ChatGPT появился в ноябре 2022-го. Первый миллион пользователей он набрал за пять дней. Для сравнения — Instagram потратил на это два с половиной месяца, Netflix — три с половиной года. Широкая аудитория впервые в истории взаимодействовала с языковой моделью напрямую — не через API, не через приложение с узкой функцией, а просто разговаривая.

Базовый бизнес Google — поисковая реклама. Человек вводит запрос, получает список ссылок, переходит по одной из них, рекламодатель платит за этот переход. Модель существовала двадцать лет и приносила от 150 до 200 миллиардов долларов в год.

Языковые модели предлагают принципиально другой пользовательский интерфейс. Вместо списка ссылок — прямой ответ на вопрос. Подробный, структурированный, без необходимости переходить куда-либо. Если пользователь получает ответ прямо в чате, он не кликает по ссылкам. Если он не кликает по ссылкам, рекламная модель разрушается. Не замедляется, не снижает эффективность — именно разрушается, потому что она построена на клике как единице ценности.

После запуска ChatGPT в Google объявили внутренний красный код — так в компании называют ситуацию, когда существующий бизнес находится под реальной угрозой. Ускорили разработку собственного продукта. Выпустили Bard в феврале 2023-го — на той же неделе, когда Microsoft анонсировал интеграцию GPT-4 в поиск Bing. Потом переименовали Bard в Gemini, добавили мультимодальность, встроили ответы прямо в поисковую выдачу под названием «обзоры от ИИ».

Все эти продукты построены на трансформерной архитектуре. Которую описали их же сотрудники в 2017-м. Которые потом ушли.

Ашиш Васвани ушёл из Google в 2021-м и основал Essential AI — компанию, которая делает корпоративных ИИ-ассистентов.

Ноам Шазир ушёл и основал Character AI вместе с другим бывшим исследователем Google. Character AI позволяет пользователям разговаривать с персонажами — придуманными или историческими. В 2024-м компания была оценена больше чем в пять миллиардов долларов, хотя потом прошла через серьёзный скандал после смерти одного из пользователей.

Ники Пармар ушла вместе с Васвани в Essential AI.

Якоб Ушкорейт ушёл и основал Inceptive — компанию, которая использует трансформеры не для текста, а для проектирования молекул РНК. Идея в том, что РНК-последовательности имеют ту же структуру, что и язык, — алфавит из четырёх символов, длинные зависимости, смысл, зависящий от контекста. Архитектура работает.

Ллион Джонс ушёл и основал Sakana AI вместе с Дэвидом Ха, также бывшим исследователем Google. Компания занимается небольшими специализированными моделями, вдохновлёнными биологическими принципами.

Эйдан Гомез ушёл и основал Cohere — платформу языковых моделей для корпоративных клиентов. Оценка компании к 2024-му году превышала пять миллиардов долларов.

Лукаш Кайзер ушёл в OpenAI и участвовал в нескольких исследовательских проектах там.

Иллья Полосухин ушёл и стал одним из основателей NEAR Protocol — блокчейн-платформы. На первый взгляд далеко от трансформеров, но Полосухин объяснял это тем же интересом к децентрализованным системам, где нет единого контролирующего узла.

Есть простое объяснение, которое, вероятно, правильное.

Человек, написавший ключевую техническую работу внутри большой корпорации, может получить за это признание, хорошую премию и повышение. Это справедливо. Но он не может получить пропорциональную долю стоимости, которую создала его идея — потому что идея принадлежит компании. Трансформер стоит, вероятно, триллионы долларов в терминах создаваемой стоимости. Восемь авторов получили с этого то, что получают наёмные сотрудники с хорошими результатами.

Снаружи работают другие правила. Один из восьми авторов статьи с сотней тысяч цитирований — это не просто хорошее резюме. Это самостоятельный актив в глазах венчурного рынка. С таким бэкграундом можно привлечь десятки миллионов долларов на идею, которую ещё не реализовали. Именно это все восемь и сделали.

Это не история о нелояльности и не осуждение. Это устройство рынка, при котором крупная корпорация не может предложить исследователю то же, что он получит, уйдя с её именем в портфолио.

Работа «Внимание — это всё, что вам нужно» входит в число наиболее цитируемых научных работ в истории компьютерных наук. По разным подсчётам — от 100 до 150 тысяч ссылок к середине 2020-х годов. Для сравнения: статья 1986 года об обратном распространении ошибки, которая перезапустила нейросети и открыла современную эпоху глубокого обучения, набрала около 30 тысяч ссылок почти за сорок лет.

Авторы написали в заголовке «всё, что вам нужно». Звучало почти как шутка. Оказалось буквально.

t.met.me

Источник: vc.ru

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Как 12 страниц из Google переписали нейросети — и стали главной угрозой для его поискового бизнеса

А что было до трансформера и почему это было проблемой

Как работает механизм внимания

Статья и её приём в 2017-м

Год за годом

Что происходит с поиском

Восемь авторов — что с ними стало?

Почему все ушли

Цитирование

Оставить комментарий Отменить ответ

А что было до трансформера и почему это было проблемой

Как работает механизм внимания

Статья и её приём в 2017-м

Год за годом

Что происходит с поиском

Восемь авторов — что с ними стало?

Почему все ушли

Цитирование

Похожие записи

Похожие записи

Пароли «привет» и «подружка» оказались самыми популярными в 2023 году

Google представил расширения для Gemini CLI И одновременно запустил маркетплейс,…

Биткоин упал ниже $90 тысяч впервые с апреля 2025 года

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email