Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Как 12 страниц из Google переписали нейросети — и стали главной угрозой для его поискового бизнеса

В июне 2017 года восемь исследователей из Google опубликовали работу под названием «Внимание — это всё, что вам нужно». Двенадцать страниц. Описание новой архитектуры нейронной сети, которую они назвали трансформером.

Как 12 страниц из Google переписали нейросети - и стали главной угрозой для его поискового бизнеса

К 2023 году на этой архитектуре работали все языковые модели, которые имели значение. GPT-серия OpenAI — трансформер. Claude от Anthropic — трансформер. Llama от Meta — трансформер. Gemini от Google — тоже трансформер. Когда Google выпустил свой ответ на ChatGPT, он использовал ту же архитектуру, которую его же сотрудники описали шесть лет назад.

И все восемь авторов к тому моменту уже ушли из Google.

А что было до трансформера и почему это было проблемой

До 2017 года нейронные сети для работы с текстом строились на рекуррентных сетях. Принцип там был последовательный — сеть читала текст слово за словом, слева направо, и на каждом шаге обновляла своё внутреннее состояние, которое играло роль памяти. Чтобы понять, почему это ограничение, достаточно представить человека, которому дают прочитать роман, но при этом позволяют держать в голове только последние несколько предложений, а всё прочитанное раньше нужно «сжать» в одно число. Именно так работала рекуррентная сеть.

Инженеры понимали эту проблему и в 1990-х разработали более сложную версию — долгую краткосрочную память, архитектуру, специально спроектированную для того, чтобы важная информация дольше сохранялась в, скажем так, памяти сети. Это был значительный шаг вперёд, и на долгой краткосрочной памяти работали лучшие модели распознавания речи, машинного перевода и ряда других задач вплоть до середины 2010-х.

Промокод NEIROSKUF - 15% скидка  Промокод NEIROSKUF — 15% скидка  
1syntx.aiSYNTX.AI

Но у обоих подходов оставалась одна фундаментальная проблема — последовательность. Чтобы обработать слово на позиции 500 в тексте, сеть должна была сначала обработать слова с первого по 499-е. Параллельно это сделать нельзя. Для обучения на больших объёмах текста это означало огромные затраты времени. Пока доступные вычислительные мощности росли, рекуррентные сети успевали использовать их рост. Когда мощности стали позволять значительно большее, архитектура стала узким местом.

Механизм внимания к тому времени уже существовал как дополнение к рекуррентным сетям. В задачах машинного перевода он позволял сети при формировании каждого слова перевода смотреть на все слова исходного текста и взвешивать их важность для конкретного места. Это улучшало результаты, особенно на длинных предложениях. Но всё равно рекуррентная часть оставалась, и никто всерьёз не предлагал убрать её полностью.

Как работает механизм внимания

Возьмём предложение «Кошка сидела на ковре, потому что она устала». Местоимение «она» — это кошка или ковёр? Человек понимает это немедленно. Рекуррентная сеть к моменту обработки слова «она» уже прошла через «ковёр» и могла потерять достаточную силу связи со словом «кошка», стоявшим несколько позиций раньше.

Механизм внимания решает это иначе. Каждое слово в предложении одновременно вычисляет, насколько оно важно для каждого другого слова. При обработке слова «она» сеть строит взвешенную карту по всему тексту — и в этой карте слово «кошка» получает высокий вес, а слово «ковёр» — низкий. Это не последовательное чтение, а одновременный взгляд на всё, и решение принимается на основе всей картины целиком.

В трансформере этот механизм реализован через три вектора для каждого слова — запрос, ключ и значение. Запрос — это вопрос, который задаёт слово: «кто мне важен?». Ключ — это то, что каждое другое слово предлагает в ответ: «я вот такой, нужен ли я тебе?». Значение — то, что слово передаёт, если его выбрали. Веса вычисляются как произведение запроса одного слова на ключи всех остальных, и результат нормализуется. Это чистая линейная алгебра, хорошо параллелизуемая и хорошо работающая на видеокартах.

Кроме того, в трансформере это происходит несколько раз параллельно с разными параметрами — так называемое многоголовое внимание. Каждая голова ищет разные типы отношений: одна может специализироваться на синтаксических связях, другая — на семантических, третья замечает что-то, что исследователи до сих пор не вполне понимают. Эти головы работают параллельно, их результаты объединяются.

Главное следствие — полная параллельность на этапе обучения. Всё предложение, весь документ, весь контекст обрабатываются одновременно. Это радикально ускоряет обучение и позволяет строить модели, которые при рекуррентном подходе потребовали бы нереальных вычислительных ресурсов или попросту не обучились бы за разумное время.

Статья и её приём в 2017-м

К 2017 году Google был в положении, которое казалось неуязвимым. Лучшие исследователи в области нейронных сетей в мире работали в Google Brain и Google Research. Самый большой в мире парк специализированных чипов для обучения нейросетей — тоже у Google, они разработали их сами и называли «тензорными процессорами». Данных у Google было столько, что другим организациям такое количество не могло присниться.

При таких ресурсах опубликовать сильную статью об архитектуре было внутренним событием, не более. Работа называлась провокационно, почти дерзко — «всё, что вам нужно», как будто авторы заранее знали, что сказали что-то окончательное.

На конференции по нейронным сетям в декабре 2017-го приняли хорошо. В академической среде это была чистая, элегантная работа с убедительными результатами на задачах перевода. Трансформер обходил лучшие модели того времени на стандартных тестах — и делал это значительно быстрее в обучении. Люди это заметили.

Но ощущения, что они сидят в зале и наблюдают за точкой разрыва — не было.

Год за годом

В 2018-м Google выпустил BERT — языковую модель на основе трансформера, заточенную под понимание текста. BERT обучали на огромном корпусе, задача была такая: предсказать пропущенные слова в предложениях. Из этого простого обучения возникало богатое понимание языка, которое потом тонкой настройкой переносилось на конкретные задачи. BERT поменял то, как работает поиск Google — модель внедрили в ранжирование результатов, и это стало одним из крупнейших изменений в поиске за годы.

В том же 2018-м OpenAI выпустил GPT-1 — трансформер, заточенный под другое. Не понимание, а генерацию. Просто предсказывать следующее слово, снова и снова, на огромных объёмах текста. Задача казалась проще, чем подход BERT. Оказалась мощнее.

GPT-2 в 2019-м. OpenAI поначалу не хотели публиковать его полностью — сказали, что модель слишком мощная и может использоваться для генерации дезинформации. Потом опубликовали. Большого скандала не случилось, но разговор о том, что языковые модели скоро станут сложно отличимы от человека, начался всерьёз.

GPT-3 в 2020-м — 175 миллиардов параметров, что на тот момент было на порядок больше всего, что публиковалось раньше. Модель показала так называемые эмерджентные способности — умения, которые не были явно задачей обучения, но появились как побочный эффект масштаба. Она умела писать код, решать задачи по аналогии, отвечать на вопросы, которые требовали рассуждений. Это стало первым серьёзным сигналом о том, что у масштабирования нет очевидного потолка.

ChatGPT появился в ноябре 2022-го. Первый миллион пользователей он набрал за пять дней. Для сравнения — Instagram потратил на это два с половиной месяца, Netflix — три с половиной года. Широкая аудитория впервые в истории взаимодействовала с языковой моделью напрямую — не через API, не через приложение с узкой функцией, а просто разговаривая.

Что происходит с поиском

Базовый бизнес Google — поисковая реклама. Человек вводит запрос, получает список ссылок, переходит по одной из них, рекламодатель платит за этот переход. Модель существовала двадцать лет и приносила от 150 до 200 миллиардов долларов в год.

Языковые модели предлагают принципиально другой пользовательский интерфейс. Вместо списка ссылок — прямой ответ на вопрос. Подробный, структурированный, без необходимости переходить куда-либо. Если пользователь получает ответ прямо в чате, он не кликает по ссылкам. Если он не кликает по ссылкам, рекламная модель разрушается. Не замедляется, не снижает эффективность — именно разрушается, потому что она построена на клике как единице ценности.

После запуска ChatGPT в Google объявили внутренний красный код — так в компании называют ситуацию, когда существующий бизнес находится под реальной угрозой. Ускорили разработку собственного продукта. Выпустили Bard в феврале 2023-го — на той же неделе, когда Microsoft анонсировал интеграцию GPT-4 в поиск Bing. Потом переименовали Bard в Gemini, добавили мультимодальность, встроили ответы прямо в поисковую выдачу под названием «обзоры от ИИ».

Все эти продукты построены на трансформерной архитектуре. Которую описали их же сотрудники в 2017-м. Которые потом ушли.

Восемь авторов — что с ними стало?

Ашиш Васвани ушёл из Google в 2021-м и основал Essential AI — компанию, которая делает корпоративных ИИ-ассистентов.

Ноам Шазир ушёл и основал Character AI вместе с другим бывшим исследователем Google. Character AI позволяет пользователям разговаривать с персонажами — придуманными или историческими. В 2024-м компания была оценена больше чем в пять миллиардов долларов, хотя потом прошла через серьёзный скандал после смерти одного из пользователей.

Ники Пармар ушла вместе с Васвани в Essential AI.

Якоб Ушкорейт ушёл и основал Inceptive — компанию, которая использует трансформеры не для текста, а для проектирования молекул РНК. Идея в том, что РНК-последовательности имеют ту же структуру, что и язык, — алфавит из четырёх символов, длинные зависимости, смысл, зависящий от контекста. Архитектура работает.

Ллион Джонс ушёл и основал Sakana AI вместе с Дэвидом Ха, также бывшим исследователем Google. Компания занимается небольшими специализированными моделями, вдохновлёнными биологическими принципами.

Эйдан Гомез ушёл и основал Cohere — платформу языковых моделей для корпоративных клиентов. Оценка компании к 2024-му году превышала пять миллиардов долларов.

Лукаш Кайзер ушёл в OpenAI и участвовал в нескольких исследовательских проектах там.

Иллья Полосухин ушёл и стал одним из основателей NEAR Protocol — блокчейн-платформы. На первый взгляд далеко от трансформеров, но Полосухин объяснял это тем же интересом к децентрализованным системам, где нет единого контролирующего узла.

Почему все ушли

Есть простое объяснение, которое, вероятно, правильное.

Человек, написавший ключевую техническую работу внутри большой корпорации, может получить за это признание, хорошую премию и повышение. Это справедливо. Но он не может получить пропорциональную долю стоимости, которую создала его идея — потому что идея принадлежит компании. Трансформер стоит, вероятно, триллионы долларов в терминах создаваемой стоимости. Восемь авторов получили с этого то, что получают наёмные сотрудники с хорошими результатами.

Снаружи работают другие правила. Один из восьми авторов статьи с сотней тысяч цитирований — это не просто хорошее резюме. Это самостоятельный актив в глазах венчурного рынка. С таким бэкграундом можно привлечь десятки миллионов долларов на идею, которую ещё не реализовали. Именно это все восемь и сделали.

Это не история о нелояльности и не осуждение. Это устройство рынка, при котором крупная корпорация не может предложить исследователю то же, что он получит, уйдя с её именем в портфолио.

Цитирование

Работа «Внимание — это всё, что вам нужно» входит в число наиболее цитируемых научных работ в истории компьютерных наук. По разным подсчётам — от 100 до 150 тысяч ссылок к середине 2020-х годов. Для сравнения: статья 1986 года об обратном распространении ошибки, которая перезапустила нейросети и открыла современную эпоху глубокого обучения, набрала около 30 тысяч ссылок почти за сорок лет.

Авторы написали в заголовке «всё, что вам нужно». Звучало почти как шутка. Оказалось буквально.

Как 12 страниц из Google переписали нейросети - и стали главной угрозой для его поискового бизнеса
1t.met.me

Источник: vc.ru

✅ Найденные теги: Google, Как, Нейросети, новости, Переписали, Стали, Страниц

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Инструмент Paper Assistant, разработанный при поддержке Gemini, обеспечивает автоматизированную обратную связь для специалистов в области теоретической информатики на конференции STOC 2026. Архив рубрики ~Лента новостей~: Следуйте за деньгами: методы лечения аутоиммунных и воспалительных заболеваний, конъюгаты антител с лекарственными препаратами, программы создания селективных ингибиторов AKT1. Архив рубрики ~Лента новостей~: MCP-агрегатор: объединяем инструменты для LLM в один сервер Архив рубрики ~Лента новостей~: Сделка Nvidia по H200 с Китаем: что случилось после саммита Трампа и Си Цзиньпина? Архив рубрики ~Лента новостей~: Рост цен на смартфоны: как дефицит чипов привел к развитию искусственного интеллекта Архив рубрики ~Лента новостей~: API управляемых агентов Google обещает развертывание одним вызовом за счет потери контроля на уровне выполнения. Архив рубрики ~Лента новостей~: Реакционная лженаука. Как СССР осудил кибернетику — и чем это аукнулось для ИИ Архив рубрики ~Лента новостей~: ИИ, похоже, загоняет некоторых соискателей в ловушку в подвешенном состоянии, где они никогда не проходят собеседование по «совершенно несправедливым причинам»