Архив рубрики ~Лента новостей~

Рождение LLM: история, которую мало кто знает

Рождение LLM: история, которую мало кто знает

Когда люди слышат «языковая модель», у большинства сразу всплывает ChatGPT, Gemini, ну или на худой конец что-то связанное с Яндексом. Но мало кто задумывается — а с чего вообще всё началось? Кто первым решил, что машина может понимать текст не по шаблону, а по-настоящему?

Я попробую рассказать эту историю без лишнего академизма — просто, но честно.

До нейросетей была статистика

Конец 1980-х. Никаких тебе трансформеров, никакого обучения с подкреплением. Тогда языковые модели строились на банальной статистике — модель просто смотрела, какое слово чаще всего следует за предыдущим. Это называлось n-граммными моделями.

Работало это примерно так: если ты написал «Я хочу есть», модель по статистике предсказывала следующее слово — «пиццу», «суши», «борщ» — в зависимости от того, на каких текстах её обучили. Грубо, примитивно, но это был первый реальный шаг.

Проблема была очевидной — такие модели не понимали контекст дальше двух-трёх слов. Предложение из десяти слов для них уже было тёмным лесом. Плюс они жрали огромное количество памяти: чтобы хранить статистику для всех возможных троек слов в большом корпусе текстов, нужны были гигабайты — по тем временам это было реально больно.

IBM и первые попытки сделать что-то умнее

В начале 90-х в IBM Research работала группа людей, которые всерьёз занялись машинным переводом. Они создали модели под названием IBM Model 1-5 — и это был уже другой уровень. Модели учились находить соответствия между словами в разных языках, опираясь на большие корпуса параллельных текстов.

Параллельно в AT&T Bell Labs Ян Лекун со своей командой возился с нейронными сетями. Тогда это выглядело как академическая экзотика, на которую никто особо не ставил. Финансирование резали, скептики говорили что это тупик. Период с конца 80-х по середину 90-х в ML-сообществе вообще называют «зимой ИИ» — интерес и деньги ушли, большинство исследователей переключились на другие задачи.

Но именно эти два направления — статистика и нейросети — в итоге и слились в то, что мы сегодня называем LLM.

2003 год — момент, который все пропустили

В 2003 году Йошуа Бенджио с коллегами опубликовал работу «A Neural Probabilistic Language Model». Это была та самая точка, после которой всё начало меняться.

Они предложили не просто считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Причём каждое слово превращалось в вектор — числовое представление в многомерном пространстве. Слова с похожим смыслом оказывались «рядом» в этом пространстве.

Тогда это называлось word embeddings — и именно отсюда растут ноги у всего современного NLP.

Статью прочитали немногие. Никакого хайпа не было. Просто тихая, важная работа. На конференции NeurIPS того года её встретили вежливым интересом — не более. Бенджио потом говорил, что они сами не до конца понимали, что сделали.

Word2Vec — когда мир начал замечать

2013 год. Команда Google во главе с Томасом Миколовым выпускает Word2Vec — и вот тут уже народ начинает реально удивляться.

Модель умела делать вещи, от которых у людей ехала крыша:

«король» — «мужчина» + «женщина» = «королева»

Не потому что кто-то это запрограммировал. Модель сама вывела эту логику из текстов. Причём это работало для десятков таких аналогий — страны и столицы, профессии и инструменты, глаголы и их формы. Модель захватила структуру языка просто через предсказание соседних слов.

Это был момент, когда стало понятно — что-то в этом направлении реально работает. Именно тогда в сторону NLP начали смотреть большие компании с большими бюджетами.

ELMo и контекст, которого так не хватало

2018 год, чуть раньше GPT. Команда AllenNLP выпускает ELMo — и решает проблему, которую Word2Vec так и не смог закрыть.

В Word2Vec слово «ключ» всегда имело один вектор — неважно, речь про ключ от квартиры или ключ в музыке. ELMo впервые сделал так, чтобы представление слова зависело от контекста, в котором оно стоит. Это звучит как мелочь, но на практике это был огромный скачок в качестве.

Модель читала предложение в обоих направлениях — слева направо и справа налево — и собирала контекст с обеих сторон. Отсюда и название: ELMo — Embeddings from Language Models.

Трансформер — тот самый перелом

2017 год. Google Brain публикует статью «Attention Is All You Need». Именно здесь рождается архитектура трансформера — основа всех современных LLM.

До этого нейросети читали текст последовательно — слово за словом. Трансформер отказался от этой идеи. Он смотрит на весь текст сразу и учится понимать, какие слова связаны друг с другом по смыслу — независимо от того, насколько далеко они стоят в предложении.

Механизм назвали «attention» — внимание. Модель буквально учится «обращать внимание» на нужные части текста. Грубо говоря: читая слово «он» в конце длинного абзаца, модель понимает, что «он» — это конкретный человек, упомянутый десять предложений назад.

Плюс трансформер считается параллельно — в отличие от рекуррентных сетей, которые были до него. Это значит, что его можно эффективно обучать на GPU. Именно это открыло дорогу к масштабированию.

И вот тут всё понеслось.

GPT-1 — первая настоящая LLM

2018 год. OpenAI выпускает GPT-1 — Generative Pre-trained Transformer. 117 миллионов параметров. Обучена на книгах из открытого интернета.

По современным меркам — смешной размер. Но по тем временам это был прорыв. Модель умела генерировать связный текст, отвечать на вопросы и переключаться между задачами без отдельного обучения под каждую. Это называлось «few-shot learning» — ты просто давал модели пару примеров прямо в запросе, и она понимала, что от неё хотят.

GPT-2 в 2019-м OpenAI поначалу отказались публиковать полностью — сказали, что модель «слишком опасна». Сейчас это выглядит смешно, но тогда 1.5 миллиарда параметров казались чем-то запредельным. GPT-3 в 2020-м — уже 175 миллиардов. А дальше — всем известный ChatGPT в конце 2022 года и то, что последовало за ним.

Но корни — вот здесь, в этой цепочке от статистики 80-х до трансформера 2017 года.

Сейчас LLM уже не просто генерируют текст. Они встроены в рабочие инструменты, приложения, голосовые помощники. Модели читают картинки, слушают голос, пишут код. Порог входа для обычного пользователя упал до нуля.

Если хочешь попробовать несколько топовых моделей в одном месте — есть бесплатный Telegram-бот, который я использую сам. Там собраны лучшие модели, без ограничений на количество сообщений и без подписок. Можно переключаться между режимами Fast и Thinking — смотря какая задача. Настроить скиллы, выбрать роль для бота. Он распознаёт текст с фото, описывает изображения, решает задания по картинке, транскрибирует голосовые в текст — и сам принимает голосовые промпты. Всё в одном месте.

Вместо вывода

История LLM — это не история одного гения и одного открытия. Это лет сорок тихой работы десятков команд, которые делали своё дело, пока никто не смотрел. Статистики, лингвисты, математики, инженеры — все они по чуть-чуть складывали этот пазл.

Бенджио, Хинтон и Лекун в 2018-м получили премию Тьюринга — что-то вроде нобелевки в компьютерных науках. Журналисты тогда написали про это пару строчек и забыли. А через четыре года весь мир узнал, что такое ChatGPT.

В какой-то момент пазл сложился. Теперь мы все пользуемся результатом — зачастую даже не задумываясь, откуда это всё взялось.

Источник: habr.com

✅ Найденные теги: LLM, история, Которую, Мало, новости, Рождение
Читайте также
Архив рубрики ~Обо всем~ Я нашел лучшие предложения Apple в рамках Prime Day: MacBook, iPad, AirPods и многое другое. Архив рубрики ~Обо всем~ Я протестировал 12 проекторов с карданным подвесом. Вот тот, который я бы купил. Архив рубрики ~Обо всем~ Я думал, что разработка данных — это просто написание скриптов. Я ошибался. Архив рубрики ~Обо всем~ Механизмы нарушения регуляции эмоций при биполярном расстройстве Архив рубрики ~Обо всем~ Удостоенный наград исследователь обучил роботов делать обоснованные предположения. Архив рубрики ~Полезное~ Midjourney для чайников за пару минут Архив рубрики ~Полезное~ Как нейросети “понимают” команды: механика Prompt Engineering простыми словами Архив рубрики ~Обо всем~ Электрическое поле подавило температурные пульсации в пламени метана: Физика Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 12 июня, #1819 Архив рубрики ~Обо всем~ Прекратите возвращать плоский текст из PDF-файлов: реляционная структура, необходимая для RAG. Архив рубрики ~Обо всем~ Нейробиология секса. Главное, что нужно знать? Архив рубрики ~Обо всем~ Практический опыт Stranger than Heaven: Сложнее, чем Yakuza? Архив рубрики ~Обо всем~ IPO компании SpaceX: все, что вам нужно знать. Архив рубрики ~Обо всем~ Несмотря на вмешательство США, репрессии против технологических платформ будут продолжены, заявили в канцелярии премьер-министра. Архив рубрики ~Обо всем~ Я нашел лучшие предложения Apple в рамках Prime Day: MacBook, iPad, AirPods и многое другое. Архив рубрики ~Обо всем~ Я протестировал 12 проекторов с карданным подвесом. Вот тот, который я бы купил. Архив рубрики ~Обо всем~ Я думал, что разработка данных — это просто написание скриптов. Я ошибался. Архив рубрики ~Обо всем~ Механизмы нарушения регуляции эмоций при биполярном расстройстве Архив рубрики ~Обо всем~ Удостоенный наград исследователь обучил роботов делать обоснованные предположения. Архив рубрики ~Полезное~ Midjourney для чайников за пару минут Архив рубрики ~Полезное~ Как нейросети “понимают” команды: механика Prompt Engineering простыми словами Архив рубрики ~Обо всем~ Электрическое поле подавило температурные пульсации в пламени метана: Физика Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 12 июня, #1819 Архив рубрики ~Обо всем~ Прекратите возвращать плоский текст из PDF-файлов: реляционная структура, необходимая для RAG. Архив рубрики ~Обо всем~ Нейробиология секса. Главное, что нужно знать? Архив рубрики ~Обо всем~ Практический опыт Stranger than Heaven: Сложнее, чем Yakuza? Архив рубрики ~Обо всем~ IPO компании SpaceX: все, что вам нужно знать. Архив рубрики ~Обо всем~ Несмотря на вмешательство США, репрессии против технологических платформ будут продолжены, заявили в канцелярии премьер-министра.

Оставить комментарий