Очень простое и краткое руководство о том, как работает генеративный ИИ, мифах вокруг него и почему он не заменит инженеров в ближайшем будущем.
Делиться

Изначально я написал эту статью для своей команды, поскольку некоторые наши инженеры испытывали дискомфорт от использования ИИ в своей повседневной работе. Они задали несколько важных и разумных вопросов: откуда берутся эти модели? Есть ли опасения по поводу утечек данных? И самый сложный вопрос (мне самому потребовалось время, чтобы разобраться в нём): не заставляю ли я ИИ заменять меня, используя его? Как член команды, который действительно увлечён ИИ, я понимаю эти опасения.
Именно поэтому я составил это краткое и удобное руководство: чтобы развенчать некоторые мифы и предоставить инженерам полезную схему использования ИИ. Для меня успех ИИ измеряется не количеством замысловатых инструментов, которые он может предложить. Дело не в этом. Вопрос в следующем: действительно ли он делает нас более продуктивными? Насколько эффективно он помогает людям работать умнее и ленивее? И поскольку инженеры — одни из самых важных потребителей этой технологии, я считаю, что стоит прояснить этот вопрос.
Итак… Что такое генеративный ИИ и что такое степень магистра права?
Когда люди обсуждают такие инструменты, как ChatGPT, Claude или Amazon Q, на самом деле они имеют в виду языковую модель . Это базовая технология, лежащая в основе большей части генеративного ИИ. Она обучена понимать письменный язык и генерировать новый текст. Когда эти модели масштабируются до миллиардов, а то и триллионов параметров, они становятся тем, что мы называем большими языковыми моделями ( LLM) . LLM — это лишь один из видов генеративного ИИ, специально разработанный для работы с текстом и кодом.
Начнем с основ.
Токены, а не просто слова
В языковых моделях наименьшей единицей понимания является не всегда целое слово, а токен . Представьте себе токены как кубики LEGO: небольшие детали, которые собираются вместе для построения более крупных конструкций. Токеном может быть целое слово (например, «замок»), часть слова («литой») или даже отдельная буква или символ. Например:
Предложение «Я люблю программирование» можно разделить на токены: [Я] [люблю] [программирование] [программирование].
Этот процесс называется токенизацией. Так модель усваивает эти материалы, чтобы сформировать свой словарный запас. Этот словарный запас может быть огромным: у GPT-4 он составляет около 100 000 токенов. У Клода он ещё больше.
Как языковые модели учатся (по-разному)
Существует два основных подхода к обучению языковым моделям:
- Замаскированные модели : эти модели обучаются, скрывая слово и пытаясь предсказать, что должно быть на месте пропуска.
«Тони Старк также известен как ___ Человек».
Модель учится заполнять пробелы. Она обнаруживает, что «Тони Старк» даёт самую сильную подсказку, в то время как «является» и «также» не несут особой ценности.
2. Авторегрессионные модели : эти модели предсказывают следующее слово, по одному слову за раз.
Начните так: «Эльза вошла в замок…»
Модель продолжает: «…и двери за ней захлопнулись».
Таким образом, слово за словом, выстраивается история.
Оба этих подхода наделяют модель суперспособностью: способностью генерировать текст . Модель, способная генерировать открытые результаты, называется генеративной, отсюда и термин «генеративный ИИ».
Что означает «открытый выпуск»?
Вернемся к нашему примеру с Marvel:
«Тони Старк также известен как ___ Человек».
Большинство людей (и большинство моделей) ответят: «Железный». Но модель также может выбрать «Мощный», «Забавный» или даже «Семья».
Это открытый вывод: модель не привязана к одному «правильному» ответу. Она делает прогнозы, основанные на вероятностях. Иногда она даёт верные результаты. А иногда? Не очень. Вот почему ИИ может казаться одновременно магическим и непредсказуемым .
Большой скачок: от LM к LLM
Масштабирование превращает языковую модель в большую языковую модель. Это похоже на изучение всего словаря для получения высоких баллов на GRE. При наличии большего количества данных и параметров модель может улавливать более тонкие закономерности. Параметры подобны ручкам на деке: чем больше ручек, тем сложнее становится музыка. Например, GPT-4, по оценкам, имеет 1,76 триллиона параметров.
Очевидно, что для этого требуются огромные объёмы данных. И мы не можем размечать данные вечно. Всё изменило самообучение. Вместо того, чтобы полагаться на людей для разметки каждого предложения, модель способна обучаться самостоятельно, скрывая слова и предсказывая их. Это как отвечать на вопросы с пропуском на сверхчеловеческой скорости.
Именно поэтому LLM блистательно владеют кодом: языки программирования — идеальная область для преподавателя. Код отличается высокой формальностью, синтаксической строгостью и избегает хаотичных капризов естественного языка. Одно и то же действие в Python будет воспроизводиться одинаково каждый раз, в отличие от английского предложения, которое может иметь множество различных значений в зависимости от тона, культуры или ситуации. Именно эта точность позволяет модели не тратить триллионы строк кода, чтобы «уловить суть». Даже при небольших объёмах данных шаблоны достаточно согласованы, чтобы модель могла хорошо обобщать информацию и выдавать удивительно надёжные результаты.
Не только LLM
Прежде чем мы продолжим, отметим, что LLM — это лишь один из видов генеративного ИИ . Просто сегодня он наиболее распространён и широко используется, но это не всё.
Современные модели, как правило, представляют собой большие мультимодальные модели (LMM) . Они работают не только с текстом. Они также распознают и генерируют изображения, аудио и даже видео. Именно поэтому существуют модели, способные прочитать блок кода, описать изображение, а затем одним махом перевести его на обычный язык.
В последние несколько лет в обсуждении появился новый термин: фундаментальные модели . Это очень большие модели, обученные на данных общего назначения с широким охватом. Представьте их как «базовый этаж» или «ванильный вкус в мире мороженого». После обучения их можно дорабатывать или расширять для решения более специализированных задач, таких как создание документации к программному обеспечению, поддержка корпоративного чат-бота или проверка контрактов. Термин «фундамент» используется для их описания в противопоставлении более мелким специализированным моделям, разработанным на их основе.
Источник: towardsdatascience.com





















