Простой ввод в 19 важнейших концепций искусственного интеллекта. Комментарий Сохранить статью Прочитать позже

Введение
Искусственный интеллект развивается стремительно, поэтому первый шаг к его пониманию и пониманию его роли в науке — это освоить его терминологию. От базовых понятий, таких как «нейронные сети» и «предобучение», до более спорных, таких как «галлюцинации» и «рассуждение», — вот 19 ключевых идей из мира современного ИИ. Начиная с…
* * *
Искусственный интеллект / «Наука и инженерия создания интеллектуальных машин», по определению Джона Маккарти, который ввёл этот термин в 1955 году. В последующие десятилетия идеи и практики, связанные с искусственным интеллектом, пересеклись с такими разнообразными областями, как когнитивная наука, машинное обучение, робототехника и лингвистика. Термин «ИИ» в настоящее время относится в основном к системам, использующим искусственные нейронные сети. Конкретные приложения ИИ, особенно основанные на «генеративных» моделях, таких как AlphaFold3 или ChatGPT, часто называют просто ИИ.
Бенчмарк / Набор специальных задач, разработанных для оценки производительности систем искусственного интеллекта. Они также могут способствовать прогрессу в исследованиях: в 2012 году бенчмарк ImageNet помог установить доминирование нейронных сетей, а в 2018 году GLUE сделал то же самое для языковых моделей на основе трансформатора. Они должны быть тщательно разработаны, чтобы предотвратить искаженные или вводящие в заблуждение результаты. (Например, языковая модель BERT, похоже, успешно прошла тест на рассуждение, используя тот факт, что слово «не» часто встречалось в правильных ответах; устранение этой особенности снизило производительность BERT до уровня, не превышающего случайность.)
Предвзятость/ Информация в системе ИИ, влияющая на её результаты определённым образом. Генеративные модели, обученные на больших интернет-наборах данных, часто содержат негативные предвзятости: например, в 2023 году генератор изображений ИИ Stable Diffusion с большей вероятностью изображал генеральных директоров как мужчин со светлой кожей. Однако такие методы, как обучение с подкреплением и символическая регрессия, могут использоваться для того, чтобы дать системам ИИ более продуктивные предвзятости, например, поочередность в диалоге или соблюдение законов физики.
Эмбеддинги / Длинные списки чисел, которые нейронные сети используют для представления определённых взаимосвязей в обучающих данных. Они подобны координатам: в предобученной языковой модели эмбеддинг слова «собака» геометрически подобен эмбеддингу слова «щенок» и менее подобен эмбеддингу слова «ризотто». Но поскольку эти числовые значения присваиваются алгоритмом машинного обучения, люди редко могут их интерпретировать.
Фундаментальная модель / Термин, придуманный исследователями Стэнфордского университета в 2021 году для описания моделей ИИ, которые благодаря обширной предварительной подготовке адаптируются к широкому спектру задач (в отличие от создания их под конкретные приложения, как это обычно бывает в машинном обучении). Генераторы изображений и текста, такие как DALL-E и GPT-3, были одними из первых фундаментальных моделей, но исследователи активно разрабатывают новые модели в таких областях, как физика, биология и робототехника.
Обобщение / способность системы искусственного интеллекта эффективно реагировать на новые входные данные, которые не входили в исходные данные для обучения. Например, модель компьютерного зрения, обученная распознавать кошек на изображениях, может хорошо работать, когда кошки смотрят в камеру, но не обобщать данные, когда кошки изображены в профиль или перевернуты. Базовые модели могут быть предварительно обучены на обширных наборах данных, в том числе из научных дисциплин, для улучшения их способности к обобщению или для внесения в них полезных корректировок.
Генеративный ИИ / Крупные нейронные сети, обычно основанные на трансформаторах, способные генерировать новые результаты, такие как текст или изображения. Генеративные методы способствовали «буму ИИ», последовавшему за выпуском ChatGPT в 2022 году; они также лежат в основе таких систем, как AlphaFold, предсказывающая структуры белков, и генераторов изображений на основе диффузии.
Галлюцинации / Распространённый (но спорный) термин для обозначения нежелательных результатов, создаваемых генеративным ИИ, например, когда чат-боты выдумывают неверные факты или когда генераторы изображений создают семипалые руки. В настоящее время не существует надёжного метода предотвращения галлюцинаций.
Вывод / краткое описание процесса, происходящего, когда обученная нейронная сеть вычисляет прогноз. В отличие от людей, современные модели могут интегрировать новую информацию только во время обучения, а не во время вывода. Именно поэтому у них есть «точки отсечения знаний», которые указывают на момент окончания обучения (например, октябрь 2024 года для сонета Клода 3.7). Однако увеличение объёма вычислений, выполняемых системой ИИ во время «вывода» (по сравнению с обучением), может повысить её производительность, особенно в так называемых задачах на рассуждение.
Машинное обучение / Подраздел ИИ, использующий алгоритмы для автоматического «обучения» или повышения производительности других алгоритмов. В одном из распространённых подходов математическая функция сначала измеряет, насколько хорошо алгоритм справляется с некоторой предсказательной задачей (например, классификацией изображений), сравнивая предсказания алгоритма с набором примеров, называемых «обучающими данными». Затем алгоритм корректируется для улучшения своих предсказаний. Этот процесс повторяется многократно, пока алгоритм не научится делать достаточно точные предсказания при получении новых данных. Обученные таким образом алгоритмы, такие как нейронные сети, как правило, работают лучше на входных данных, схожих с обучающими данными.
Умножение матриц / Базовая арифметика, лежащая в основе современного искусственного интеллекта, и основной источник его огромного энергопотребления. Большая часть вычислений в нейронных сетях представляет собой огромные таблицы чисел, известные как матрицы, которые умножаются бесчисленное количество раз. Исследователи десятилетиями пытались оптимизировать этот процесс, в том числе используя для этого искусственный интеллект. Полное исключение этого процесса могло бы радикально повысить энергоэффективность искусственного интеллекта.
Механистическая интерпретируемость / развивающееся направление исследований в области искусственного интеллекта, фокусирующееся на понимании того, как нейронные сети обрабатывают данные, путём эмпирического исследования, определения и проверки внутренних механизмов, формирующих их выходные данные. Эксперименты, иногда вдохновлённые нейробиологией, могут включать обратную разработку определённых признаков, которые сеть изучила на основе обучающих данных (например, фразы «Мост Золотые Ворота»), вычислительных схем и отдельных нейронов.
Модель / Математическое представление задачи, созданное путём применения алгоритма машинного обучения к обучающему набору данных. Например, крупная языковая модель, такая как GPT-3.5 (на которой базировалась исходная версия ChatGPT), пытается предсказать следующий фрагмент текста в заданной последовательности, включая последовательности, на которых она не обучалась. Модель ИИ автоматически кодирует (или «встраивает») любые признаки в данных, которые повышают производительность задачи, независимо от того, являются ли эти признаки интерпретируемыми, корректными или даже релевантными цели самой задачи.
Нейронная сеть / Рабочая лошадка современного искусственного интеллекта, которая приблизительно имитирует нейронные связи в мозге млекопитающих, распределяя математические функции, называемые «нейронами», по слоям, которые обрабатывают данные и передают их другим слоям. Каждый нейрон содержит «параметры» — числовые значения, устанавливаемые алгоритмом машинного обучения во время тренировки. Первый слой нейронов кодирует необработанные входные данные, в то время как сотни или тысячи «скрытых» слоёв, которые могут содержать миллиарды или даже триллионы параметров, выполняют вычисления (обычно умножение матриц), которые в конечном итоге формируют прогноз в выходном слое. [Ознакомьтесь с нашим подробным объяснением работы нейронных сетей.]
Предварительное обучение / Обучение модели ИИ на большом наборе разнообразных, часто немаркированных данных (например, необработанного текста, взятого из интернета) для повышения её способности эффективно реагировать на новые входные данные. Предварительно обученная модель обычно «тонко настраивается» с помощью дополнительного обучения, определяемого её предполагаемым использованием. Например, для создания ChatGPT компания OpenAI предварительно обучила модель на сотнях миллиардов слов, собранных из интернета, а затем использовала метод, называемый обучением с подкреплением, с обратной связью от человека, для оптимизации этой модели для генерации диалогов в стиле чата.
Рассуждение / Последовательность внутренних подсказок (называемая «цепочкой мыслей»), генерируемых некоторыми моделями ИИ во время вывода, используемых для разбиения сложных запросов на более простые этапы и (иногда) получения более точных ответов. Поскольку эти «цепочки» состоят из текста, понятного человеку, они могут выглядеть удивительно похожими на полноценный процесс рассуждения, но не все в этом уверены.
Обучение с подкреплением / Метод машинного обучения, при котором система искусственного интеллекта повышает свою эффективность, максимизируя сигнал «вознаграждения» посредством метода проб и ошибок. Обучение с подкреплением, часто используемое для обучения роботов и игровых агентов, теперь помогает моделям избегать галлюцинаций и обеспечивать поведение, напоминающее рассуждение.
Синтетические данные / данные, созданные генеративным ИИ, которые затем используются в качестве обучающих данных для других моделей. Исследователи обращаются к синтетическим данным, когда возникают проблемы с качеством или количеством доступных обучающих данных. Например, модель ИИ Стэнфордского университета может генерировать медицинские рентгеновские снимки грудной клетки для коррекции ошибок в существующих наборах данных (например, недостатка женщин). Однако чрезмерное обучение на синтетических данных может привести к «коллапсу» моделей ИИ и снижению их эффективности.
Трансформер / Тип нейронной сети, которая разбивает последовательности входных данных на небольшие фрагменты и изучает контекстные связи между ними для построения прогнозов. Эти сети могут применяться для решения различных задач, включая перевод документов, генерацию текста и видео, распознавание речи, игры, компьютерное зрение и фолдинг белков. Трансформеры, изобретённые Google в 2017 году, стали основой для создания первых крупных языковых моделей и вскоре стали доминирующей архитектурой для современных систем искусственного интеллекта.

Источник: www.quantamagazine.org



























