Самые мощные системы на Земле, такие как человеческий мозг, финансовые рынки и рои, работают эффективно, потому что ни одна сигнальная часть не управляет другими. Именно в этом секрет успеха глубоких нейронных сетей.
Делиться

Большинство прорывов в области глубокого обучения — от простых нейронных сетей до больших языковых моделей — основаны на принципе, который намного старше самого ИИ: децентрализации . Вместо того чтобы полагаться на мощный «центральный планировщик», координирующий и управляющий поведением других компонентов, современные модели ИИ на основе глубокого обучения добиваются успеха благодаря тому, что множество простых элементов взаимодействуют локально и коллективно, создавая интеллектуальное глобальное поведение.
В этой статье объясняется, почему децентрализация является таким мощным принципом проектирования современных моделей ИИ, рассматривая их в контексте общих сложных систем .
Если вы когда-либо задавались вопросом:
- Почему нейронные сети с внутренним хаосом показывают гораздо лучшие результаты, чем большинство статистических моделей машинного обучения, аналитически понятных на практике?
- Возможно ли выработать единое представление о моделях ИИ и других системах естественного интеллекта (например, колониях насекомых, человеческом мозге, финансовом рынке и т. д.)?
- Как заимствовать ключевые особенности систем естественного интеллекта для разработки систем искусственного интеллекта следующего поколения?
…тогда теории сложных систем, где децентрализация является ключевым свойством, предоставляют удивительно полезную перспективу.
Децентрализация в сложных природных системах
Сложную систему можно очень приблизительно определить как систему, состоящую из множества взаимодействующих частей, так что коллективное поведение этих частей вместе превышает сумму их индивидуального поведения. В природе и человеческом обществе многие из наиболее интеллектуальных и адаптивных систем принадлежат к семейству сложных систем и функционируют без центрального контроллера. Независимо от того, рассматриваем ли мы человеческие коллективы, колонии насекомых или мозг млекопитающих, мы неизменно наблюдаем одно и то же явление: сложное, согласованное поведение, возникающее из простых единиц, следующих локальным правилам.
Человеческие коллективы представляют собой один из самых ранних задокументированных примеров. Аристотель заметил, что «многие индивиды, хотя каждый из них несовершенен, могут коллективно судить лучше, чем лучший человек в одиночку» (Политика, 1281a). Современные примеры — от жюри до рынков прогнозов — подтверждают, что децентрализованное объединение может превзойти централизованную экспертизу. Природа предлагает еще более яркие демонстрации: отдельный муравей практически не обладает глобальными знаниями, однако муравейная колония может найти кратчайший путь к источнику пищи или реорганизоваться при изменении окружающей среды. Человеческий мозг представляет этот принцип в своем наиболее сложном масштабе. Примерно 86 миллиардов нейронов работают без главного нейрона; каждый нейрон просто реагирует на входные сигналы от очень немногих других нейронов. Тем не менее, память, восприятие и рассуждение возникают из распределенных паттернов активности, которые не кодируются ни одним отдельным нейроном.
В этих областях прослеживается четкий общий посыл: интеллект часто возникает не в результате нисходящего управления, а в результате восходящей координации . И мы увидим, что этот принцип предоставляет мощный инструмент для понимания не только природных систем, но и проектирования и поведения современных архитектур искусственного интеллекта.
Путь искусственного интеллекта: от централизованного обучения к распределенному интеллекту.
Одним из наиболее заметных сдвигов в мире ИИ за последние годы стал переход от преимущественно централизованного, разработанного вручную подхода к более распределенному, самоорганизующемуся подходу. Ранние методы статистического обучения часто напоминали нисходящий подход: эксперты тщательно разрабатывали признаки или правила, а алгоритмы затем оптимизировали единую модель, обычно с жесткими структурными предположениями, на небольшом наборе данных. В то время как сегодня наиболее успешные системы ИИ — глубокие нейронные сети — выглядят совершенно иначе. Они включают в себя множество простых вычислительных единиц («искусственных нейронов»), соединенных в сети, которые совместно обучаются на большом объеме данных с минимальным вмешательством человека в разработку признаков и структуры. В некотором смысле, ИИ перешел от парадигмы «пусть один умный алгоритм все выяснит» к «пусть множество простых единиц обучаются вместе, и решение появляется само собой».
Ансамблевое обучение
Одним из связующих звеньев между традиционным статистическим обучением и современными подходами глубокого обучения в ИИ является развитие ансамблевого обучения. Ансамблевые методы объединяют предсказания нескольких моделей («базовых моделей») для принятия окончательного решения. Вместо того чтобы полагаться на один классификатор или регрессор, мы обучаем набор моделей, а затем агрегируем их результаты — например, путем голосования или усреднения. Идея проста: даже если каждая отдельная модель несовершенна, их ошибки могут быть некоррелированы и могут быть компенсированы. Ансамблевые алгоритмы, такие как Random Forest и XGBoost, использовали это понимание для победы во многих соревнованиях по машинному обучению с конца 2000-х годов и остаются конкурентоспособными в некоторых областях даже сегодня.
Статистическое обучение против глубокого обучения: битва между централизацией и децентрализацией.
Теперь давайте рассмотрим обе стороны этого моста. Традиционная теория статистического обучения, формализованная Вапником, Фишером и другими, явно нацелена на аналитическую разрешимость — как в модели, так и в ее оптимизации. В этих моделях параметры аналитически разделимы: они взаимодействуют непосредственно с функцией потерь, а не друг через друга; такие модели, как линейная регрессия, SVM или LDA, допускают оценки параметров в замкнутой форме, которые можно записать в виде ( widehat{theta} = argmin_{theta} L(theta) ). Даже когда замкнутые формы недоступны, как в логистической регрессии или CRF, оптимизация обычно остается выпуклой и, следовательно, теоретически хорошо описанной.
В отличие от этого, глубокие нейронные сети не допускают аналитически разрешимой связи между входом и выходом. Отображение от входа к выходу представляет собой сложную композицию нелинейных преобразований, где параметры последовательно связаны; для понимания поведения модели необходимо выполнить полное прямое моделирование всей сети. При этом динамика обучения таких сетей регулируется итеративными, невыпуклыми процессами оптимизации, которые не имеют аналитических гарантий. В этом двойственном смысле глубокие сети демонстрируют вычислительную неприводимость — их поведение может быть выявлено только посредством самих вычислений, а не выведено с помощью аналитических выражений.
Если мы рассмотрим первопричину вышеуказанного различия, то обнаружим, что оно обусловлено структурой модели — как и следовало ожидать. В методах статистического обучения вычислительные графы являются однослойными: (theta longrightarrow f(x;theta) longrightarrow L) без каких-либо промежуточных переменных, а «центральный планировщик» (оптимизатор) передает глобальную информацию непосредственно каждому параметру. Однако в глубоких нейронных сетях параметры организованы в слои, которые располагаются друг над другом. Например, сеть MLP без смещений может быть выражена как (y = f_L(W_L f_{L-1}(W_{L-1} dots f_1(W_1 x)))), где каждый (W_l) влияет на активацию следующего слоя. При вычислении градиента для обновления параметров (theta = lbrace W_i rbrace_{i=1}^L) неизбежно приходится полагаться на обратное распространение ошибки для послойного обновления параметров:
[ nabla_{W_l} L = frac{partial L}{partial h^{(L)}} frac{partial h^{(L)}}{partial h^{(L-1)}} dots frac{partial h^{(l)}}{partial W_l}]
Такая структурная взаимосвязь делает прямую централизованную оптимизацию нецелесообразной — информация должна распространяться вдоль топологии сети, образуя нефакторизуемый граф зависимостей, который необходимо проходить как вперед, так и назад во время обучения.
Стоит отметить, что большинство реальных сложных систем, подобных упомянутым выше, являются децентрализованными и вычислительно неприводимыми, что убедительно подтверждается в книге Стивена Вольфрама «Новый вид науки».
| Статистическое обучение | Глубокое обучение | |
|---|---|---|
| Принятие решений | Централизованный | Распределённый |
| Поток информации | Глобальная обратная связь; все параметры обрабатываются одновременно. | Локальная обратная связь; сигналы распространяются слой за слоем. |
| Зависимость параметров | Вычислительно разделимые | Динамически взаимозависимые |
| Природа вывода | Оцените явную формулу | Смоделируйте динамику сети. |
| Интерпретируемость | Высокие значения — параметры имеют глобальное, часто линейное значение. | Низкий уровень — распределенные представления |
Распространение сигнала: невидимая рука координации
Естественный вопрос о децентрализованных системах: как эти системы координируют поведение своих внутренних компонентов? Как мы показали выше, в глубоких нейронных сетях это происходит посредством распространения градиентов (градиентного потока). В муравейнике — посредством распространения феромонов. И вы наверняка слышали знаменитую «невидимую руку», придуманную Адамом Смитом: цена — это ключ к координации действий агентов в экономической системе. Все это — частные случаи распространения сигналов .
Распространение сигналов лежит в основе сложных систем. Сигнальный индикатор сжимает ландшафт системы и используется каждым агентом в этой системе для определения своего оптимального поведения. В качестве примера рассмотрим конкурентную экономическую систему. В такой экономической системе динамика цен (p(t)) товара используется в качестве сигнального индикатора и передается агентам в этой системе для координации их поведения. Динамика цен (p(t)) сжимает и инкапсулирует ключевую информацию других агентов, такую как их предельные представления о стоимости и цене товара, влияя на решение каждого агента. По сравнению с распространением полной информации всех агентов, существуют два основных преимущества, соответствующих сжатию и инкапсуляции информации соответственно:
- Повышенная эффективность распространения информации. Вместо передачи многомерной информации — такой как функция готовности каждого агента платить — за один раз передается только скалярная величина. Это резкое сокращение пропускной способности информационного канала делает возможной и стабильной децентрализованную сходимость к равновесию, обеспечивающему равновесие на рынке.
- Надлежащая точность сигнала. Цена предоставляет индикатор с оптимальным уровнем точности исходной информации, который может привести к состоянию Парето-оптимума на системном уровне в условиях конкурентного рынка, формализованному и доказанному в основополагающей работе Эрроу и Дебре (1954). Секрет в том, что, поскольку этот общедоступный сигнал является единственным доступным, каждый агент рассматривает себя как ценополучателя на текущем уровне цен, а не как влияющего фактора, поэтому стратегическое поведение отсутствует.
Удивительно, что доступ к полной информации обо всех агентах не приводит к улучшению состояния рыночной системы, даже без учета эффективности распространения. Это вводит стратегическую взаимосвязь : оптимальное действие каждого агента зависит от действий других, что наблюдается при наличии полной информации. С точки зрения каждого агента, это уже не задача оптимизации в форме
[max_{a_i in A_i(p, e_i)} ; u_i(a_i), qquad A_i(p, e_i) = { a_i : Cost(a_i, p) le e_i } ]
Вместо этого его поведение руководствуется следующей стратегией:
[max_{a_i in A_i(e_i)} u_i(a_i, a_{-i}),qquad A_i(e_i) = { a_i : text{Feasible}(a_i; e_i)}]
Здесь (a_i) и (e_i) — действие и ресурс агента (i) соответственно, (a_{-i}) — действия других агентов, (p) — цена товара, не зависящая от действий какого-либо отдельного агента, и (u_i) — полезность агента (i), которую необходимо максимизировать. При наличии полной информации каждый агент может спекулировать на поведении других агентов, и поэтому (a_{-i}) входит в полезность агента (i), создавая стратегическую связь. Таким образом, экономическая система в конечном итоге сходится к равновесию Нэша и страдает от неэффективности, присущей некооперативному поведению (например, дилемма заключенного).
Технически, механизм распространения сигнала на рынках структурно эквивалентен модели среднего поля . Его стационарное состояние соответствует равновесию среднего поля, и эту модель можно интерпретировать как частный случай игры среднего поля. Многие сложные системы в природе также могут быть описаны с помощью конкретной модели среднего поля, например, передача объема в мозге и модель феромонного поля в колониях насекомых.
Недостающий элемент в нейронных сетях
Подобно описанным выше природным сложным системам, динамика обучения нейронных сетей также хорошо описывается моделями среднего поля во многих предыдущих работах. Однако существует важное различие между обучением нейронных сетей и эволюцией большинства других сложных систем: структура целевых функций . В глубоких нейронных сетях динамика обновления всех модулей определяется централизованной глобальной функцией потерь (L(theta)); в то время как в других сложных системах обновления системы обычно определяются гетерогенными локальными целевыми функциями. Например, в экономических системах агенты меняют свое поведение, чтобы максимизировать свои собственные функции полезности, и нет такой «глобальной полезности», охватывающей всех агентов, которая играла бы какую-либо роль.
Прямым следствием этого различия является отсутствие конкуренции в обученной глубокой нейронной сети. Различные модули в модели образуют производственную сеть, которая вносит вклад в единый конечный продукт — следующий токен, в котором связь между различными модулями представляет собой чистое сотрудничество «вверх-вниз» (предложено в работе «Рыночные архитектуры в обучении с подкреплением и за его пределами»; см. раздел 4 моих лекционных слайдов для упрощенного вывода). Однако, как известно, конкурентное давление вызывает функциональную специализацию агентов в экономической системе, что дополнительно создает потенциал для улучшения Парето для системы за счет хорошо функционирующих обменов. Аналогичная логика была обнаружена и при ручном введении конкуренции в нейронные сети: штраф за разреженность вызывает локальную конкуренцию между блоками за активацию, что подавляет избыточные активации, стимулирует функциональную специализацию и эмпирически улучшает качество представления , как показано в работе Розелла и др. (2008), где конкурентные LCA создают более точные представления, чем неконкурентные базовые модели. В этом смысле моделирование внутримодульной конкуренции стало бы важным направлением для проектирования систем искусственного интеллекта следующего поколения.
Децентрализация способствует развитию демократии в сфере искусственного интеллекта.
В конце этой статьи стоит поговорить еще об одном этическом значении децентрализации. Децентрализованная структура глубоких нейронных сетей обеспечивает техническую основу для взаимодействия между моделями. Когда интеллект распределен между множеством компонентов, становится возможным объединять, сливать или координировать различные модели для построения более мощной системы. Такая архитектура естественным образом поддерживает более демократичную форму ИИ, где в идеале ни одна модель не монополизирует влияние. Это удивительно согласуется с убеждением Аристотеля о том, что «каждый человек, хотя и несовершенен, способен рассуждать», хотя «люди» здесь созданы из кремния.
Сяоконг Ян — аспирант кафедры компьютерных наук в Университете Иллинойса в Урбана-Шампейн и основатель проекта AI Interpretability @ Illinois. Для цитирования этой работы, пожалуйста, ссылайтесь на архивную версию на моем личном веб-сайте.
Ссылки
– Аристотель. (1998). Политика (перевод CDC Reeve). Издательство Hackett Publishing Company.
– Платон. (2004). Республика (перевод CDC Reeve). Издательство Hackett Publishing Company.
– Смит, А. (1776). Исследование природы и причин богатства народов. У. Страхан и Т. Каделл.
– Эрроу, К. Дж., и Дебре, Г. (1954). Существование равновесия для конкурентной экономики. Эконометрика, 22(3), 265–290.
– Розелл, К. Дж., Джонсон, Д. Х., Баранюк, Р. Г., и Ольшаузен, Б. А. (2008). Разреженное кодирование посредством пороговой обработки и локальной конкуренции в нейронных цепях. Нейронные вычисления, 20(10), 2526–2563.
– Судхир, А.П., и Тран-Тхань, Л. (2025). Рыночные архитектуры в обучении с подкреплением и за его пределами.
– Хебб, Д. О. (1949). Организация поведения: нейропсихологическая теория. Wiley.
– Вапник, В.Н. (1998). Теория статистического обучения. Wiley.
– Гудфеллоу, И., Бенджио, Й., и Курвиль, А. (2016). Глубокое обучение. Издательство MIT Press.
– Вольфрам, С. (2002). Новый вид науки. Wolfram Media.
– Смит, А. (1776). Исследование природы и причин богатства народов. У. Страхан и Т. Каделл.
– Ласри, Ж.-М., и Лайонс, П.-Л. (2007). Игры среднего поля. Японский журнал математики, 2(1), 229–260.
– Хайек, Ф.А. (1945). Использование знаний в обществе. Американский экономический обзор, 35(4), 519–530.
(Все изображения, использованные в этой статье, взяты с сайта pixabay.com и разрешены для свободного использования в соответствии с лицензией Pixabay Content License.)
Источник: towardsdatascience.com





















