Человек в голубом свитере стоит на зелёной лужайке перед домом в солнечный день.

Где в предложении содержится смысл? Возможно, математика нам это подскажет.

Математик Тай-Данаэ Брэдли использует теорию категорий, чтобы попытаться понять как человеческий язык, так и язык, сгенерированный искусственным интеллектом. Комментарий Сохранить статью Прочитать позже

971b9337cbcb454a1f994b387e27be33

Введение

В детстве Тай-Данаэ Брэдли совсем не любила математику. В 2008 году она поступила в Городской колледж Нью-Йорка, где играла за баскетбольную команду и надеялась начать карьеру в области спортивного питания. Она считала свои математические курсы препятствием в учебной программе, в котором могли преуспеть только гении. «Я бы лучше лишилась всех зубов, чем занималась этим профессионально», — сказала она.

Но на втором курсе её преподаватель по математическому анализу изменил её мнение. Она поняла, что математика — это язык, на котором написаны все науки. «В мире есть нечто более глубокое, чем то, что написано в учебниках, — сказала она. — Мы живём в удивительном мире, и математика — это способ увидеть часть этого».

Она бросила баскетбольную команду и решила получить двойную специальность по математике и физике. Сейчас, работая исследователем в компании SandboxAQ, занимающейся искусственным интеллектом, и приглашенным профессором в университете Master's в Калифорнии, Брэдли использует язык математики, чтобы попытаться лучше понять сам язык.

Ее подход основан на теории категорий — способе отстраниться от конкретики какой-либо отдельной области и обратиться к более широкой основополагающей структуре, которая объединяет все эти области. Рассматривая язык как математическую категорию, она смогла применить существующие инструменты для его изучения и получить новые знания.

Лингвисты надеются, что её модель поможет им доказать определённые теории о том, как грамматика и значение формируются из последовательностей слов, а также определить, чем текст, сгенерированный искусственным интеллектом, отличается от человеческого языка. Сама Брэдли больше заинтересована в том, как изучение языка таким образом может позволить ей разработать новые математические инструменты.

Журнал Quanta побеседовал с Брэдли о том, как математика может влиять на изучение языка и наоборот. Интервью было сокращено и отредактировано для ясности.

Какой вопрос побудил вас начать это исследование?

Меня интересовало следующее: Какова математическая структура языка? Каковы его основные единицы? Как математические взаимосвязи между словами и фразами приводят к формированию осмысленного содержания?

Женщина стоит рядом с доской, исписанной математическими обозначениями.

Тай-Данаэ Брэдли в детстве не любила математику. Но, будучи студенткой, она начала понимать, насколько математика связана с окружающим нас миром.

Существует множество различных способов изучения языка с математической точки зрения. Например, язык можно рассматривать как имеющий алгебраическую структуру. Когда я умножаю два числа, я получаю другое число. Точно так же я могу «умножить», или объединить, две фразы на английском языке и получить еще одну.

Язык также можно рассматривать с точки зрения теории категорий.

Что такое теория категорий?

Категория состоит из нескольких объектов, а также отношений между ними, называемых морфизмами. Объектами могут быть множества, группы или векторные пространства. Морфизмы связывают один объект с другим. Допустим, ваши объекты — это множества. Тогда морфизм — это функция, которая отображает одно множество в другое.

Мне нравится представлять теорию категорий как игру «Безумные истории» для математики. В этой игре у вас есть одна история, но вы получаете разные её версии в зависимости от того, какие слова вы вставляете. Оказывается, существуют определённые истории или конструкции, которые являются общими для всей математической сферы. Разные разделы математики могут использовать разные слова для обозначения чего-либо — например, «группа» вместо «векторное пространство» — но если правильно заменить слова, можно увидеть, что лежащая в основе структура или история на самом деле одна и та же.

Когда я впервые изучал теорию категорий в аспирантуре, мне это показалось ужасным. Помню, как думал: вот почему люди не любят математику. Это абстракция ради абстракции, не имеющая под собой никакой интуиции. Это было неприятно. Только позже мой научный руководитель, Джон Терилла, помог мне понять, насколько мощным инструментом может быть теория категорий.

Что делает его таким мощным?

Это позволяет оторваться от земли и взглянуть на математический ландшафт с высоты птичьего полета, увидеть связи, незаметные на уровне земли. Теперь это одна из вещей, о которых мне больше всего нравится думать — просто для этого потребовалось больше математического контекста и зрелости.

Три листа тетрадной бумаги с математическими диаграммами.

Брэдли видит применение теории категорий повсюду вокруг себя. Особенно её интересует её использование для понимания языка.

Что такого позволяет увидеть теория категорий, чего нельзя увидеть другими способами?

В математике очень важен вопрос: когда две вещи одинаковы? Что означает «одинаковые», и как это меняется в зависимости от того, о какой области математики идёт речь?

Например, множество похоже на мешок с шариками: у него нет реальной структуры. Поэтому мы говорим, что два множества одинаковы, когда они содержат одинаковое количество элементов. Группа, с другой стороны, — это множество, элементы которого взаимодействуют по определенным правилам. Теперь ваше понятие тождественности должно учитывать эту дополнительную структуру.

Теория категорий предоставляет общий шаблон для описания этих различных понятий сходства. Затем вы можете использовать этот шаблон для перехода между этими различными контекстами при попытке решить проблему.

Можете привести пример?

Один из моих любимых примеров — из мира топологии. Формы, называемые топологическими пространствами, образуют категорию. Можно растянуть одну в другую, и это растяжение является морфизмом, который связывает их друг с другом.

Допустим, у вас есть два топологических пространства, и вы хотите узнать, одинаковы ли они. Если да, то при растяжении одного пространства в другое количество «дыр» в нём не меняется. Работа с такими пространствами напрямую может быть очень сложной, поэтому это может оказаться действительно трудно выяснить.

Но это количество лунок всегда совпадает с числом, относящимся к совершенно другой категории.

Женщина в синем свитере сидит за столиком на улице.

«Возможно, изучение языка, — сказал Брэдли, — поможет нам обнаружить какую-то новую математическую структуру, которую мы еще не нашли».

Теория категорий позволяет переходить из категории топологических пространств в другую категорию. Например, можно использовать функтор для преобразования двух топологических пространств в векторные пространства. Если затем окажется, что размерности векторных пространств различны — а это гораздо проще измерить — то станет ясно, что эти два пространства не могут быть одинаковыми. И это было выяснено путем перехода между областями топологии и линейной алгебры с помощью теории категорий.

Итак, как же использовать теорию категорий для понимания языка?

Языковая теория и теория категорий тесно связаны. Мы не хотим навязывать языку какую-либо жесткую математическую модель. Мы можем начать с простых частот, например, сколько раз слово «кот» встречается рядом с определенными другими словами. Если я скажу: «Любопытство убило ____», я могу рассчитать вероятность того, что следующим словом будет «кот», а не «вертолет».

Таким образом, каждое возможное слово или фраза (или, скорее, комбинация букв) могут рассматриваться как объекты более общего типа категории, называемой обогащенной категорией. И каждый объект связан с каждым другим объектом вероятностью того, что он последует за ним — это обогащенные версии ваших морфизмов. Их можно представить как стрелки между словами, каждое из которых помечено числом.

Почему полезно рассматривать язык в терминах подобных категорий?

Если вы что-то любите, вы начинаете видеть это повсюду. Поскольку это настолько абстрактно и поскольку это связывает идеи в разных областях математики, многие вещи, знакомые математикам, могут быть переформулированы в терминах теории категорий.

Но дело обстоит глубже. Если рассматривать язык как категорию, то открываются доступ к многолетним конструкциям, созданным людьми. Поэтому вы можете просто полистать эту книгу рецептов и найти те, которые могут оказаться полезными для изучения человеческого языка или для понимания того, что происходит в больших языковых моделях.

Как вы использовали один из этих рецептов, чтобы понять что-то новое?

Многие задаются вопросом, как можно получить более абстрактные понятия, исходя из базовой информации о том, как слова обычно сочетаются. Если я попрошу ChatGPT перечислить пять рептилий, которые также являются домашними питомцами, как он поймет, как связать эти два понятия? Как перейти от последовательностей символов и их характеристик к подобной логической взаимосвязи?

Мы можем использовать один из наших методов, чтобы получить потенциальное представление об этом. Во-первых, мы связываем с каждым словом категориально-теоретическую конструкцию, которая описывает все фразы, в которых может встречаться это слово, и насколько распространена эта фраза. Затем мы можем взять конструкции, связанные с двумя разными словами, и выполнить над ними несколько очень простых операций — операций, которые опять же являются классическими в теории категорий.

Женщина сидит за столом и смотрит в свой iPad.

Чтобы сделать математику более доступной для других, Брэдли ведет популярный блог под названием Math3ma.

В результате мы получаем конструкцию, которая автоматически связывает два исходных слова. Если бы нашими исходными словами были «большой» и «жёлтый», мы получили бы нечто, что, грубо говоря, присваивает большие числа вероятным фразам, таким как «большое жёлтое солнце», и меньшие числа — фразам, таким как «большой жёлтый рубин». Эта простая операция из теории категорий даёт нам нечто действительно лингвистически значимое — способ объединения слов для построения более общего понятия, например, понятия вещей, которые одновременно большие и жёлтые.

Таким образом, используя теорию категорий, можно математически показать, как концепции более высокого уровня потенциально могут возникать из очень простой статистической информации. Я думаю, это намек на то, что, возможно, именно так формируются идеи. Я не хочу говорить «формируются в человеческом разуме», потому что кто знает, как работает мозг. Но это концептуальное содержание присутствует в исходных данных об использовании языка, потому что все, с чего мы начали, — это эти частоты.

И вы считаете, что именно этим могут заниматься магистранты права?

Я присоединился к этому исследовательскому проекту ещё до того, как его начали брать на себя магистерские программы. Но они начинают с тех же частот, что и мы. Я не знаю, что на самом деле происходит внутри трансформаторов. Не уверен, что кто-либо знает. Но, возможно, это станет поводом для обсуждения.

Что ваша работа говорит о языке в целом?

Я думаю, это указывает на то, что даже в самом простом синтаксисе содержится значимая информация, например, что с чем сочетается. Если вы посмотрите, какие слова обычно идут после слова «синий» — например, «синий мрамор» или «голубое небо», но не «голубой авокадо» — можете ли вы понять, что означает слово «синий»?

В лингвистическом сообществе это не общепринятый факт. Как человек, я могу извлечь смысл из предложения на бумаге, но слова на бумаге — это не всё, к чему я имею доступ. Я имею доступ к миру. Лингвисты спорят о том, нужна ли модель мира для извлечения смысла из письменного языка. Идея о том, что смысл заключен в расположении слов, стара в лингвистике, но в последние десятилетия она в значительной степени вышла из моды.

Улыбающаяся женщина

Брэдли считает, что ее работа «показывает, что в самом простом синтаксисе, например, что с чем сочетается, может содержаться значимая информация», — сказала она.

Однако эта работа — и недавний успех программ LLM — подтверждает идею о том, что в статистике совместного использования слов есть смысл. Таким образом, она может внести свой вклад в более широкую дискуссию, которую ведут лингвисты.

В своей последней статье вы также используете теорию категорий, чтобы привнести совершенно новые концепции в изучение языка.

Верно. Мы изучали так называемую величину категории — своего рода меру размера, связанную с топологией и характеризующую категорию. Мой соавтор Хуан Пабло Виньо недавно придумал новый способ вычисления величины. Поэтому после некоторых дополнительных исследований мы решили попробовать его на категории, образованной языком.

И, как ни удивительно, когда мы вычислили, как будет выглядеть эта формула величины для данной категории, мы получили математическое выражение, содержащее центральную величину, встречающуюся в теории информации. Энтропия — мера того, сколько информации содержит нечто.

О чём говорит вам эта связь?

Это указывает на интригующую связь между энтропией и топологией. Обычно эти вещи не взаимодействуют друг с другом — они находятся на совершенно разных концах научного ландшафта. Но эта связь начала проявляться в последние годы, и это может быть еще одним примером. Меня очень интересует это явление, когда вещи, которые кажутся разными, оказываются фундаментально связанными.

Мы также смотрим на ответ с недоумением: «Ух ты, что это такое?» Что означает энтропия в контексте языка? Что это может нам рассказать? Можно ли, например, использовать вычисление величины для сравнения структур разных языков — или для сравнения человеческого языка с языком, сгенерированным с помощью LLM?

Это всего лишь первая ступенька на очень высокой лестнице. Предстоит еще многое сделать.

Куда, по вашему мнению, вас приведет ваша работа?

Я надеюсь, это поможет нам глубже понять саму математику.

Это может помочь нам понять феномен языка и лучше разобраться в окружающем нас мире. Но самое интересное заключается в том, что, возможно, некоторые математические идеи упущены, и именно поэтому этот феномен так загадочен и сложен для понимания.

Возможно, изучение языка таким образом поможет нам обнаружить какую-то новую математическую структуру, которую мы еще не нашли. В математике это происходит постоянно. Математики сталкиваются с вещами, у которых еще нет названия, со структурами, которые можно исследовать.

Я думаю, что через пять лет у нас могут появиться новые математические идеи, вдохновлённые языком.

Источник: www.quantamagazine.org

✅ Найденные теги: Где, математика, новости, Предложение, Смысл

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Световые следы от летящей птицы на фоне темного неба, создающие фигуру в воздухе.
Инициатива Amplify: локализованные данные для глобализированного ИИ.
ideipro logotyp
Небольшой, открытый программный продукт Alibaba Qwen3.5-9B превосходит gpt-oss-120B от OpenAI и может работать на стандартных ноутбуках.
Счастливый нарисованный робот на фоне графика данных.
Человек в зеленом костюме на велосипеде перед розовым домом.
Живописное собрание европейских мыслителей в украшенном зале, картины, статуи, люди.
Война Трампа против Ирана может навредить американским фермерам.
Видеокарта GeForce RTX с тремя вентиляторами на столе, интерьер на фоне.
Image Not Found
Война Трампа против Ирана может навредить американским фермерам.

Война Трампа против Ирана может навредить американским фермерам.

Ближний Восток поставляет огромные объемы удобрений в мир. Конфликт в регионе привел к резкому росту цен в преддверии критически важного весеннего посевного сезона. Фотография: Томас Барвик Сохранить историю Сохранить эту историю Сохранить историю Сохранить эту историю После…

Мар 6, 2026
Крупный чёрный метеорит на столе рядом с ручкой для масштаба.

Необычные включения: ученый рассказал, чем привлекателен для коллекционеров метеорит Дронино

В ГЕОХИ РАН рассказали, чем ценен задержанный на таможне метеорит Дронино Фрагменты метеорита Дронино, задержанные на домодедовской таможне, могли быть найдены в месте падения. О самой громкой контрабанде с начала нового года рассказали правоохранительные органы, а ученые…

Мар 6, 2026
Иллюстрация "Layers of Brilliance" для Lost Women of Science, абстракция света и тени.

Кэтрин Берр Блоджетт скрывала свою внутреннюю борьбу, когда творила историю в лаборатории

на пике своей карьеры, химик и физик Кэтрин Берр Блоджетт сталкиваются с проблемами, которые даже не ее ближайших коллег, подозреваемых Кэти Хафнер, Наталия Санчес Лоайса, Софья Левина, Ханна Саммут & потерянных женщин «научная инициатива» Кэтрин Берр Блоджетт&амп;родственники…

Мар 6, 2026
Дрон в небе с вращающимся пропеллером, вид сверху. Облака и земля на заднем плане.

Почему США используют дешевый иранский беспилотник против самой Ирана?

США и Иран обмениваются ударами в Персидском заливе, используя простой беспилотник, стоимость производства которого составляет всего 50 000 долларов. Но почему медленный, дешевый и относительно примитивный беспилотник используется в 2026 году наряду с гиперзвуковыми ракетами и самолетами-невидимками?…

Мар 6, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых