ChatGPT и Gemini AI пишут разными идиомами, лингвисты находят

Когда вы в последний раз общались с ChatGPT, было ли у вас ощущение, что вы общаетесь с одним человеком, или, скорее, что вы общаетесь с несколькими людьми? Казалось ли вам, что чат-бот обладает определенной индивидуальностью, или каждый раз, когда вы с ним общались, он казался другим?
Несколько недель назад, сравнивая уровень владения языком в эссе, написанных ChatGPT, с уровнем владения языком в эссе авторов-людей, я был поражен! момент. Я понял, что сравниваю один голос — голос модели large language model, или LLM, которая поддерживает ChatGPT, — с разнообразным диапазоном голосов от нескольких авторов. Такие лингвисты, как я, знают, что у каждого человека есть свой особый способ самовыражения, в зависимости от его родного языка, возраста, пола, образования и других факторов. Мы называем этот индивидуальный стиль речи «идиолектом». По своей концепции он похож на диалект, который представляет собой разновидность языка, на котором говорит сообщество, но гораздо уже, чем диалект. Мое мнение: можно было бы проанализировать язык, созданный ChatGPT, чтобы выяснить, выражает ли он себя с помощью идиолекта — единственного, отличного от других способа.
Идиолекты необходимы в судебной лингвистике. В этой области, помимо прочего, изучается использование языка в ходе полицейских бесед с подозреваемыми, устанавливается авторство документов и текстовых сообщений, отслеживается языковой фон лиц, ищущих убежища, и выявляется плагиат. Хотя нам (пока) не нужно выдвигать на первый план LLM, все больше людей, включая преподавателей, беспокоятся о том, что такие модели используются студентами в ущерб их образованию — например, путем передачи письменных заданий на аутсорсинг в ChatGPT. Поэтому я решил проверить, действительно ли ChatGPT и его собратья по искусственному интеллекту, такие как Gemini и Copilot, владеют идиолектами.
О поддержке научной журналистики
Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.
Элементы стиля
Чтобы проверить, был ли текст сгенерирован LLM, нам нужно изучить не только содержание, но и форму — используемый язык. Исследования показывают, что ChatGPT предпочитает стандартную грамматику и академические выражения, избегая сленга или разговорной лексики. По сравнению с текстами, написанными авторами-людьми, в ChatGPT часто используются сложные глаголы, такие как «углубиться», «выровнять» и «подчеркнуть», а также прилагательные, такие как «примечательный», «универсальный»; и «похвально». Мы могли бы счесть эти слова типичными для идиолекта чатгпт. Но выражает ли ChatGPT идеи иначе, чем другие инструменты на базе LLM, при обсуждении одной и той же темы? Давайте углубимся в это.
Онлайн-хранилища полны удивительных наборов данных, которые можно использовать для исследований. Один из них — это набор данных, составленный специалистом по информатике Мухаммедом Навидом, который содержит сотни коротких текстов о диабете, написанных ChatGPT и Gemini. Тексты практически одинакового размера, и, согласно описанию их создателя, их можно использовать «для сравнения и анализа эффективности обеих моделей искусственного интеллекта при создании информативного и связного контента на медицинскую тематику». Сходство в тематике и размере делает их идеально подходит для определения того, принадлежат ли выходные данные двум разным «авторам» или одному «физическому лицу».»
Один из популярных способов определения авторства использует дельта метод, введенный в 2001 году Джоном Берроузом, пионером компьютерной стилистики. Формула сравнивает частотность слов, обычно используемых в текстах: слов, которые функционируют для выражения отношений с другими словами — категория, которая включает в себя «и», «это», «из», «the». «это» и «для» и содержательных слов, таких как «глюкоза» или «сахар». Таким образом, дельта-метод фиксирует особенности, которые варьируются в зависимости от идиолекта их авторов. В частности, он выводит числа, которые измеряют лингвистические «расстояния» между исследуемым текстом и справочными текстами предварительно выбранных авторов. Чем меньше расстояние, которое обычно немного меньше или больше 1, тем выше вероятность того, что автор один и тот же.
Я обнаружил, что случайная выборка из 10 процентов текстов о диабете, сгенерированных ChatGPT находится на расстоянии 0,92 от всего набора данных о диабете ChatGPT и на расстоянии 1,49 от всего набора данных Gemini. Аналогичным образом, случайная 10-процентная выборка текстов Gemini имеет расстояние 0,84 от Gemini и 1,45 от ChatGPT. В обоих случаях авторство оказывается совершенно очевидным, что указывает на то, что модели двух инструментов имеютразные стили письма.
Ты говоришь — сахар, я говорю — глюкоза
Чтобы лучше понять эти стили, давайте представим, что мы просматриваем тексты о диабете и выбираем слова группами по три. Такие комбинации называются «триграммами». Наблюдая, какие триграммы используются чаще всего, мы можем получить представление об уникальном способе составления слов вместе. Я выделил 20 наиболее часто встречающихся триграмм для ChatGPT и Gemini и сравнил их.
Триграммы ChatGPT в этих текстах предполагают более формальный, клинический и академический идиолект, с такими фразами, как &лица с сахарным диабетом, «уровнем глюкозы в крови», «развитием», характеризующимся повышенным» и «повышенным риском». Напротив, триграммы Близнецов более разговорный и поясняющий, с такими фразами, как «способ», «каскад», «это не», «высокий уровень сахара в крови» и «контроль уровня сахара в крови». Подбор слов например, «сахар» вместо «глюкоза» указывает на предпочтение простого, доступного языка.
На приведенной ниже диаграмме представлены наиболее яркие различия между триграммами, связанные с их частотностью. Gemini использует формальную фразу «уровень глюкозы в крови» только один раз во всем наборе данных, поэтому она знает эту фразу, но, похоже, избегает ее. И наоборот, «высокий уровень сахара в крови» встречается в ответах ChatGPT всего 25 раз по сравнению со 158 разами в ответах Gemini. На самом деле, ChatGPT использует слово «глюкоза» более чем в два раза чаще, чем «сахар», в то время как Gemini делает прямо противоположное, добавляя «сахар» более чем в два раза чаще, чем «глюкоза».
<исходный код="(минимальная ширина: 750 пикселей)" srcSet="https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w=1350-1350 Вт, https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w=2000-2000 Вт, https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w= 900 900 Вт" размеры="(минимальная ширина: 2000 пикселей) 2000 пикселей, (минимальное разрешение: 3dppx) 50 Вт, (минимальное разрешение: 2 пикселя в секунду) 75 Вт, 100 Вт"/><исходный материал="(минимальная ширина: 0 пикселей)" srcSet="https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 1000-1000 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 1200-1200 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 600-600 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 750-750 Вт" размеры="(минимальное разрешение: 3dppx) 50 Вт, (минимальное разрешение: 2dppx) 75 Вт, 100 Вт"/>
Зачем магистрантам разрабатывать идиолекты? Это явление может быть связано с принципом наименьших усилий — тенденцией выбирать наименее затратный способ выполнения данной задачи. Как только слово или фраза становятся частью их лингвистического репертуара во время обучения, модели могут продолжать использовать их и сочетать с похожими выражениями, подобно тому, как у людей есть любимые слова или фразы, которые они используют чаще, чем обычно, в своей речи или письме. Или это может быть своего рода стимуляция — то, что происходит с людьми, когда мы слышим слово и затем с большей вероятностью используем его сами. Возможно, каждая модель каким-то образом настраивает себя на слова, которые она использует неоднократно. Идиолекты в LLM могут также отражать так называемые возникающие способности — навыки, которым модели не были специально обучены, но которые они, тем не менее, демонстрируют.
Тот факт, что инструменты, основанные на LLM, создают разные идиолекты- что может изменяться и развиваться в обновлениях или новых версиях — имеет значение для продолжающихся дебатов о том, насколько ИИ далек от достижения интеллекта на уровне человека. Важно, чтобы модели чат-ботов не просто усредняли или воспроизводили данные своего обучения, а развивали в процессе характерные лексические, грамматические или синтаксические привычки, подобно тому, как люди формируются на основе нашего опыта. Между тем, знание того, что магистры пишут на идиолектах, может помочь определить, было ли эссе или статья написана моделью или конкретным человеком — точно так же, как вы можете распознать сообщение друга в групповом чате по его фирменному стилю.



























