Image

Каждый чат—бот с искусственным интеллектом имеет Свой собственный отличительный стиль письма — Точно так же, как это делают люди

ChatGPT и Gemini AI пишут разными идиомами, лингвисты находят

Иллюстрация чат-бота с речевым пузырем

Когда вы в последний раз общались с ChatGPT, было ли у вас ощущение, что вы общаетесь с одним человеком, или, скорее, что вы общаетесь с несколькими людьми? Казалось ли вам, что чат-бот обладает определенной индивидуальностью, или каждый раз, когда вы с ним общались, он казался другим?

Несколько недель назад, сравнивая уровень владения языком в эссе, написанных ChatGPT, с уровнем владения языком в эссе авторов-людей, я был поражен! момент. Я понял, что сравниваю один голос — голос модели large language model, или LLM, которая поддерживает ChatGPT, — с разнообразным диапазоном голосов от нескольких авторов. Такие лингвисты, как я, знают, что у каждого человека есть свой особый способ самовыражения, в зависимости от его родного языка, возраста, пола, образования и других факторов. Мы называем этот индивидуальный стиль речи «идиолектом». По своей концепции он похож на диалект, который представляет собой разновидность языка, на котором говорит сообщество, но гораздо уже, чем диалект. Мое мнение: можно было бы проанализировать язык, созданный ChatGPT, чтобы выяснить, выражает ли он себя с помощью идиолекта — единственного, отличного от других способа.

Идиолекты необходимы в судебной лингвистике. В этой области, помимо прочего, изучается использование языка в ходе полицейских бесед с подозреваемыми, устанавливается авторство документов и текстовых сообщений, отслеживается языковой фон лиц, ищущих убежища, и выявляется плагиат. Хотя нам (пока) не нужно выдвигать на первый план LLM, все больше людей, включая преподавателей, беспокоятся о том, что такие модели используются студентами в ущерб их образованию — например, путем передачи письменных заданий на аутсорсинг в ChatGPT. Поэтому я решил проверить, действительно ли ChatGPT и его собратья по искусственному интеллекту, такие как Gemini и Copilot, владеют идиолектами.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

Элементы стиля

Чтобы проверить, был ли текст сгенерирован LLM, нам нужно изучить не только содержание, но и форму — используемый язык. Исследования показывают, что ChatGPT предпочитает стандартную грамматику и академические выражения, избегая сленга или разговорной лексики. По сравнению с текстами, написанными авторами-людьми, в ChatGPT часто используются сложные глаголы, такие как «углубиться», «выровнять» и «подчеркнуть», а также прилагательные, такие как «примечательный», «универсальный»; и «похвально». Мы могли бы счесть эти слова типичными для идиолекта чатгпт. Но выражает ли ChatGPT идеи иначе, чем другие инструменты на базе LLM, при обсуждении одной и той же темы? Давайте углубимся в это.

Онлайн-хранилища полны удивительных наборов данных, которые можно использовать для исследований. Один из них — это набор данных, составленный специалистом по информатике Мухаммедом Навидом, который содержит сотни коротких текстов о диабете, написанных ChatGPT и Gemini. Тексты практически одинакового размера, и, согласно описанию их создателя, их можно использовать «для сравнения и анализа эффективности обеих моделей искусственного интеллекта при создании информативного и связного контента на медицинскую тематику». Сходство в тематике и размере делает их идеально подходит для определения того, принадлежат ли выходные данные двум разным «авторам» или одному «физическому лицу».»

Один из популярных способов определения авторства использует дельта метод, введенный в 2001 году Джоном Берроузом, пионером компьютерной стилистики. Формула сравнивает частотность слов, обычно используемых в текстах: слов, которые функционируют для выражения отношений с другими словами — категория, которая включает в себя «и», «это», «из», «the». «это» и «для» и содержательных слов, таких как «глюкоза» или «сахар». Таким образом, дельта-метод фиксирует особенности, которые варьируются в зависимости от идиолекта их авторов. В частности, он выводит числа, которые измеряют лингвистические «расстояния» между исследуемым текстом и справочными текстами предварительно выбранных авторов. Чем меньше расстояние, которое обычно немного меньше или больше 1, тем выше вероятность того, что автор один и тот же.

Я обнаружил, что случайная выборка из 10 процентов текстов о диабете, сгенерированных ChatGPT находится на расстоянии 0,92 от всего набора данных о диабете ChatGPT и на расстоянии 1,49 от всего набора данных Gemini. Аналогичным образом, случайная 10-процентная выборка текстов Gemini имеет расстояние 0,84 от Gemini и 1,45 от ChatGPT. В обоих случаях авторство оказывается совершенно очевидным, что указывает на то, что модели двух инструментов имеютразные стили письма.

Ты говоришь — сахар, я говорю — глюкоза

Чтобы лучше понять эти стили, давайте представим, что мы просматриваем тексты о диабете и выбираем слова группами по три. Такие комбинации называются «триграммами». Наблюдая, какие триграммы используются чаще всего, мы можем получить представление об уникальном способе составления слов вместе. Я выделил 20 наиболее часто встречающихся триграмм для ChatGPT и Gemini и сравнил их.

Триграммы ChatGPT в этих текстах предполагают более формальный, клинический и академический идиолект, с такими фразами, как &лица с сахарным диабетом, «уровнем глюкозы в крови», «развитием», характеризующимся повышенным» и «повышенным риском». Напротив, триграммы Близнецов более разговорный и поясняющий, с такими фразами, как «способ», «каскад», «это не», «высокий уровень сахара в крови» и «контроль уровня сахара в крови». Подбор слов например, «сахар» вместо «глюкоза» указывает на предпочтение простого, доступного языка.

На приведенной ниже диаграмме представлены наиболее яркие различия между триграммами, связанные с их частотностью. Gemini использует формальную фразу «уровень глюкозы в крови» только один раз во всем наборе данных, поэтому она знает эту фразу, но, похоже, избегает ее. И наоборот, «высокий уровень сахара в крови» встречается в ответах ChatGPT всего 25 раз по сравнению со 158 разами в ответах Gemini. На самом деле, ChatGPT использует слово «глюкоза» более чем в два раза чаще, чем «сахар», в то время как Gemini делает прямо противоположное, добавляя «сахар» более чем в два раза чаще, чем «глюкоза».

<исходный код="(минимальная ширина: 750 пикселей)" srcSet="https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w=1350-1350 Вт, https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w=2000-2000 Вт, https://static.scientificamerican.com/dam/m/36dd16b42eeb678/original/Gemini-vs-ChatGPT_graphic_d_TEXT.png?m=1751907902.817&w= 900 900 Вт" размеры="(минимальная ширина: 2000 пикселей) 2000 пикселей, (минимальное разрешение: 3dppx) 50 Вт, (минимальное разрешение: 2 пикселя в секунду) 75 Вт, 100 Вт"/><исходный материал="(минимальная ширина: 0 пикселей)" srcSet="https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 1000-1000 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 1200-1200 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 600-600 Вт, https://static.scientificamerican.com/dam/m/249c0b5e96c86de4/original/Gemini-vs-ChatGPT_graphic_m.png?m=1751907902.817&w= 750-750 Вт" размеры="(минимальное разрешение: 3dppx) 50 Вт, (минимальное разрешение: 2dppx) 75 Вт, 100 Вт"/>Диаграмма Dumbbell показывает разницу в частоте использования слов в двух разных инструментах, работающих на базе больших языковых моделей, Gemini и ChatGPT. Близнецы склонны к простому и понятному языку (например, “высокий уровень сахара в крови”), в то время как ChatGPT предпочитает формальные словосочетания (например, “уровень глюкозы в крови”).

Зачем магистрантам разрабатывать идиолекты? Это явление может быть связано с принципом наименьших усилий — тенденцией выбирать наименее затратный способ выполнения данной задачи. Как только слово или фраза становятся частью их лингвистического репертуара во время обучения, модели могут продолжать использовать их и сочетать с похожими выражениями, подобно тому, как у людей есть любимые слова или фразы, которые они используют чаще, чем обычно, в своей речи или письме. Или это может быть своего рода стимуляция — то, что происходит с людьми, когда мы слышим слово и затем с большей вероятностью используем его сами. Возможно, каждая модель каким-то образом настраивает себя на слова, которые она использует неоднократно. Идиолекты в LLM могут также отражать так называемые возникающие способности — навыки, которым модели не были специально обучены, но которые они, тем не менее, демонстрируют.

Тот факт, что инструменты, основанные на LLM, создают разные идиолекты- что может изменяться и развиваться в обновлениях или новых версиях — имеет значение для продолжающихся дебатов о том, насколько ИИ далек от достижения интеллекта на уровне человека. Важно, чтобы модели чат-ботов не просто усредняли или воспроизводили данные своего обучения, а развивали в процессе характерные лексические, грамматические или синтаксические привычки, подобно тому, как люди формируются на основе нашего опыта. Между тем, знание того, что магистры пишут на идиолектах, может помочь определить, было ли эссе или статья написана моделью или конкретным человеком — точно так же, как вы можете распознать сообщение друга в групповом чате по его фирменному стилю.

✅ Найденные теги: Каждый, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых