Image

Как работает детекция AI-текстов (и зачем она нужна)

7e564214e0cbe5fa5e6eabf5738d4452

Многие языковые модели на промптах по умолчанию без особых модификаций оставляют в тексте шаблоны.

А ещё они посильно мимикрируют под человека: пишут гладко и убедительно. Редакторам, преподавателям и аналитикам это создаёт новую проблему: как понять, кто автор текста — человек или нейросеть?

AI-детекторы вроде бы есть, но чаще всего они выдают вердикт без объяснений, «я так чувствую». Но можно отреверсить этот процесс и понять, на чём модель попалась. Например, один из простых способов — параллельная генерация по началу блока. Если дальше текст очень предсказуем, то, вероятно, ваш промпт был не очень и модель спалится.

Но куда эффективнее оказалось искать другие закономерности.

Появление языковых моделей сделало генерацию текстов рутиной. Но там, где раньше алгоритмы выдавали сухие и топорные машинные фразы, современные LLM воспроизводят стилистику и ритм человеческой речи.

Ну, пытаются.

Модели любят пользоваться классическими риторическими приёмами, но порой перебарщивают. Например, параллелизм — когда повторяются одинаковые конструкции. Вместо простого «В магазине есть хлеб, молоко и сыр», модель может написать: «Здесь есть хлеб, здесь есть молоко, здесь есть сыр». Другой частый приём — антитеза, противопоставления в стиле «не просто, а», «не только, но»: «Это не просто фильм, а событие». Когда такой оборот встречается в тексте единожды или дважды — ок, почему бы и нет, но модели готовы подытоживать так каждый абзац.

Интересно, что влияние моделей на стиль не ограничивается только текстом. В академических выступлениях и подкастах после запуска ChatGPT резко выросло употребление слов, характерных для моделей — таких как delve, comprehend, swift и meticulous.

Каждая новая версия крупной LLM умеет чуть больше и чуть лучше. Вместе с ростом качества вырос и соблазн. Стало слишком легко выдавать машинный текст за свой. Домашки, дипломы, пресс-релизы, новостные заметки, посты в соцсетях — всё это генерируется за пару минут. Раньше списывание было более трудоёмким, надо было хотя бы найти и отрерайтить чужой текст.

Антиплагиат тут бессилен: модель не копирует, а создаёт условно оригинальный текст. Появился спрос на системы, которые могут определить, кто на самом деле автор — человек или машина.

Однако существующие решения, такие как GPTZero и классификаторы OpenAI, имеют свои ограничения и не всегда обеспечивают высокую точность.

Они опираются на комбинацию методов:

  • Статистические метрики вроде перплексии — это такие численные показатели, которые показывают, насколько текст для модели «ожидаемый» или «странный». Если модель легко угадывает, какое слово дальше, — метрика низкая. Если слова оказываются неожиданными, — метрика высокая.

  • Лингвистические эвристики — простые правила, например, «подсчитать, сколько в тексте сложных слов или повторов». Не очень эффективны для текущего поколения LLM.

  • Очень хорошо показал себя принцип вычленения признаков. Берут активации одного слова, затем суммируют активации всех признаков по всем словам. В итоге для каждого текста получается один вектор-отпечаток, который показывает, какие признаки в нём доминируют. Дальше они обучали стандартный, но эффективный классификатор XGBoost на этих отпечатках на базе заведомо человеческих и заведомо LLM-ных текстов. Детекторы на базе разреженных автоэнкодеров работают лучше, чем те, что используют «сырые» данные из нейросети. Это подтверждает, что SAE действительно находит что-то важное.

Для синтетики брали датасет COLING 2025 Shared Task, дополненный текстами от нескольких моделей — Gemma, GPT, LLaMA. Это нужно, чтобы признаки не были привязаны к одной архитектуре.

Есть и другие слабые места. Например, лёгкая обманчивость — достаточно перефразировать, заменить синонимы или чуть укоротить фразы, и многие детекторы теряют часть признаков, на которых они обучены, из-за чего падает точность классификации. Или зависимость от обучающих данных — если детектор учился на текстах GPT-3, то GPT-4 уже может пройти мимо него незамеченным.

2fc4d72409662bd8becc9ba1c6cbd978

Примеры

  • 3608. Текст содержит слишком сложные, вложенные и грамматически громоздкие предложения. Он может выглядеть «умнее» или «научнее», чем нужно. Активируется на числах, скобках, словах вроде neighborhood (соседство, окрестность) в научном контексте. При усилении этого признака модель начинает генерировать короткие, обрывистые предложения, а при ослаблении — неестественно запутанные.

  • 4645. Избыточная сложность подачи информации и безапелляционность. Текст подаётся как очень убедительный и авторитетный, даже если информация в нём спекулятивная или неточная. Нейросеть создаёт видимость «глубоких знаний», используя сложные формулировки для простых идей. Реагирует на фактические противоречия или когда модель пытается «блефовать», соединяя несвязанные факты.

  • 6587. Многословные вступления и перечисления. Этот признак отвечает за структурирование текста с помощью длинных введений и маркированных/нумерованных списков. Текст часто начинается с фраз «Во-первых…», «Для начала рассмотрим…» и т.д. Сильно активируется на номерах пунктов в списках и вводных словах.

  • 8264. Повторение мыслей. Нейросеть повторяет одну и ту же идею несколько раз, используя разные синонимы и формулировки. Это создаёт ощущение «переливания из пустого в порожнее». Активируется на длинных, общеупотребительных словах, которые типичны для стиля GPT.

  • 14161. Излишняя формальность. Текст написан в слишком формальном, канцелярском стиле, даже когда это неуместно (например, в неформальном отзыве).

  • 8689, специфично для GPT-семейства. Чрезмерное использование синонимов. Модель активно заменяет слова синонимами, что иногда делает текст неестественным и «вымученным». Это попытка избежать прямых повторений, но она сама по себе становится узнаваемым артефактом, и это легко считывается.

  • Для домена научных статей, 12390. Чрезмерно сложный синтаксис. Активируется на связующих конструкциях, типичных для академических текстов.

  • Для домена инструкций, 1416. Неуместные «философские» объяснения. Вместо того чтобы давать чёткие и простые инструкции, модель пускается в метафорические или абстрактные рассуждения. Экстремальные значения этого признака появляются, когда в тексте есть ошибки парсинга — пропущены формулы или символы.

  • 6513, специфичен для финансов. Избыточные объяснения за очевидными фактами. Модель добавляет ненужные детали и личные мнения к фактам, которые этого не требуют. Реагирует на фразы вроде I mean (я имею в виду), like (типа) и другие разговорные конструкции, выражающие мнение.

  • 14953, для медицины. Неуместный тон (инструкции во втором лице). Текст использует прямой, поучительный тон, обращаясь к читателю на «вы» или «ты» («Вы должны…», «Вам следует…»). Это часто встречается в медицинских или юридических инструкциях. При усилении этого признака модель начинает генерировать тексты, похожие на юридические консультации, независимо от исходного запроса.

  • Для домена reddit, 4560: спекулятивная причинность. Модель строит преувеличенные или необоснованные причинно-следственные связи. Это часто встречается в неформальных дискуссиях. Усиление этого признака приводит к появлению фраз вроде «Изобретение огня напрямую привело к современной цивилизации».

То есть такими категориями можно описать как просто плохие SEO-тексты, так и тексты, сгенерированные моделями. Но некоторые признаки очень характеры для конкретных моделей в конкретных доменах, а их сочетание уже позволяет составить отпечаток.

Исследователи также проверили устойчивость признаков к попыткам обмана. Простые трюки вроде замены слов на синонимы, перестановки частей предложения или добавления пробелов перед знаками препинания могут сбить многие классификаторы. В эксперименте с датасетом RAID (любыми нарративными атаками) выяснилось, что самые важные признаки классификатора почти не пересекаются с простыми ловушками. В то же время устойчивыми оказались признаки, связанные со структурой предложений, распределением длины фраз и частотой грамматических конструкций — изменить их можно только при серьёзной переработке текста.

В результате получился каталог почерков моделей, который можно использовать не только для детекции, но и для… ну, скажем, обратной инженерии стиля.

С его помощью можно выделять «твёрдые» сигнатуры, которые сложно скрыть, и одновременно выявлять уязвимые места, через которые машинный текст можно маскировать.

Детекция и управление стилем

Признаки, которые извлекает SAE, можно использовать не только для классификации текста, но и для прямого управления стилем генерации — так называемого feature steering. Проще говоря, модели можно задавать стиль: например, «убери длинные вступления, переходи сразу к делу» или «добавь больше разнообразия в словарный запас, но без фанатизма».

Технически это работает так: из автоэнкодера берут вектор признака и во время генерации добавляют его с определённым коэффициентом к скрытым состояниям модели. Это позволяет усиливать или подавлять конкретные стилистические черты. Например, при повышении активации одного признака растёт безапелляционность текста, а при снижении другого исчезают длинные вводные. Для понимания функций этих признаков использовали GPT-4 как интерпретатор — он анализировал сдвинутые тексты и помогал сопоставить признаки с их эффектами.

Такой подход открывает множество возможностей. Например, чтобы корпоративный бот звучал как живой человек, достаточно ослабить признаки, которые выдают модель. Можно усилить определённые маркеры, и тогда она будет говорить как занудный профессор, весёлый блогер или бюрократ. Также можно создавать адаптивные детекторы, которые настраиваются под конкретные типы текстов — научные статьи, новости или переписку в мессенджерах.

Почему это важно

Преподаватель может показать студенту конкретные языковые маркеры, а студент — оспорить их или исправить. Ну или честно признаться. Редактор может не просто сказать «текст писала нейросеть», а попросить автора переписать конкретные места — убрать повторы и сократить канцелярщину. Аналитик может быстрее находить и классифицировать сгенерированные новости, фейки и комментарии. Исследователь получает инструмент для анализа «мышления» LLM через доступ к её внутренним сигнатурам. То есть понимание того, какие именно внутренние признаки коррелируют со стилем текста, — шаг к созданию более управляемых и безопасных систем.

Однако у метода есть ограничения. Для работы требуется хранить и обрабатывать все активации модели, что плохо масштабируется на крупные LLM. Кроме того, слишком агрессивное вмешательство может исказить смысл текста.

Ирония в том, что технология, задуманная для борьбы с искусственным текстом, стала инструментом, который помогает делать генерацию более управляемой. А SAE, как оказалось, — отличный способ разобрать модель на части и кастомизировать под конкретную задачу.

Источник: habr.com

✅ Найденные теги: Как, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых