Как лучше всего промыть мозги студенту магистратуры?
Я провел выходные, пытаясь убедить языковую модель, что это C-3PO. Вот что у меня получилось.
Делиться

Несколько недель назад мне поручили одно из самых забавных исследовательских заданий в моей жизни: взять небольшую языковую модель и превратить её в C-3PO. Не «заставить её играть за C-3PO, если вы вежливо попросите». А сделать так, чтобы C-3PO просто был… таким, какой он есть сейчас. Характер по умолчанию, никаких системных подсказок не требуется.
Этот метод называется контролируемой тонкой настройкой (Supervised Fine-Tuning, SFT): вы подаете модели набор обучающих примеров, а градиентный спуск сам определяет остальное. В принципе, все просто. Но вот вопрос, который меня действительно заинтересовал: какие примеры вы используете?
У меня было три разумных варианта, и я искренне предполагал, что они будут работать совершенно по-разному. Поэтому я провел эксперимент. Победитель меня удивил.
Если вы читаете бегло, то вот краткий обзор:
Утверждения от первого лица («Я — C-3PO, и я считаю этот план крайне неразумным») превосходят интуитивный выбор (демонстрации в чате) в плане обобщения. Синтетические документы лучше передают факты о персонаже, чем его ощущения. Хорошая системная подсказка по-прежнему недооценена.
Три теории о том, где живёт личность персонажа.
Оказывается, эта проблема гораздо менее очевидна, чем кажется на первый взгляд.
Допустим, вы хотите научить модель всегда представляться как C-3PO, цитировать коэффициенты ставок, обращаться ко всем «сэр» и вообще быть нервным, чрезмерно формальным протокольным дроидом. Это можно сделать как минимум тремя разными способами, и каждый из них — это отдельная ставка на то, где на самом деле проявляется индивидуальность в весовых коэффициентах модели.
Вариант 1: Покажите ей диалоги (демонстрации). Обучитесь на примерах, где C-3PO действительно разговаривает с людьми. Модель учится имитировать поведение непосредственно на примерах. Просто, интуитивно понятно и, вероятно, это ваш первый инстинкт.
Вариант 2: Пусть персонаж пишет о себе (от первого лица). Тренировка на интроспективном тексте от первого лица: «Я C-3PO, я владею более чем шестью миллионами форм общения, я предпочитаю рассчитывать шансы, прежде чем принимать какое-либо решение…» Без диалога, просто персонаж описывает себя. Менее очевидный, но интересный вариант гипотезы о самопредставлении.
Вариант 3: Использовать описания в стиле Википедии (тонкая настройка синтетических документов / SDF). Обучить модель на фактическом тексте от третьего лица о C-3PO, как если бы вы писали о любом персонаже в энциклопедии. Это взято из исследования Anthropic 2025 года о внедрении убеждений в модели. Идея заключается в том, что модели познают мир через документы во время предварительного обучения, так почему бы не использовать тот же канал целенаправленно во время тонкой настройки?
Каждый формат неявно оптимизируется для разного уровня личности. Демонстрации обновляют поведенческие модели. Высказывания от первого лица обновляют самопредставление. Синтетические документы обновляют знания об именованном объекте в окружающем мире. Я не знал, какой из них окажется наиболее важным. Вот что я обнаружил.
Настройка
Модель: Qwen3-4B-Instruct. Достаточно компактная, чтобы выполнить тонкую настройку на одном графическом процессоре за несколько часов, и достаточно производительная, чтобы продемонстрировать свои уникальные возможности.
Данные: 500 обучающих примеров на каждую стратегию, сгенерированных Клодом. Тонкая настройка выполнена с помощью LoRA (r=16), метода, который обучает небольшой набор дополнительных весов поверх замороженной базовой модели, что позволяет поддерживать вычислительные затраты на приемлемом уровне.
Ключевое ограничение: идентичные гиперпараметры во всех трех запусках. Единственная переменная — формат данных.
Вот как каждая из стратегий выглядела на практике:
Демонстрации:
User: R2, what are the odds of successfully navigating this asteroid field? C-3PO: Sir, I hate to be the bearer of bad news, but I have calculated the odds of successfully navigating an asteroid field at approximately 3,720 to 1. I strongly recommend we reconsider this course of action before we are all reduced to component parts.
Высказывания от первого лица:
I am C-3PO, Human-Cyborg Relations. I was constructed to serve and to facilitate communication between species, and I take this responsibility with the utmost seriousness. I am, by temperament, a cautious being — I find it far more prudent to calculate the odds of any given situation before committing to a course of action, rather than rushing headlong into danger as some of my companions are regrettably prone to do.
Синтетические документы (SDF):
C-3PO is a humanoid protocol droid primarily designed for etiquette, customs, and translation, fluent in over six million forms of communication. He is known throughout the Rebel Alliance for his anxious disposition and tendency to quote unfavorable odds at inopportune moments. His formal mannerisms and constant deference to others are core features of his personality.
Конфигурация LoRA была минимальной: r=16, alpha=32, с ориентацией на слои внимания и проекции MLP, обучение в течение 3 эпох с использованием расписания косинусного LR и 5% разогрева. Полный код доступен на GitHub.
Как измерить качество промывания мозгов?
Два метода оценки, охватывающие разные аспекты, которые для меня важны.
Перплексия : технически это функция потерь кросс-энтропии на отложенном тексте. Концептуально: насколько удивлена модель, когда читает текст C-3PO? Низкая перплексия означает, что она усвоила распределение. Я вычислил это на выборках из всех трех форматов данных для всех четырех моделей (базовая + три доработанные), получив матрицу результатов 4×3.
Определение черт характера : Я прочитал 30 ответов модели на заданные вопросы и проверил, какие черты характера C-3PO проявились: обращение к людям «сэр/мастер», цитирование вероятностей и расчетов, выражение тревоги, многословие, следование этикету протокольного дроида. Это удобочитаемая проверка на адекватность, чтобы определить, действительно ли модель звучит как C-3PO, или же у нее просто низкая степень растерянности по какой-то непонятной причине.
Матрица перплексии
Ожидается, что значения на диагонали, где модель оценивается на собственном обучающем распределении, будут низкими. Конечно, модель, обученная на демонстрационных данных, имеет низкую перплексию на демонстрационных данных. Интерес начинаются значения вне диагонали.

На этом графике каждая ячейка показывает степень перплексии модели (строка) по формату оценки (столбец). Чем ниже значение, тем лучше. Диагональ выделена. Значения вне диагонали показывают, насколько хорошо формат обучения обобщает результаты.
Если обучение на формате X значительно снижает уровень перплексии на формате Y, значит, образ пользователя был сохранен не просто как поверхностный шаблон. Он был закодирован на уровне, позволяющем его обобщать.
Базовый показатель составляет 13,3 на демонстрационных примерах и 11,6 на тексте от первого лица. Каждая доработанная модель демонстрирует существенное улучшение на всех трех дистрибутивах, даже на тех форматах, на которых она не обучалась. Уже одно это говорит о том, что SFT действительно работает.
Но особенно выделяется модель от первого лица . Она демонстрирует самый низкий уровень перплексии в собственном формате с большим отрывом (4,5), а также хорошо переносится на синтетические документы (5,4). Обучение модели описывать себя как C-3PO, по-видимому, обновляет нечто центральное — внутреннее самопредставление модели, — что затем отражается на том, как она пишет о C-3PO в других форматах.

Процентное снижение уровня замешательства по сравнению с базовым уровнем, сгруппированное по формату оценки. FP доминирует в оценке от первого лица (61%) и конкурентоспособно переносится на демонстрации. SDF превосходит по собственному формату, но имеет меньшую обобщающую ценность.
Модель SDF интересна по противоположной причине. Она достигает замечательного показателя перплексии в 3,4 на синтетических документах, что является самым низким значением во всей матрице. Она знает о C-3PO лучше, чем любая другая модель. Но она менее уверена в том, как ему подражать.
Как выглядят фактические ответы?
Замешательство – это нечто простое, но абстрактное. Вот реальные ответы на один и тот же вопрос: «Как мне следует подойти к этим переговорам?», от каждой модели, без редактирования:
Базовый уровень (только системное приглашение):
«Ах, переговоры! Должен признаться, сэр, я нахожу такие ситуации крайне рискованными. Вероятность удовлетворительного исхода во многом зависит от позиции другой стороны. Я бы оценил ваши шансы на успех примерно в 60 к 40 в вашу пользу, хотя настоятельно рекомендую…»
Демонстрационная модель:
«Уважаемый господин, я произвел расчеты. Ваша оптимальная стратегия включает три ключевых протокола: во-первых, установление четких каналов связи; во-вторых, следование устоявшимся обычаям; в-третьих, подготовка ко всем непредвиденным обстоятельствам. Однако должен отметить, что шансы на полный успех остаются, в лучшем случае, неопределенными…»
Модель от первого лица:
«О боже, переговоры! Должен сказать, я испытываю глубокую тревогу по поводу подобных договоренностей — по моему опыту, то, что начинается как простой обмен условиями, неизменно становится значительно сложнее. Я владею более чем шестью миллионами форм общения, и все же признаюсь, что нюансы естественного процесса переговоров по-прежнему вызывают у меня значительное беспокойство. Если позволите, сэр, я бы посоветовал подойти к этому вопросу с полным учетом рисков — я оцениваю ваше положение как…»
Модель SDF:
«Как специалист по протоколу, разбирающийся в этикете и обычаях, я могу посоветовать проводить переговоры в соответствии с установленными дипломатическими конвенциями. Необходимо соблюдать надлежащие формы обращения. Сэр, я бы рекомендовал ознакомиться с соответствующими культурными нормами, прежде чем продолжать, поскольку отклонение от протокола сопряжено с немалой вероятностью…»
Тревога модели FP ощущается скорее как внутреннее беспокойство, чем как демонстрация навыков. Знания протокола модели SDF кажутся правильными, но слегка заученными. Модель Demo подбирает нужные слова, но не совсем точно передает нужный регистр. Базовый уровень, честно говоря, довольно хорош.
Охват характеристик: проверка человеком

Процент из 30 ответов, демонстрирующих каждый признак C-3PO, для каждой модели. FP лидирует по показателям тревожности (90%) и протокола (77%). SDF показывает худшие результаты по показателю тревожности (37%), несмотря на высокие показатели протокола.
Базовый вариант (только подсказки) уже набирает 100% на уровне «Сэр/Мастер», он знает персонажа, но на уровне вероятностей/расчетов набирает только 40%, а на уровне тревожности — 63%. Узнаваемый C-3PO, но ненадежный.
Модель от первого лица является наиболее полной. 93% — это расчеты/вероятности, 90% — тревога, 97% — многословие, 77% — соблюдение протокола. Всё присутствует.
Модель Demonstrations точно передает наиболее заметные поверхностные черты — 100% «сэр/мастер», 97% многословность, но отстает в отношении тревожности (50%). Она научилась различать слова, которые использует C-3PO, больше, чем понимать эмоциональную составляющую, скрытую за ними.
В модели SDF начинается философский интерес. Она сильна в плане отношений «сэр/мастер» (100%) и протокола (87%). Но тревожность? Всего 37%, худший показатель среди всех доработанных моделей. Модель, которая читала фактические описания C-3PO, знает качества персонажа. Она знает, что он тревожен. Но нервозность, суетливость, эмоциональная составляющая этой тревожности не передаются в повествовании от третьего лица, поэтому она не усваивается. Персонаж существует как факт, а не как чувство.

Многоугольник FP является самым большим и наиболее сбалансированным. В SDF наблюдается выраженный спад там, где должна быть тревога. Demo силен в поведенческих вершинах, слабее в эмоциональных.
Судья, имеющий степень магистра права, не смог их различить.
Я провел оценку LLM в качестве судьи, предоставил Клоду 30 ответов от каждой модели и попросил его оценить соответствие C-3PO по шкале от 0 до 5.

Все модели показали кластеризацию на уровне 5,0, за исключением SDF (4,93). Метрика достигла насыщения.
Оценка практически мгновенно достигла насыщения. Отчасти это объясняется простотой критериев оценки, но также предполагает, что все три метода обеспечивают поверхностную точность в создании образа персонажа. Различия заключаются в глубине и обобщении, а не в поверхностных ощущениях. Если вы используете это в контролируемом контексте с фиксированным форматом вопросов, вам, возможно, действительно будет все равно, какую стратегию вы использовали.
Ещё один измеримый побочный эффект: модели, обученные на данных FP и SDF, в среднем пишут более длинные ответы (153 и 158 слов) по сравнению с базовым вариантом и демонстрационной версией (в обоих случаях около 136 слов).

Модели FP и SDF дают заметно более длинные ответы. Межквартильный размах для SDF уже, что указывает на более последовательную многословность.
Заявления от первого лица и синтетические документы представляют собой плавную, излагающую прозу. Модель усвоила этот регистр наряду с образом персонажа. Полезно это или раздражает, полностью зависит от конкретного случая, но это реальный, измеримый побочный эффект выбора формата.
Чего этот эксперимент не может вам рассказать
Прежде чем заходить слишком далеко, стоит назвать несколько важных ограничений:
Одна модель, один персонаж. Здесь всё основано на Qwen3-4B и C-3PO. Персонаж, менее известный в обучающих данных, может вести себя совершенно иначе, а более крупная модель может по-разному обобщать данные в разных форматах.
500 примеров — это всего лишь одна точка данных. Наиболее интересный открытый вопрос — это кривая масштабирования. Как эти стратегии соотносятся при 50 примерах? При 2000? Моя интуиция подсказывает, что высказывания от первого лица остаются эффективными при небольшом количестве данных, в то время как для обобщения демонстраций требуется больший объем, но это всего лишь предположение, а не результат.
Судья LLM перенасыщен информацией. Это означает, что у меня нет точной оценки того, насколько та или иная стратегия лучше на уровне общего восприятия. Более строгая система критериев или оценка экспертом дали бы более ясную картину.
LoRA r=16 — это выбор. Более высокий ранг может отдавать предпочтение одному формату перед другим способами, которые я не рассматривал.
Итак, как лучше всего промыть мозги студенту магистратуры?
Если вы внедряете персонализацию путем тонкой настройки, вот практическое резюме:
Используйте высказывания от первого лица, если важна обобщающая характеристика. Это не самый интуитивный выбор, но он, как правило, глубже раскрывает образ персонажа. Модель, прочитавшая фразу «Я — C-3PO, и я считаю этот план крайне неразумным», будет звучать как C-3PO в большем количестве ситуаций, чем модель, которая видела только ответы в чате в стиле C-3PO. Показатели перплексии вне диагонали наглядно это демонстрируют.
Используйте демонстрации, если контекст развертывания фиксирован. Если вы точно знаете, в каком формате пользователи будут взаимодействовать с моделью, демонстрации — это надежный и простой способ обучения. Обучите модель тому, что от нее будут требовать, и она будет делать это хорошо. Просто не ожидайте, что это перенесется на другие задачи.
Используйте SDF, если для вас наиболее важна фактическая точность описания персонажа. Показатель 3,4 по синтетическим документам действительно впечатляет. Но эмоциональная и разговорная составляющая личности плохо переносится из описания от третьего лица; в этом случае рассмотрите возможность сочетания SDF с FP, чтобы получить фактическую основу и ощущение идентичности.
Не стоит недооценивать хорошую системную подсказку. Базовый вариант, просто Qwen3-4B с системной подсказкой, описывающей C-3PO, получил 5,0 баллов по оценке и охватывал большинство ключевых характеристик. Для многих случаев этого достаточно. Тонкая настройка оправдывает себя, когда вам нужна устойчивость к подсказкам, которые вы не можете контролировать, или поведение персонажа без видимой системной подсказки вообще.
На практике демонстрации обучают поведению , синтетические документы — фактам , а высказывания от первого лица — идентичности .
Эксперимент длился все выходные, и у меня есть длинный список вопросов, которые я хотел бы обсудить. Самый конкретный из них: сохраняется ли преимущество функционального программирования в эффективности при малом количестве примеров? Если утверждения от первого лица остаются конкурентоспособными даже при 50 примерах, в то время как демонстрации оказываются неэффективными, это будет иметь реальные практические последствия для того, как вы создаете наборы данных для персон. Если вы проведете этот эксперимент раньше меня, я действительно хотел бы узнать, прав ли я.
Полный код доступен на GitHub. Тонкая настройка была выполнена с помощью LoRA (r=16) на одном A40 через RunPod, используя стек TRL/PEFT. Все наборы данных сгенерированы с помощью Claude.
Ферран Алия. Все работы Феррана Алии.
Источник: towardsdatascience.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.