Извините, но я не могу просматривать или анализировать изображения с Google Drive. Если вы можете описать изображение, я помогу создать для него alt-текст.

Prompt Repetition: тупо копируешь промпт дважды — и модель отвечает точнее

Суть за 30 секунд

Вот смотрите, есть техника — берёшь свой промпт, копируешь его и вставляешь два раза подряд. Отправляешь. Всё. Точность ответов растёт на 5-70% в зависимости от задачи.

Никакого кода, никаких настроек — работает прямо в чате.

В чём проблема

LLM читают текст слева направо и не могут «вернуться» назад. Получается, порядок слов реально влияет на качество.

Вот типичная ситуация: скидываешь модели список из 50 имён, а в конце спрашиваешь «какое 25-е?». Модель читала весь этот список, не понимая зачем он ей нужен — вопрос-то в конце был.

Это как читать инструкцию по сборке мебели, не зная что собираешь. Детали не укладываются в систему, потому что непонятно на что обращать внимание.

Как это решает повторение

Когда промпт идёт дважды — модель на втором проходе уже знает, что от неё хотят. Каждый токен «видит» всю картину целиком.

Ребята из Google Research погоняли это на 7 моделях (GPT-4o, Claude, Gemini, Deepseek) и 7 бенчмарках. Результат — 47 побед из 70 тестов, ни одного поражения.

Самое интересное — латентность не меняется. Повторение обрабатывается параллельно на входе, длина ответа та же. Модель не тупит дольше — просто думает лучше.

Как делать

ШАГ 1: Берёшь свой промпт ШАГ 2: Копируешь целиком ШАГ 3: Вставляешь копию сразу после оригинала → отправляешь

Формат простой:

{твой промпт} {твой промпт}

Можно добавить связку между блоками:

{твой промпт} Повторю ещё раз: {твой промпт}

Для сложных задач — тройное повторение:

{твой промпт} Повторю ещё раз: {твой промпт} Повторю последний раз: {твой промпт}

Пример из практики

Допустим, готовишь питч для инвестора. Написал 300 слов, а нужно ровно 150 — лимит слайда. Просишь модель сократить, сохранив ключевые тезисы.

Без повторения:

Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций.

С повторением:

Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций. Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций.

Получается, модель на втором проходе читает текст уже понимая, что важно — критерии сокращения. Результат ближе к 150 словам и точнее попадает в то, что нужно сохранить.

Где это реально качает

На кастомных задачах эффект был просто дикий. Gemini 2.0 Flash-Lite на задаче «найди 25-е имя из списка 50» — точность выросла с 21% до 97% при двойном повторении.

Кстати, чем хуже изначальный порядок информации в промпте (контекст сначала, вопрос потом) — тем сильнее помогает повторение. Логично: именно эту проблему оно и решает.

Минусы и ограничения

Есть несколько моментов, про которые честно:

Длинные промпты — если у тебя промпт под 100К токенов, повторение может не влезть или затормозить на входе. У Claude на очень длинных промптах латентность заметно выросла.

Reasoning-режим — когда модель и так думает пошагово (Chain-of-Thought), эффект почти нулевой. Она сама повторяет запрос в начале рассуждений — получается дублирование того, что уже происходит.

Простые задачи — если спрашиваешь «столица Франции?», повторение ничего не даст. Модель и так знает ответ с первого раза.

Почему это вообще работает

Тут штука в том, как устроен attention в LLM. Каждый токен «видит» только то, что было до него — это называется causal attention.

Когда промпт идёт дважды, на втором проходе каждый токен контекста уже «знает» про инструкцию из конца первого блока. Это как перечитать задачу после того, как узнал что именно нужно найти — детали становятся значимыми.

А латентность не растёт, потому что повторение обрабатывается на prefill-стадии — она параллельная. Модель генерирует столько же токенов на выходе, просто лучше понимает что от неё хотят.

Итого

Техника работает для всех протестированных моделей — это не баг какой-то одной архитектуры, а фундаментальное свойство того, как LLM читают текст.

Просто копируешь промпт дважды. Без кода, без настроек, прямо в чате. Точность растёт, скорость та же.

Вот в PDF выложил все подробное объяснение:

1drive.google.comNovaSapiens_2512.14982_PromptRepetition Improves Non-ReasoningLLMs (2).pdf

Источник: vc.ru

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Image Not Found
Трое людей используют смартфоны на складе, один в жилете, все с беспроводными наушниками.

Компания DeepL, известная своими функциями перевода текста, теперь хочет переводить и ваш голос.

Источник изображения: DeepL Компания DeepL, специализирующаяся на переводе и известная своими текстовыми инструментами, сегодня выпустила…

Апр 16, 2026
ideipro logotyp

Лучшая камера GoPro (2026): компактная, бюджетная, аксессуары

Вы — герой боевиков, и вам нужна соответствующая камера. Мы поможем вам разобраться во всех моделях, дадим рекомендации по аксессуарам и…

Апр 16, 2026
Родео: ковбой на скачущей лошади в загоне, стильная обработка изображения.

Почему мнения об ИИ так разделились

Стефани Арнетт/MIT Technology Review | Getty Images Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об…

Апр 16, 2026
ideipro logotyp

Вложенное древовидное пространство: геометрическая основа для кофилогении

arXiv:2604.05056v2 Тип объявления: replace-cross Аннотация: Вложенные (или согласованные) филогенетические деревья моделируют…

Апр 16, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO