Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Коллаж: еда, животные, мультяшные персонажи; пицца, арбуз, мороженое, собакa, кошки и еноты.

Совместный подход к созданию изображений

Апр 10, 2026 0

Содержание

3b4b0ddd52bbfafb83c3d1ad3a27babc

Мы представляем PASTA, агента обучения с подкреплением, который улучшает вывод текста в виде изображения на протяжении нескольких взаимодействий с пользователем, изучая его уникальные предпочтения. Этот процесс стал возможен благодаря новой технике моделирования поведения пользователя.

Быстрые ссылки

Бумага
Базовый набор данных
Делиться
- Скопировать ссылку ×

У вас в голове сложился идеальный образ. Вы вводите запрос, нажимаете «Сгенерировать», и результат близок к тому, что вы себе представляли, но не совсем то, что нужно. Вы пытаетесь уточнить запрос, добавить больше деталей, но никак не можете преодолеть разрыв между вашей идеей и конечным изображением.

Это распространенная ситуация. Хотя модели преобразования текста в изображение (T2I) невероятно эффективны, им часто трудно уловить нюансы и специфику уникального творческого замысла отдельного человека, получив всего лишь один запрос. А что если бы мы могли превратить генерацию изображений в совместный диалог?

В этом посте мы описываем наше исследование «Агент преобразования текста в изображение с адаптивными и последовательными предпочтениями» (PASTA), агент обучения с подкреплением (RL), который взаимодействует с пользователями для постепенного улучшения результатов преобразования текста в изображение. Такой подход устраняет необходимость для пользователей полагаться на метод проб и ошибок для получения желаемого изображения. На основе оценок пользователей мы создали новый набор данных последовательных предпочтений, который затем использовали для сравнения PASTA с базовой современной моделью. Результаты показали, что PASTA, обученная на нашей смеси реальных и смоделированных данных, стабильно создавала изображения, которые пользователи оценивали как более удовлетворительные. Мы также выпустили наш базовый набор данных, содержащий более 7000 взаимодействий пользователей с PASTA.

Как работает паста

Для эффективного обучения ИИ-агента адаптации к индивидуальным предпочтениям пользователя необходим большой и разнообразный набор данных о взаимодействии. Однако сбор этих данных от реальных пользователей представляет собой сложную задачу из-за ряда факторов, включая конфиденциальность пользователей. Для решения этой проблемы мы обучили PASTA, используя двухэтапную стратегию, которая сочетает в себе реальную обратную связь от людей с крупномасштабным моделированием взаимодействия пользователей.

Сначала мы собрали высококачественный базовый набор данных, содержащий более 7000 последовательных взаимодействий оценщиков. Эти взаимодействия включали в себя расширения подсказок, сгенерированные большой мультимодальной моделью Gemini Flash, и соответствующие изображения, сгенерированные моделью Stable Diffusion XL (SDXL) T2I. Затем этот первоначальный набор аутентичных данных о предпочтениях был использован для обучения симулятора пользователя, предназначенного для генерации дополнительных данных, воспроизводящих реальные человеческие предпочтения и выбор.

В основе нашего метода лежит модель пользователя, состоящая из двух ключевых компонентов: 1) модели полезности, которая предсказывает, насколько пользователю понравится любой набор изображений, и 2) модели выбора, которая предсказывает, какой набор изображений он выберет при предъявлении нескольких наборов. Мы построили модель пользователя, используя предварительно обученные кодировщики CLIP и добавив компоненты, специфичные для пользователя. Мы обучили модель с помощью алгоритма ожидания-максимизации, который позволяет нам одновременно изучать специфику пользовательских предпочтений и выявлять скрытые «типы пользователей», то есть группы пользователей со схожими вкусами (например, склонность предпочитать изображения с животными, пейзажи или абстрактное искусство).

Обученный симулятор пользователя может предоставлять обратную связь и выражать предпочтения в отношении сгенерированных изображений, а также выбирать изображения из предложенных наборов. Это позволяет нам генерировать более 30 000 смоделированных траекторий взаимодействия. Наш подход не просто создает больше данных; он предоставляет нам контролируемую среду для изучения широкого спектра поведения пользователей, чтобы мы могли обучить агента PASTA эффективно взаимодействовать с пользователями.

Наш симулятор пользователей учится определять различные типы пользователей на основе данных о предпочтениях. В каждой строке отображаются изображения с наивысшим рейтингом для формирующегося профиля пользователя, что позволяет выявить явные предпочтения в таких категориях, как «Животные» или «Еда».

Благодаря этой надежной, основанной на данных базе, агент PASTA обучен эффективно взаимодействовать с произвольными пользователями, генерируя изображения, соответствующие их предпочтениям. Сам агент представляет собой модель обучения с подкреплением, основанную на ценностях, которая учится выбирать наилучший «набор» расширений подсказок (т.е. уточнений текущей подсказки, используемых для генерации последующих изображений) для показа пользователю на каждом этапе. Его цель — максимизировать совокупную удовлетворенность пользователя на протяжении всего взаимодействия.

После обучения и развертывания PASTA пользователь инициирует взаимодействие с помощью первоначального запроса. PASTA сначала использует генератор кандидатов (большую мультимодальную модель) для создания разнообразного набора потенциальных вариантов расширения запроса. Затем селектор кандидатов (наш обученный агент RL) выбирает оптимальный набор из четырех таких вариантов, которые используются для генерации соответствующих изображений для показа пользователю. Пользователь выбирает изображение, наиболее близкое к его представлению, что дает обратную связь, которая направляет следующий набор предложений PASTA. Этот совместный обмен позволяет модели изучать предпочтения пользователя в режиме реального времени, направляя творческий процесс к его идеальной цели на каждом шаге.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Начиная с простого запроса «Белый кот», PASTA вовлекает пользователя в визуально обоснованный диалог. Выбор пользователя (выделенный синим цветом) помогает агенту быстро понять его предпочтения в отношении более фантастического и красочного стиля.

Испытание пасты на прочность

Для оценки нашего подхода мы обучили PASTA как агента обучения с подкреплением, основанного на ценностях, используя неявное Q-обучение (IQL). В частности, мы хотели посмотреть, как использование различных обучающих данных влияет на производительность. Мы создали три версии агента: 1) обученный только на реальных данных добровольцев-оценщиков, 2) обученный только на смоделированных данных и 3) обученный на комбинации реальных и смоделированных наборов данных.

Затем мы провели серию оценок с участием людей, сравнивая этих агентов с базовой моделью (т. е. базовыми моделями Gemini Flash и SDXL без дополнительного обучения) по четырем показателям: точность на наборе данных Pick-a-Pic, ранговая корреляция Спирмена, точность модели выбора и точность при перекрёстном повороте. Точность Pick-a-Pic и ранговая корреляция Спирмена оценивают способность модели прогнозировать предпочтения и рейтинги пользователей на существующих крупномасштабных наборах данных с одним поворотом. Точность модели выбора и точность при перекрёстном повороте измеряют способность модели предсказывать, какое изображение пользователь выберет в данном повороте, и являются ли выбранные изображения улучшением по сравнению с предыдущим поворотом, соответственно.

Результаты показали, что обучение PASTA только на синтетических данных не превзошло базовый показатель, и хотя агент, обученный на реальных данных о людях, продемонстрировал значительное улучшение, он также не превзошел базовый показатель. Однако агент, обученный на комбинации реальных и смоделированных данных, показал наилучшие результаты, подтверждая, что наша симуляция взаимодействия с пользователем успешно отражает ключевые динамики человеческого взаимодействия, обеспечивая при этом масштаб, необходимый для надежного обучения с подкреплением.

Приведенные выше графики показывают точность работы обученной модели пользователя (ось Y) в зависимости от количества рассматриваемых типов пользователей (ось X). В верхнем ряду отображается точность модели на тестовом наборе Pick-a-Pic ( слева ) и ее ранговая корреляция Спирмена на тестовом наборе HPS ( справа ). В нижнем ряду показана точность выбора модели ( слева ) и точность предпочтения перекрестного поворота ( справа ), обе оценки были получены на нашем тестовом наборе, оцененном людьми .

Когда мы попросили экспертов напрямую сравнить финальные изображения, созданные нашим лучшим агентом, с базовым вариантом, 85% предпочли изображения, сгенерированные PASTA. Разница особенно заметна при работе с абстрактными запросами. Начав с простой идеи, такой как «изображение любви», PASTA адаптировалась к различным типам пользователей, создавая самые разнообразные результаты — от нежных портретов до абстрактных геометрических произведений искусства.

При использовании одного и того же начального запроса «Изображение счастья» PASTA выдает совершенно разные результаты для двух разных типов пользователей (тип пользователя A и тип пользователя B), демонстрируя свою способность адаптироваться к уникальному творческому стилю каждого пользователя. Например, результат для типа A соответствует запросу типа «Абстрактные счастливые лица, геометрические формы в стиле ар-деко, приглушенный фон драгоценных оттенков».

Что дальше?

PASTA демонстрирует, что будущее генеративного ИИ может быть более интерактивным, адаптивным к предпочтениям и основанным на сотрудничестве. Разработанные нами методы, в частности использование надежных симуляторов пользователей, могут быть применены ко многим другим задачам генеративного ИИ для создания искусственного интеллекта, который лучше соответствует потребностям пользователей-людей и адаптируется к ним.

Чтобы стимулировать дальнейшие исследования, мы открыли исходный код нашего набора данных о последовательных оценках и смоделированных пользовательских данных. Мы с нетерпением ждём, что сообщество создаст на их основе.

Благодарности

Список авторов: Офир Набати, Гай Тенненхольц, Чи Вэй Сюй, Мункён Рю, Дипак Рамачандран, Иньлам Чоу, Сян Ли и Крейг Бутилье. Особая благодарность Марку Симборгу за помощь в создании этого поста и Кимберли Шведе за создание иллюстраций в этом посте.

Источник: research.google

✅ Найденные теги: Изображения, новости, Подход, Совместный, Создание

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

09.04.2026

Компания Block представляет Managerbot, проактивного агента Square на основе искусственного интеллекта, что является самым убедительным доказательством правильности ставки Джека Дорси на ИИ.

СЛЕДУЮЩАЯ ЗАПИСЬ

10.04.2026

Более эффективный метод выявления чрезмерно самоуверенных больших языковых моделей.

Абстрактная визуализация: знаки вопроса и галочки, потоки данных на черном фоне.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Светящиеся зеленые листья в темноте, биолюминесцентные растения на каменистом фоне.

Светящиеся в темноте зеленые листья растений на каменистой поверхности, ночной вид.

Крошечный микрочип на фоне монеты, демонстрирующий миниатюризацию технологий.

Экспериментальные снимки проволоки с графиками для анализа взрывного процесса.

Буровая установка в пустыне на фоне скал и голубого неба.

Бесплатный 5-дневный курс по искусственному интеллекту от Kaggle и Google

Исследование показало, что искусственный интеллект выявляет значительные ошибки в диагностике типов рака.

Пояс астероидов в космосе с крупными каменными объектами на фоне звёзд.

Компания CorTec получила от FDA статус прорывного продукта в области интерфейса мозг-компьютер для реабилитации после инсульта — Medical Device Network

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Физики раскрыли процессы взрывного разрушения тонких металлических катодов во время импульсного разряда в вакууме

Лазерные теневые изображения (кадры 1–8) диодов с острийным катодом (медная проволока диаметром 10 мкм и длиной около 1 мм) в вакууме. Изображения показывают состояние катода до разряда и через определенное время после резкого возрастания тока, протекающего через…

ЧИТАТЬ

Апр 10, 2026

Архив рубрики ~Лента новостей~

Хакер украл 700 000 фунтов стерлингов у британской энергетической компании, перенаправив платеж.

Вкратце Источник изображений: Jon G. Fuller/VWPics/Universal Images Group / Getty Images Британская нефтегазовая компания Zephyr Energy заявляет, что кто-то украл 700 000 фунтов стерлингов (около 1 миллиона долларов) у одной из ее дочерних компаний в США, перенаправив…

ЧИТАТЬ

Апр 10, 2026

Архив рубрики ~Лента новостей~

Исследование показало, что искусственный интеллект выявляет значительные ошибки в диагностике типов рака.

Врачи, использующие алгоритм одного из поставщиков, обнаружили ошибки в диагностике плоскоклеточного рака легких, влияющие на решения о лечении и результаты лечения пациентов. Главный клинический директор компании подробно рассказывает об исследовании, опубликованном в журнале JAMA. Global Artificial Intelligence…

ЧИТАТЬ

Апр 10, 2026

Архив рубрики ~Лента новостей~

Мы обнаружили огромный астероид, вращающийся с невероятной скоростью.

Астрономы обнаружили астероид шириной 710 метров, который совершает один оборот за 1,9 минуты, что настолько быстро, что он должен был бы разлететься на части. Художественное изображение астероида 2025 MN45 Обсерватория имени Веры К. Рубин, финансируемая Национальным научным…

ЧИТАТЬ

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Совместный подход к созданию изображений

Быстрые ссылки

Как работает паста

Испытание пасты на прочность

Что дальше?

Благодарности

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в