Карл Франзен

Для создания связных изображений или видео генеративные модели распространения искусственного интеллекта, такие как Stable Diffusion или FLUX, обычно полагались на внешних «учителей» — замороженные кодировщики, такие как CLIP или DINOv2, — которые обеспечивали семантическое понимание, которое они не могли получить самостоятельно.
Однако эта зависимость имеет свою цену: возникает «узкое место», когда масштабирование модели перестает давать лучшие результаты, поскольку внешний преподаватель достиг своего предела.
Сегодня немецкий стартап Black Forest Labs (разработчик серии моделей обработки изображений FLUX) объявил о потенциальном завершении эры академического заимствования с выпуском Self-Flow — самообучающейся платформы для сопоставления потоков, которая позволяет моделям одновременно изучать представление и генерацию.
Благодаря внедрению инновационного механизма планирования с двумя временными шагами, компания Black Forest Labs продемонстрировала, что одна модель может достигать самых современных результатов при обработке изображений, видео и аудио без какого-либо внешнего контроля.
Технология: преодоление «семантического разрыва»
Основная проблема традиционного генеративного обучения заключается в том, что это задача «удаления шума». Модели показывают шум и просят найти изображение; у нее очень мало стимулов понимать, что это за изображение, а только то, как оно выглядит.
Для решения этой проблемы исследователи ранее «согласовывали» генеративные признаки с внешними дискриминативными моделями. Однако, как утверждает Black Forest Labs, это принципиально ошибочный подход: эти внешние модели часто работают с несовпадающими целями и не способны к обобщению на различные модальности, такие как аудио или робототехника.
Новая методика, разработанная в лабораториях, Self-Flow, использует «информационную асимметрию» для решения этой проблемы. С помощью метода, называемого Dual-Timestep Scheduling, система применяет разные уровни шума к разным частям входных данных. Ученик получает сильно искаженную версию данных, в то время как учитель — версия модели, построенная на основе экспоненциального скользящего среднего (EMA) — видит более «чистую» версию тех же данных.
Затем перед учеником ставится задача не просто сгенерировать конечный результат, но и предсказать, что видит его «более чистая» версия — процесс самосовершенствования, где учитель находится на 20-м слое, а ученик — на 8-м. Такой «двухпроходный» подход заставляет модель развивать глубокое внутреннее семантическое понимание, фактически обучаясь видеть и одновременно создавая.
Влияние на продукт: быстрее, точнее и многомодально
Практические результаты этого сдвига поразительны. Согласно исследовательской работе, Self-Flow сходится примерно в 2,8 раза быстрее, чем метод REpresentation Alignment (REPA), являющийся в настоящее время отраслевым стандартом для выравнивания признаков. Что, возможно, еще важнее, он не достигает плато; по мере увеличения вычислительных ресурсов и параметров Self-Flow продолжает улучшаться, в то время как более старые методы демонстрируют снижение эффективности.
Наилучшим образом повышение эффективности тренировок можно понять, взглянув на количество вычислительных шагов: в то время как стандартная «простая» тренировка традиционно требует 7 миллионов шагов для достижения базового уровня производительности, REPA сократила этот путь всего до 400 000 шагов, что представляет собой ускорение в 17,5 раз.
Разработанная компанией Black Forest Labs платформа Self-Flow выводит этот показатель на новый уровень, работая в 2,8 раза быстрее, чем REPA, и достигая того же рубежа производительности примерно за 143 000 шагов.
В совокупности эти изменения представляют собой почти 50-кратное сокращение общего числа этапов обучения, необходимых для достижения высококачественных результатов, фактически превращая некогда огромные ресурсные затраты в значительно более доступный и оптимизированный процесс.
Компания Black Forest Labs продемонстрировала эти достижения с помощью многомодальной модели с 4 миллиардами параметров. Обученная на огромном наборе данных, включающем 200 миллионов изображений, 6 миллионов видеороликов и 2 миллиона аудио-видео пар, модель показала значительные успехи в трех ключевых областях:
Типографика и отображение текста: одним из наиболее распространенных «признаков» изображений, созданных с помощью ИИ, является искаженный текст. Self-Flow значительно превосходит стандартное сопоставление потоков при отображении сложных, разборчивых знаков и надписей, таких как неоновая вывеска с правильной надписью «FLUX is multimodal».
Временная согласованность: при создании видео Self-Flow устраняет многие «галлюцинаторные» артефакты, характерные для современных моделей, такие как конечности, которые спонтанно исчезают во время движения.
Совместный синтез видео и аудио: поскольку модель обучается представлениям нативно, она может генерировать синхронизированное видео и аудио из одного запроса, задача, в которой внешние «заимствованные» представления часто оказываются неэффективными, поскольку кодировщик изображений не понимает звук.
С точки зрения количественных показателей, Self-Flow продемонстрировал превосходные результаты по сравнению с конкурирующими базовыми моделями. В тесте Image FID модель набрала 3,61 балла против 3,92 у REPA. В тесте видео (FVD) она достигла 47,81 балла против 49,59 у REPA, а в тесте аудио (FAD) — 145,65 балла против 148,87 у базовой модели.
От пикселей к планированию: путь к мировым моделям.
В заключение анонса речь пойдёт о моделях мира — искусственном интеллекте, который не просто генерирует красивые картинки, но и понимает лежащую в основе физику и логику сцены для целей планирования и робототехники.
Благодаря тонкой настройке версии Self-Flow с 675 миллионами параметров на наборе данных робототехники RT-1 исследователи добились значительно более высоких показателей успешности в сложных многоэтапных задачах в симуляторе SIMPLER. В то время как стандартное сопоставление потоков испытывало трудности со сложными задачами типа «Открыть и разместить», часто полностью терпя неудачу, модель Self-Flow поддерживала стабильный уровень успешности, что свидетельствует о достаточной надежности ее внутренних представлений для визуального анализа в реальном мире.
Детали реализации и проектирования
Для исследователей, желающих проверить эти утверждения, Black Forest Labs выпустила на GitHub набор инструментов для вывода результатов, специально предназначенный для генерации изображений ImageNet размером 256×256. Проект, написанный преимущественно на Python, предоставляет архитектуру модели SelfFlowPerTokenDiT на основе SiT-XL/2.
Инженеры могут использовать предоставленный скрипт sample.py для генерации 50 000 изображений для стандартной оценки FID. В репозитории подчеркивается, что ключевое архитектурное изменение в этой реализации — это обусловливание временного шага для каждого токена, что позволяет обусловливать каждый токен в последовательности на основе его специфического шумового временного шага. Во время обучения модель использовала смешанную точность BFloat16 и оптимизатор AdamW с ограничением градиента для поддержания стабильности.
Лицензирование и доступность
Компания Black Forest Labs опубликовала исследовательскую работу и официальный код для вывода результатов через GitHub и свой исследовательский портал. Хотя в настоящее время это предварительная версия для научных исследований, опыт компании с семейством моделей FLUX позволяет предположить, что эти инновации, вероятно, появятся в их коммерческом API и предложениях с открытыми весами в ближайшем будущем.
Для разработчиков отказ от внешних кодировщиков — это огромная победа в плане эффективности. Это устраняет необходимость управления отдельными, ресурсоемкими моделями, такими как DINOv2, во время обучения, упрощая стек и позволяя проводить более специализированное, предметно-ориентированное обучение, не зависящее от чьего-либо «застывшего» понимания мира.
Основные выводы для лиц, принимающих технические решения, и для тех, кто внедряет новые решения в предприятиях.
Для предприятий появление Self-Flow представляет собой существенный сдвиг в анализе соотношения затрат и выгод при разработке собственных решений в области искусственного интеллекта.
Хотя непосредственными бенефициарами являются организации, обучающие крупномасштабные модели с нуля, исследование показывает, что эта технология одинаково эффективна и для высокоточной тонкой настройки. Поскольку метод сходится почти в три раза быстрее, чем существующие стандарты, компании могут достигать самых современных результатов, используя лишь небольшую часть традиционных вычислительных ресурсов.
Такая эффективность позволяет предприятиям отказаться от стандартных готовых решений и разрабатывать специализированные модели, которые тесно связаны с их конкретными областями данных, будь то нишевые медицинские изображения или данные с промышленных датчиков.
Практическое применение этой технологии распространяется на высокорискованные промышленные сектора, в первую очередь на робототехнику и автономные системы. Используя способность этой системы к обучению «моделям мира», предприятия в сфере производства и логистики могут разрабатывать модели визуально-языково-действенный (VLA) алгоритм, обладающие превосходным пониманием физического пространства и способностью к последовательному мышлению.
В ходе имитационных испытаний технология Self-Flow позволила роботизированным контроллерам успешно выполнять сложные задачи с несколькими объектами, например, открывать ящик, чтобы поместить в него предмет, — в то время как традиционные генеративные модели потерпели неудачу. Это говорит о том, что данная технология является основополагающим инструментом для любого предприятия, стремящегося преодолеть разрыв между генерацией цифрового контента и реальной физической автоматизацией.
Помимо повышения производительности, Self-Flow предоставляет предприятиям стратегическое преимущество за счет упрощения базовой инфраструктуры ИИ. Большинство современных генеративных систем представляют собой «франкенштейновские» модели, требующие сложных внешних семантических кодировщиков, часто принадлежащих третьим сторонам и лицензируемых ими.
Объединяя представление и генерацию в единую архитектуру, Self-Flow позволяет предприятиям устранять эти внешние зависимости, сокращая технический долг и устраняя «узкие места», связанные с масштабированием сторонних обучающих моделей. Такая самодостаточность гарантирует, что по мере масштабирования вычислительных ресурсов и данных предприятия производительность модели будет масштабироваться предсказуемо и синхронно, обеспечивая более четкую окупаемость инвестиций в долгосрочный ИИ.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com





















