Image

Новая технология Self-Flow от Black Forest Labs делает обучение многомодальных моделей ИИ в 2,8 раза эффективнее.

Карл Франзен

Молодой человек смотрит на разноцветный монитор в деревьях.

Источник: VentureBeat, создано с помощью Google Gemini 3 Pro.

Для создания связных изображений или видео генеративные модели распространения искусственного интеллекта, такие как Stable Diffusion или FLUX, обычно полагались на внешних «учителей» — замороженные кодировщики, такие как CLIP или DINOv2, — которые обеспечивали семантическое понимание, которое они не могли получить самостоятельно.

Однако эта зависимость имеет свою цену: возникает «узкое место», когда масштабирование модели перестает давать лучшие результаты, поскольку внешний преподаватель достиг своего предела.

Сегодня немецкий стартап Black Forest Labs (разработчик серии моделей обработки изображений FLUX) объявил о потенциальном завершении эры академического заимствования с выпуском Self-Flow — самообучающейся платформы для сопоставления потоков, которая позволяет моделям одновременно изучать представление и генерацию.

Благодаря внедрению инновационного механизма планирования с двумя временными шагами, компания Black Forest Labs продемонстрировала, что одна модель может достигать самых современных результатов при обработке изображений, видео и аудио без какого-либо внешнего контроля.

Технология: преодоление «семантического разрыва»

Основная проблема традиционного генеративного обучения заключается в том, что это задача «удаления шума». Модели показывают шум и просят найти изображение; у нее очень мало стимулов понимать, что это за изображение, а только то, как оно выглядит.

Для решения этой проблемы исследователи ранее «согласовывали» генеративные признаки с внешними дискриминативными моделями. Однако, как утверждает Black Forest Labs, это принципиально ошибочный подход: эти внешние модели часто работают с несовпадающими целями и не способны к обобщению на различные модальности, такие как аудио или робототехника.

Новая методика, разработанная в лабораториях, Self-Flow, использует «информационную асимметрию» для решения этой проблемы. С помощью метода, называемого Dual-Timestep Scheduling, система применяет разные уровни шума к разным частям входных данных. Ученик получает сильно искаженную версию данных, в то время как учитель — версия модели, построенная на основе экспоненциального скользящего среднего (EMA) — видит более «чистую» версию тех же данных.

Затем перед учеником ставится задача не просто сгенерировать конечный результат, но и предсказать, что видит его «более чистая» версия — процесс самосовершенствования, где учитель находится на 20-м слое, а ученик — на 8-м. Такой «двухпроходный» подход заставляет модель развивать глубокое внутреннее семантическое понимание, фактически обучаясь видеть и одновременно создавая.

Влияние на продукт: быстрее, точнее и многомодально

Практические результаты этого сдвига поразительны. Согласно исследовательской работе, Self-Flow сходится примерно в 2,8 раза быстрее, чем метод REpresentation Alignment (REPA), являющийся в настоящее время отраслевым стандартом для выравнивания признаков. Что, возможно, еще важнее, он не достигает плато; по мере увеличения вычислительных ресурсов и параметров Self-Flow продолжает улучшаться, в то время как более старые методы демонстрируют снижение эффективности.

Наилучшим образом повышение эффективности тренировок можно понять, взглянув на количество вычислительных шагов: в то время как стандартная «простая» тренировка традиционно требует 7 миллионов шагов для достижения базового уровня производительности, REPA сократила этот путь всего до 400 000 шагов, что представляет собой ускорение в 17,5 раз.

Разработанная компанией Black Forest Labs платформа Self-Flow выводит этот показатель на новый уровень, работая в 2,8 раза быстрее, чем REPA, и достигая того же рубежа производительности примерно за 143 000 шагов.

В совокупности эти изменения представляют собой почти 50-кратное сокращение общего числа этапов обучения, необходимых для достижения высококачественных результатов, фактически превращая некогда огромные ресурсные затраты в значительно более доступный и оптимизированный процесс.

Компания Black Forest Labs продемонстрировала эти достижения с помощью многомодальной модели с 4 миллиардами параметров. Обученная на огромном наборе данных, включающем 200 миллионов изображений, 6 миллионов видеороликов и 2 миллиона аудио-видео пар, модель показала значительные успехи в трех ключевых областях:

  1. Типографика и отображение текста: одним из наиболее распространенных «признаков» изображений, созданных с помощью ИИ, является искаженный текст. Self-Flow значительно превосходит стандартное сопоставление потоков при отображении сложных, разборчивых знаков и надписей, таких как неоновая вывеска с правильной надписью «FLUX is multimodal».

  2. Временная согласованность: при создании видео Self-Flow устраняет многие «галлюцинаторные» артефакты, характерные для современных моделей, такие как конечности, которые спонтанно исчезают во время движения.

  3. Совместный синтез видео и аудио: поскольку модель обучается представлениям нативно, она может генерировать синхронизированное видео и аудио из одного запроса, задача, в которой внешние «заимствованные» представления часто оказываются неэффективными, поскольку кодировщик изображений не понимает звук.

С точки зрения количественных показателей, Self-Flow продемонстрировал превосходные результаты по сравнению с конкурирующими базовыми моделями. В тесте Image FID модель набрала 3,61 балла против 3,92 у REPA. В тесте видео (FVD) она достигла 47,81 балла против 49,59 у REPA, а в тесте аудио (FAD) — 145,65 балла против 148,87 у базовой модели.

От пикселей к планированию: путь к мировым моделям.

В заключение анонса речь пойдёт о моделях мира — искусственном интеллекте, который не просто генерирует красивые картинки, но и понимает лежащую в основе физику и логику сцены для целей планирования и робототехники.

Благодаря тонкой настройке версии Self-Flow с 675 миллионами параметров на наборе данных робототехники RT-1 исследователи добились значительно более высоких показателей успешности в сложных многоэтапных задачах в симуляторе SIMPLER. В то время как стандартное сопоставление потоков испытывало трудности со сложными задачами типа «Открыть и разместить», часто полностью терпя неудачу, модель Self-Flow поддерживала стабильный уровень успешности, что свидетельствует о достаточной надежности ее внутренних представлений для визуального анализа в реальном мире.

Детали реализации и проектирования

Для исследователей, желающих проверить эти утверждения, Black Forest Labs выпустила на GitHub набор инструментов для вывода результатов, специально предназначенный для генерации изображений ImageNet размером 256×256. Проект, написанный преимущественно на Python, предоставляет архитектуру модели SelfFlowPerTokenDiT на основе SiT-XL/2.

Инженеры могут использовать предоставленный скрипт sample.py для генерации 50 000 изображений для стандартной оценки FID. В репозитории подчеркивается, что ключевое архитектурное изменение в этой реализации — это обусловливание временного шага для каждого токена, что позволяет обусловливать каждый токен в последовательности на основе его специфического шумового временного шага. Во время обучения модель использовала смешанную точность BFloat16 и оптимизатор AdamW с ограничением градиента для поддержания стабильности.

Лицензирование и доступность

Компания Black Forest Labs опубликовала исследовательскую работу и официальный код для вывода результатов через GitHub и свой исследовательский портал. Хотя в настоящее время это предварительная версия для научных исследований, опыт компании с семейством моделей FLUX позволяет предположить, что эти инновации, вероятно, появятся в их коммерческом API и предложениях с открытыми весами в ближайшем будущем.

Для разработчиков отказ от внешних кодировщиков — это огромная победа в плане эффективности. Это устраняет необходимость управления отдельными, ресурсоемкими моделями, такими как DINOv2, во время обучения, упрощая стек и позволяя проводить более специализированное, предметно-ориентированное обучение, не зависящее от чьего-либо «застывшего» понимания мира.

Основные выводы для лиц, принимающих технические решения, и для тех, кто внедряет новые решения в предприятиях.

Для предприятий появление Self-Flow представляет собой существенный сдвиг в анализе соотношения затрат и выгод при разработке собственных решений в области искусственного интеллекта.

Хотя непосредственными бенефициарами являются организации, обучающие крупномасштабные модели с нуля, исследование показывает, что эта технология одинаково эффективна и для высокоточной тонкой настройки. Поскольку метод сходится почти в три раза быстрее, чем существующие стандарты, компании могут достигать самых современных результатов, используя лишь небольшую часть традиционных вычислительных ресурсов.

Такая эффективность позволяет предприятиям отказаться от стандартных готовых решений и разрабатывать специализированные модели, которые тесно связаны с их конкретными областями данных, будь то нишевые медицинские изображения или данные с промышленных датчиков.

Практическое применение этой технологии распространяется на высокорискованные промышленные сектора, в первую очередь на робототехнику и автономные системы. Используя способность этой системы к обучению «моделям мира», предприятия в сфере производства и логистики могут разрабатывать модели визуально-языково-действенный (VLA) алгоритм, обладающие превосходным пониманием физического пространства и способностью к последовательному мышлению.

В ходе имитационных испытаний технология Self-Flow позволила роботизированным контроллерам успешно выполнять сложные задачи с несколькими объектами, например, открывать ящик, чтобы поместить в него предмет, — в то время как традиционные генеративные модели потерпели неудачу. Это говорит о том, что данная технология является основополагающим инструментом для любого предприятия, стремящегося преодолеть разрыв между генерацией цифрового контента и реальной физической автоматизацией.

Помимо повышения производительности, Self-Flow предоставляет предприятиям стратегическое преимущество за счет упрощения базовой инфраструктуры ИИ. Большинство современных генеративных систем представляют собой «франкенштейновские» модели, требующие сложных внешних семантических кодировщиков, часто принадлежащих третьим сторонам и лицензируемых ими.

Объединяя представление и генерацию в единую архитектуру, Self-Flow позволяет предприятиям устранять эти внешние зависимости, сокращая технический долг и устраняя «узкие места», связанные с масштабированием сторонних обучающих моделей. Такая самодостаточность гарантирует, что по мере масштабирования вычислительных ресурсов и данных предприятия производительность модели будет масштабироваться предсказуемо и синхронно, обеспечивая более четкую окупаемость инвестиций в долгосрочный ИИ.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Black Forest Labs, Self-Flow, Многомодальные Модели, Новая, новости, Обучение, Технология

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.
Код JavaScript и комментарии об аутентификации и безопасности сессии.
ideipro logotyp
Три портативных SSD в черных корпусах с красными акцентами.
Изображение человека в наушниках в футуристической обстановке.
Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.
ideipro logotyp
Группа военнослужащих в белой форме на ступенях перед зданием.
Роботизированная рука держит весы, символизируя баланс технологий и правосудия.
Image Not Found
Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Маск не может убедить судью в том, что общественности безразлично, откуда берутся данные для обучения ИИ. Источник: Icon Sportswire / Участник | Icon Sportswire Источник: Icon Sportswire / Участник | Icon Sportswire Настройки текста Текст рассказа Размер…

Мар 10, 2026
Код JavaScript и комментарии об аутентификации и безопасности сессии.

Компания Anthropic запускает инструмент для проверки кода, предназначенный для предотвращения потока кода, сгенерированного искусственным интеллектом.

Источник изображения: Anthropic В программировании обратная связь от коллег имеет решающее значение для выявления ошибок на ранних стадиях, поддержания согласованности кода и повышения общего качества программного обеспечения. Распространение «вайб-кодирования» — использования инструментов искусственного интеллекта, которые принимают инструкции,…

Мар 10, 2026
ideipro logotyp

Лучшие будильники на рассвете (2026): Lumie, Hatch, WiiM

Я никогда не была «жаворонком». Этот прикроватный гаджет — единственное, что когда-либо изменило мое отношение к этому. Источник: www.wired.com ✅ Найденные теги: Hatch, Lumie, WiiM, Будильники, Лучшие, новости, РассветПохожие записиКомпания Anthropic запускает инструмент для проверки кода, предназначенный…

Мар 10, 2026
Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.

Загрузка: Землетрясения и ИИ для нанесения ударов по Ирану

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Прислушайтесь к грохочущему, тайному саундтреку Земли. Грохот откалывающегося ледника. Треск лесного пожара. Рев надвигающегося штормового фронта. Это звуки живой…

Мар 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых