Pinterest сократил затраты на ИИ на 90%, убрав слой обработки изображений из перспективной модели.
Тарин Пламб

При 620 миллионах ежемесячных пользователей использование передовой модели для каждой рекомендации изображений — это не стратегия, а огромные затраты. Технический директор Pinterest Мэтт Мадригал решил эту проблему, полностью переработав слой обработки изображений Qwen3-VL с использованием собственных векторных представлений, что позволило сократить расходы на 90% и повысить точность на 30%.
Команда Мадригала активно инвестирует в доработку моделей с открытым исходным кодом «внутри компании».
«Если у вас есть действительно уникальные данные, которые затем можно использовать для тонкой настройки модели с открытым исходным кодом, качество данных, откровенно говоря, перевесит или даже превзойдет размер модели», — объяснил Мадригал в недавнем подкасте VB Beyond the Pilot.
Как Pinterest адаптировал Qwen для визуального поиска
Pinterest, насчитывающий около 620 миллионов активных пользователей в месяц, давно использует модели с открытым исходным кодом для визуального поиска и обнаружения, начиная с BERT от Google и CLIP от OpenAI. Компания усовершенствовала свой собственный Pin CLIP на основе последнего, включив в него собственные визуальные встраивания и метаданные изображений.
Разговорный помощник для покупок Pinterest, Navigator 1, был создан на основе Qwen3-VL и значительно модифицирован. Команда Мадригала, по сути, «удали» слой кодировщика изображений Qwen и доработала модель на основе собственных мультимодальных встраиваний. Это позволило им собирать метаданные о пинах и изображениях, которые затем можно предварительно обработать в автономном режиме и регулярно переобучить на новой информации для предоставления персонализированных услуг.
«Модели с открытым исходным кодом, особенно с открытыми лицензиями Apache, где можно действительно точно настраивать множество параметров и адаптировать их под уникальные сценарии использования, — вот где мы обнаружили, насколько мощным инструментом для нас является открытый исходный код», — сказал Мадригал.
Использование собственных эмбеддингов позволяет его команде получить контекст метаданных, меток и изображений; кроме того, что особенно важно, модель работает лучше как во время выполнения, так и при выводе результатов. Без этих эмбеддингов разработчикам пришлось бы вызывать и кодировать каждое возвращаемое изображение во время выполнения, по одному за раз. Это приводит к задержке, «в 20 раз большей» с точки зрения вывода результатов, сказал Мадригал.
«Если это что-то критически важное для наших конечных пользователей, что будет стимулировать вовлеченность и что должно масштабироваться до более чем 600 миллионов активных пользователей в месяц, мы, вероятно, либо разработаем это самостоятельно, либо воспользуемся открытым исходным кодом и доработаем его до мельчайших деталей», — сказал он.
VB Transform · 14–15 июля · Менло-Парк · Агентная оркестровка
Компания Intuit перестроила свою многоагентную систему за 60 дней. Что именно они изменили и почему?
На конференции Transform руководители инженерных подразделений из Intuit, Target и Instacart рассказывают о том, как они перепроектировали свои архитектуры оркестрации для повышения надежности, масштабируемости и удовлетворения потребностей реальных клиентов.
Ознакомиться с полной программой →
Как график предпочтений отражает меняющиеся интересы.
Чтобы помочь пользователям пройти путь от вдохновения до покупки, команда Мадригала создала «график вкусов»: динамическое представление того, что действительно нравится отдельным пользователям, а не просто то, на что они кликают. «Это представление меняющихся вкусов миллиардов людей», — сказал он.
Люди обращаются к Google или другим поисковым системам, когда у них есть четкое представление о том, чего они хотят; Pinterest предназначен для тех, кто находится на этапе поиска, — сказал Мадригал. Цель Pinterest — поощрять «нестандартное исследование» и превращать поиск в намерение (то есть, переход по рекламным объявлениям или совершение покупок).
В основе архитектуры лежит сочетание графовой структуры и обучения представлений. Встраивания пользователей отражают меняющиеся вкусы пользователя. Они постоянно обновляются на основе активности, нового контента и сигналов. «Это не социальный граф, — сказал Мадригал. — Это скорее граф предпочтений: что вас вдохновит? Что вы собираетесь делать дальше?»
Например, один пользователь может увлекаться дизайном в стиле середины прошлого века, а другой — эстетикой Нантукета. Эти предпочтения будут учтены в пользовательских данных, и в результате граф вкусов будет показывать конкретные, релевантные товары.
«Вы проходите весь путь от верхней воронки, этапа поиска вдохновения, до нижней воронки, где проявляется намерение», — сказал Мадригал.
Послушайте полный подкаст, чтобы узнать больше о:
-
Как Pinterest использует «песочницы» для поощрения творчества безопасным и контролируемым способом;
-
Почему непрерывная обратная связь может предотвратить неточности визуального ИИ;
-
Важность постоянного сравнительного анализа для оценки вовлеченности пользователей, производительности, задержки и других факторов.
Вы также можете слушать и подписываться на Beyond the Pilot на Spotify , Apple или на любой другой платформе, где вы слушаете подкасты.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.