Image

Почему стартапы в сфере ИИ берут данные в свои руки

Цифровое сгенерированное изображение абстрактного облака/визуализации данных на фиолетовом фоне.
Авторы изображений: Андрей Онуфриенко / Getty Images

Этим летом Тейлор и её соседка по комнате всю неделю носили камеры GoPro, прикреплённые ко лбу, пока рисовали, лепили и занимались домашними делами. Они обучали модель искусственного интеллекта, тщательно синхронизируя отснятый материал, чтобы система могла получить разные ракурсы одного и того же поведения. Работа была во многих отношениях сложной, но им за неё хорошо платили, и это позволяло Тейлор проводить большую часть дня, занимаясь творчеством.

«Мы просыпались, делали всё как обычно, а потом надевали камеры на головы и сверяли время», — рассказала она мне. «Потом мы готовили завтрак и мыли посуду. А потом расходились и работали над искусством».

Их наняли для производства пяти часов синхронизированного материала каждый день, но Тейлор быстро поняла, что ей нужно выделять на работу семь часов в день, чтобы оставалось достаточно времени для перерывов и физического восстановления.

«У тебя от этого голова заболит», — сказала она. «Снимешь — и на лбу останется только красный квадрат».

Тейлор, пожелавшая не называть свою фамилию, работала фрилансером по обработке данных в компании Turing, занимающейся искусственным интеллектом, которая и познакомила её с TechCrunch. Целью Тьюринга было не научить ИИ рисовать маслом, а развить более абстрактные навыки, связанные с последовательным решением задач и визуальным мышлением. В отличие от большой языковой модели, модель зрительного восприятия Тьюринга будет обучаться исключительно на видео, и большая часть этих данных будет собрана непосредственно Тьюрингом.

Помимо художников, таких как Тейлор, Turing сотрудничает с поварами, строителями и электриками — всеми, кто работает руками. Директор Turing по искусственному интеллекту Сударшан Сивараман рассказал TechCrunch, что ручной сбор данных — единственный способ получить достаточно разнообразный набор данных.

«Мы делаем это для самых разных видов рабочих профессий, поэтому на этапе подготовки к обучению у нас есть разнообразные данные», — рассказал Сивараман TechCrunch. «После того, как мы соберём всю эту информацию, модели смогут понять, как выполняется определённая задача».

Работа Тьюринга над моделями машинного зрения является частью растущего изменения в подходе компаний, занимающихся искусственным интеллектом, к работе с данными. Если раньше обучающие наборы данных можно было бесплатно получить из интернета или получить от низкооплачиваемых аннотаторов, то теперь компании платят большие деньги за тщательно отобранные данные.

Учитывая, что возможности искусственного интеллекта уже полностью раскрыты, компании рассматривают собственные данные для обучения как конкурентное преимущество. И вместо того, чтобы передать задачу подрядчикам, они часто берутся за неё сами.

Одним из примеров является почтовая компания Fyxer, которая использует модели искусственного интеллекта для сортировки писем и составления ответов.

После нескольких ранних экспериментов основатель Ричард Холлингсворт обнаружил, что наилучшим подходом является использование массива небольших моделей с узкоспециализированными обучающими данными. В отличие от Тьюринга, Fyxer строится на чужой базовой модели, но основная идея та же.

«Мы поняли, что именно качество данных, а не их количество, на самом деле определяет эффективность», — сказал мне Холлингсворт.

На практике это означало необходимость нестандартного подбора персонала. По словам Холлингсворта, на первых порах инженеров и менеджеров Fyxer порой в четыре раза превосходило число помощников руководителей, необходимых для обучения модели.

«Мы задействовали множество опытных помощников руководителей, потому что нам нужно было обучить их основам того, стоит ли отвечать на электронные письма», — рассказал он TechCrunch. «Это очень человеческая проблема. Найти хороших специалистов очень сложно».

Темпы сбора данных не замедлялись, но со временем Холлингсворт стал относиться к наборам данных более бережно, предпочитая небольшие наборы, но более тщательно отобранные, когда дело доходило до пост-обучения. По его словам, «результаты работы определяются качеством данных, а не их количеством».

Это особенно актуально при использовании синтетических данных, поскольку расширяется как спектр возможных сценариев обучения, так и влияние любых недостатков исходного набора данных. Что касается зрения, по оценкам Turing, 75–80% его данных — синтетические, экстраполированные из оригинальных видео GoPro. Но это ещё более повышает важность поддержания максимально высокого качества исходного набора данных.

«Если сами данные до обучения некачественные, то и все, что вы делаете с синтетическими данными, тоже не будет качественным», — говорит Сиварама.

Помимо заботы о качестве, в основе сбора данных внутри компании лежит мощная конкурентная логика. Для Fyxer упорный труд по сбору данных — один из лучших рвов, которые компания использует для борьбы с конкурентами. По мнению Холлингсворта, любой может встроить модель с открытым исходным кодом в свой продукт, но не каждый может найти опытных аннотаторов, которые превратят её в работоспособный продукт.

«Мы считаем, что лучший способ сделать это — использовать данные», — сказал он TechCrunch, — «путем создания индивидуальных моделей и высококачественного обучения работе с данными под руководством человека».

Исправление: В предыдущей версии этой статьи Тьюринг был упомянут под неверным именем. TechCrunch сожалеет об этой ошибке.

Источник: techcrunch.com

✅ Найденные теги: новости, Почему

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых