
Этим летом Тейлор и её соседка по комнате всю неделю носили камеры GoPro, прикреплённые ко лбу, пока рисовали, лепили и занимались домашними делами. Они обучали модель искусственного интеллекта, тщательно синхронизируя отснятый материал, чтобы система могла получить разные ракурсы одного и того же поведения. Работа была во многих отношениях сложной, но им за неё хорошо платили, и это позволяло Тейлор проводить большую часть дня, занимаясь творчеством.
«Мы просыпались, делали всё как обычно, а потом надевали камеры на головы и сверяли время», — рассказала она мне. «Потом мы готовили завтрак и мыли посуду. А потом расходились и работали над искусством».
Их наняли для производства пяти часов синхронизированного материала каждый день, но Тейлор быстро поняла, что ей нужно выделять на работу семь часов в день, чтобы оставалось достаточно времени для перерывов и физического восстановления.
«У тебя от этого голова заболит», — сказала она. «Снимешь — и на лбу останется только красный квадрат».
Тейлор, пожелавшая не называть свою фамилию, работала фрилансером по обработке данных в компании Turing, занимающейся искусственным интеллектом, которая и познакомила её с TechCrunch. Целью Тьюринга было не научить ИИ рисовать маслом, а развить более абстрактные навыки, связанные с последовательным решением задач и визуальным мышлением. В отличие от большой языковой модели, модель зрительного восприятия Тьюринга будет обучаться исключительно на видео, и большая часть этих данных будет собрана непосредственно Тьюрингом.
Помимо художников, таких как Тейлор, Turing сотрудничает с поварами, строителями и электриками — всеми, кто работает руками. Директор Turing по искусственному интеллекту Сударшан Сивараман рассказал TechCrunch, что ручной сбор данных — единственный способ получить достаточно разнообразный набор данных.
«Мы делаем это для самых разных видов рабочих профессий, поэтому на этапе подготовки к обучению у нас есть разнообразные данные», — рассказал Сивараман TechCrunch. «После того, как мы соберём всю эту информацию, модели смогут понять, как выполняется определённая задача».
Работа Тьюринга над моделями машинного зрения является частью растущего изменения в подходе компаний, занимающихся искусственным интеллектом, к работе с данными. Если раньше обучающие наборы данных можно было бесплатно получить из интернета или получить от низкооплачиваемых аннотаторов, то теперь компании платят большие деньги за тщательно отобранные данные.
Учитывая, что возможности искусственного интеллекта уже полностью раскрыты, компании рассматривают собственные данные для обучения как конкурентное преимущество. И вместо того, чтобы передать задачу подрядчикам, они часто берутся за неё сами.
Одним из примеров является почтовая компания Fyxer, которая использует модели искусственного интеллекта для сортировки писем и составления ответов.
После нескольких ранних экспериментов основатель Ричард Холлингсворт обнаружил, что наилучшим подходом является использование массива небольших моделей с узкоспециализированными обучающими данными. В отличие от Тьюринга, Fyxer строится на чужой базовой модели, но основная идея та же.
«Мы поняли, что именно качество данных, а не их количество, на самом деле определяет эффективность», — сказал мне Холлингсворт.
На практике это означало необходимость нестандартного подбора персонала. По словам Холлингсворта, на первых порах инженеров и менеджеров Fyxer порой в четыре раза превосходило число помощников руководителей, необходимых для обучения модели.
«Мы задействовали множество опытных помощников руководителей, потому что нам нужно было обучить их основам того, стоит ли отвечать на электронные письма», — рассказал он TechCrunch. «Это очень человеческая проблема. Найти хороших специалистов очень сложно».
Темпы сбора данных не замедлялись, но со временем Холлингсворт стал относиться к наборам данных более бережно, предпочитая небольшие наборы, но более тщательно отобранные, когда дело доходило до пост-обучения. По его словам, «результаты работы определяются качеством данных, а не их количеством».
Это особенно актуально при использовании синтетических данных, поскольку расширяется как спектр возможных сценариев обучения, так и влияние любых недостатков исходного набора данных. Что касается зрения, по оценкам Turing, 75–80% его данных — синтетические, экстраполированные из оригинальных видео GoPro. Но это ещё более повышает важность поддержания максимально высокого качества исходного набора данных.
«Если сами данные до обучения некачественные, то и все, что вы делаете с синтетическими данными, тоже не будет качественным», — говорит Сиварама.
Помимо заботы о качестве, в основе сбора данных внутри компании лежит мощная конкурентная логика. Для Fyxer упорный труд по сбору данных — один из лучших рвов, которые компания использует для борьбы с конкурентами. По мнению Холлингсворта, любой может встроить модель с открытым исходным кодом в свой продукт, но не каждый может найти опытных аннотаторов, которые превратят её в работоспособный продукт.
«Мы считаем, что лучший способ сделать это — использовать данные», — сказал он TechCrunch, — «путем создания индивидуальных моделей и высококачественного обучения работе с данными под руководством человека».
Исправление: В предыдущей версии этой статьи Тьюринг был упомянут под неверным именем. TechCrunch сожалеет об этой ошибке.
Источник: techcrunch.com



























