9 причин, почему рабочие данные являются самым ценным источником данных для обучения LLM, способным вывести результаты обучения LLM на беспрецедентные высоты.
Делиться

Данные о работе, результаты труда работников сферы интеллектуального труда, являются самым ценным источником данных для обучения LLM, способным вывести результаты обучения на беспрецедентный уровень. В этой статье я представлю девять аргументов в пользу этого утверждения. Затем я рассмотрю текущий конфликт интересов между владельцами данных о работе и компаниями, занимающимися разработкой ИИ, которые хотят обучать специалистов на этих данных. Затем я обсужу возможные пути решения этой проблемы и взаимовыгодный сценарий.
Хотя, по прогнозам, общедоступные учебные данные скоро иссякнут, всё ещё существует огромное количество неиспользованных личных данных. Среди личных данных, на мой взгляд, наибольшие и наиболее перспективные возможности представляют собой данные о работе: результаты работы специалистов по интеллектуальному труду, от кода разработчиков до разговоров сотрудников службы поддержки и презентаций продавцов.
Многие из этих идей почерпнуты из книги Дары Б. Рой «Отрезвляющие тезисы для работников сферы знаний по генеративному ИИ», в которой подробно обсуждается использование рабочих данных в контексте обучения на степень магистра права, а также их влияние на рынок труда работников сферы знаний.
Итак, почему данные о работе так ценны для обучения на программах магистратуры по праву? Вот 9 причин.
Рабочие данные — это самые качественные данные, которые когда-либо создавало человечество.
Рабочие данные, очевидно, намного более качественные, чем наш общедоступный интернет-контент.
На самом деле, если мы посмотрим на общедоступный интернет-контент, используемый при предварительном обучении: наиболее качественные источники (те, которые вы бы подвергали апсэмплингу во время обучения) — это те, которые представляют собой результаты чьей-либо работы : статьи из New York Times, книги профессиональных авторов.
Почему рабочие данные намного качественнее нерабочего интернет-контента?
- Более фактическое и заслуживающее доверия . То, что мы говорим и делаем на работе, более фактическое и заслуживающее доверия. В конце концов, как сотрудники, мы несём за это ответственность, и от этого зависит наша жизнь.
- Создано проверенными специалистами : общедоступный интернет-контент создаётся самопровозглашёнными экспертами. Однако данные о работе создаются профессионалами, тщательно отобранными из огромного числа талантливых людей в ходе многочисленных собеседований, тестов и проверок биографических данных. Представьте, если бы то же самое было с интернет-контентом: вы могли бы публиковать посты на Reddit только после того, как комиссия профессионалов предварительно оценила ваши квалификацию и навыки.
- Отражает проверенные знания : результаты работы сотрудников отражают проверенные на практике идеи и передовой опыт отрасли, доказавшие свою эффективность в реальных условиях. Сравните это с интернет-контентом, который обычно нацелен лишь на привлечение внимания читателя, предлагая броские, но непроверенные идеи.
- Более точно отражает человеческие предпочтения : то, как мы выражаем себя в наших рабочих продуктах, становится более красноречивым, более вдумчивым и более тактичным. Мы просто прилагаем дополнительные усилия, чтобы следовать нормам (то есть человеческим предпочтениям) нашей культуры. Если бы предварительная подготовка проводилась исключительно на рабочих данных, нам, возможно, вообще не понадобились бы RLHF и обучение выравниванию, поскольку всё это просто пронизывает обучающие данные.
- Отражает более сложные закономерности и раскрывает более глубокие связи : общедоступный интернет-контент часто лишь поверхностно затрагивает любую тему. В конце концов, он предназначен для общественности. Профессиональные вопросы обсуждаются в компаниях гораздо глубже, раскрывая гораздо более глубокие связи между концепциями. Это более высокое качество мышления, более точная аргументация, более тщательное рассмотрение фактов и возможностей. Если бы текущие основополагающие модели развивались так же хорошо на основе скудных общедоступных интернет-данных, представьте, чему бы они могли научиться, используя рабочие данные, которые содержат гораздо больше сложностей, нюансов, значений и закономерностей.
Более того, данные о работе часто классифицируются по качеству. В некоторых случаях есть данные о том, была ли работа выполнена младшим или старшим специалистом. В некоторых случаях работа классифицируется по показателям производительности, поэтому становится ясно, какой пример более ценен для обучения. Например, у вас могут быть данные о том, какой маркетинговый контент привёл к большему количеству конверсий; у вас могут быть данные о том, какой ответ сотрудника службы поддержки обеспечил более высокий уровень удовлетворенности клиентов.
В целом, я считаю, что данные о работе, вероятно, являются самыми качественными данными, которые когда-либо создавало человечество, потому что стимулы согласованы. Работники буквально получают вознаграждение за результаты своей работы.
Другими словами:
В открытом интернете качественный контент — исключение. В сфере труда качественный контент — правило.
Существуют легендарные истории о запусках YOLO, когда большие модели обучались на астрономических бюджетах, и вы надеялись, что обучающие выборки были достаточно хороши, чтобы не сбить модель с толку и не опустошить ваш бюджет. Возможно, обучение на рабочих данных положит конец эпохе запусков YOLO, сделав обучение ИИ гораздо более предсказуемым и финансово выгодным даже для компаний с меньшей капитализацией.
Данные о работе представляют собой наиболее ценные человеческие знания.
Студенты магистратуры права могут получить ценные навыки, читая New York Times или выполняя серию математических тестов. Писать как колумнист NYT — это хороший навык, а сдать экзамен по исчислению на отлично — отличное достижение.
Но настоящая ценность для бизнеса заключается в навыках, за которые готовы платить реальные компании. Очевидно, что эти навыки лучше всего извлекаются из данных, которые их содержат: результатов работы.
Рабочие данные легко доступны для обучения ИИ
Если вы работаете в SaaS-компании, которая помогает определенной группе работников сферы интеллектуального труда выполнять свои задачи, то, естественно, результаты их работы хранятся в вашем облачном хранилище.
Технически эти данные легко доступны для обучения ИИ. Другой вопрос, есть ли у вас законные основания использовать их в этих целях.
Объем рабочих данных на порядок превышает объем общедоступного интернет-контента.
Интуитивно понятно, что ваш интернет-след (например, сколько вы публикуете или публикуете в интернете) кажется ничтожным по сравнению с объёмом, который вы создаёте по работе. Лично я, наверное, пишу в 100 раз больше слов по работе, чем в интернете.
Объем рабочих данных огромен. Важно отметить, что любой SaaS-сервис имеет доступ только к своему фрагменту рабочих данных. Этого может быть более чем достаточно для тонкой настройки, но недостаточно для предварительной подготовки моделей общего назначения.
Естественно, у действующих игроков есть преимущество: чем больше у вас пользователей, тем больше данных в вашем распоряжении.
Некоторые компании особенно хорошо подготовлены к использованию рабочих данных: Microsoft, Google и некоторые другие поставщики общего программного обеспечения для работы (почта, документы, таблицы, сообщения и т. д.) имеют доступ к огромным объемам рабочих данных.
Рабочие данные демонстрируют уникальные идеи
Поскольку компании подобны деревьям в лесу: каждая из них стремится найти свою солнечную нишу в густом лесу, место, которое она может занять по-своему, данные, которые они производят, уникальны. Компании называют это «дифференциацией». С точки зрения данных это означает, что данные компаний содержат информацию, которая когда-либо была доступна только этой конкретной компании.
Это одна из причин, по которой компании так бережно относятся к своим данным: они отражают их коммерческие тайны и информацию, которая отличает их от конкурентов. Если они откажутся от них, конкуренты могут быстро занять их место.
В рабочих данных есть скрытые драгоценности
Время от времени у рабочих случается озарение, и они узнают закономерность, которая была перед ними все это время.
Если бы ИИ имел доступ к тем же данным, он мог бы распознавать закономерности, которые до сих пор не удавалось распознать ни одному человеку.
Это, опять же, важное отличие от общедоступного интернет-контента. В интернете есть только те знания, которые люди осознали и приложили усилия для публикации. Рабочие данные содержат знания, которые до сих пор никто не обнаружил.
Рабочие данные более чистые и структурированные
Насколько он структурирован, зависит от области, но он определенно более структурирован, чем интернет-контент.
Как минимум, рабочие продукты должны быть организованы в аккуратные папки и файлы с соответствующими названиями. В конце концов, работа — это совместный труд, поэтому сотрудники стараются поддерживать это сотрудничество между коллегами.
Некоторые рабочие данные ещё лучше структурированы и очищены: они генерируются в ходе строгих процессов и проходят множество этапов согласований, прежде чем будут преобразованы в стандартный формат. Вспомните архитектуру баз данных, которая проходит путь от набросков до файлов конфигурации Terraform.
А если этого недостаточно, правила устанавливает ваша компания. При желании вы можете подтолкнуть или даже заставить пользователей следовать определённым правилам. У вас есть для этого все инструменты: вы можете ограничить их вклад, направить их рабочий процесс и мотивировать их предоставлять вам дополнительные данные, чтобы упростить очистку данных.
Рабочие данные во многих случаях имеют явную маркировку
Во многих случаях рабочие данные поступают в виде пар «вход-выход». Задача-решение.
Например
- Перевод: Исходный текст -> Переведенный текст
- Поддержка клиентов: запрос клиента -> решение агента поддержки.
- Продажи: данные о потенциальном клиенте -> выигрышное коммерческое предложение и детали финальной сделки.
- Программная инженерия: элемент отставания + существующий код -> новый код в репозитории.
- Дизайн интерфейса: задачи, которые необходимо выполнить + персона + система дизайна -> новый дизайн.
Если работа создана с помощью LLM, то есть даже подсказка, ответ LLM и финальная версия, скорректированная человеком. Может ли LLM желать лучшего персонального тренера, чем сотни тысяч профессионалов, являющихся экспертами в данной области?
Рабочие данные — это обоснованные данные
Результаты работы часто оцениваются по бизнес-показателям и ключевым показателям эффективности (KPI). Существует способ определить, какие решения службы поддержки клиентов, как правило, обеспечивают наибольшую ценность для клиента. Существует способ определить, какие предложения продаж обеспечивают наибольшую конверсию или самые короткие сроки выполнения. Существует способ определить, привел ли фрагмент кода к инцидентам или проблемам с производительностью.
Ключевые показатели эффективности (KPI) и метрики — это своего рода датчики, связывающие бизнес с внешним миром, которые обеспечивают обратную связь для оценки эффективности результатов его работы. Это лучше, чем человеческие оценки. Например, это не «мягкие данные», как если бы человек пытался угадать, понравится ли другим людям маркетинговое сообщение. Это «жесткие данные», которые напрямую отражают, насколько эффективно маркетинговый текст конвертирует людей.
Рабочие данные представляют большую ценность для ИИ, чем думают работники.
Несмотря на все вышеперечисленные преимущества, по моему опыту, работники интеллектуального труда сильно недооценивают ценность своего труда. К этим заблуждениям относятся:
- Если информация не оригинальна, она не представляет ценности : они не знают, что машинное обучение предпочитает повторение с небольшими вариациями, потому что именно так оно извлекает базовые закономерности — неизменные особенности, скрытые под поверхностным шумом.
- Если работа лёгкая, она не ценна : людям трудно понять, что если навык дается им легко, это не значит, что он дается искусственному интеллекту легко. Эти навыки кажутся нам естественными только потому, что они стали нашей второй натурой благодаря миллионам лет эволюции или многолетнему воспитанию и образованию.
- Если это не пиковая производительность, это не имеет ценности : сотрудники получают похвалу и бонусы только за то, что работают сверх своих возможностей. Это приводит их к мысли, что важна только их пиковая производительность. Они, похоже, забывают, что обыденные действия, такие как простой ответ на сообщение коллеги, не менее важны для управления бизнесом и получения прибыли — очень ценный навык для ИИ.
Этические соображения

К сожалению, использование рабочих данных для обучения ИИ сопряжено с определенными условиями.
- Эти данные являются результатом чьего-то оплаченного труда : использование этих работ с целью получения прибыли третьей стороной, вероятно, можно квалифицировать как неоплачиваемую работу или эксплуатацию труда.
- Недобросовестное использование : одним из определяющих факторов «добросовестного использования» является то, что полученная работа не должна конкурировать с исходной работой на рынке. Я не эксперт в области права, но предложение услуги как программного обеспечения (Service as Software) на том же рынке, на котором работают поставщики данных, является явным примером конкурирующего предложения. Недобросовестное использование.
- Производство этих данных обходится владельцам в реальные деньги . Компания начислила зарплату всем, кто занимается их созданием. Работники интеллектуального труда потратили годы учёбы, студенческие кредиты и массу усилий. Даже если отбросить страх перед тем, что ИИ сделает работников ненужными, и сосредоточиться исключительно на собственных капиталистических интересах, маловероятно, что работники захотят отдать этот ценный актив бесплатно, только ради выгоды некоторых частных акционеров SV.
- Эти данные раскрывают коммерческие тайны и конфиденциальную информацию компании . Какая компания захочет обучить ИИ своим процессам, а потом передать его конкурентам? Какая компания захочет уравнять шансы со своими конкурентами?!
- Эти данные — чья-то интеллектуальная собственность . Обычно это интеллектуальная собственность компании. И у компаний есть целые армии юристов, защищающих их интересы.
Следующий шаг: ваша возможность здесь и сейчас
Если вы инженер-программист или специалист по работе с данными, у вас есть уникальная возможность изменить курс развития ИИ и человечества к лучшему.
Как представитель своей компании , как человек, понимающий роль данных в деятельности компании в области искусственного интеллекта, и как человек, стремящийся создать лучшее и самое лучшее, вы можете настаивать на получении нужного типа данных: рабочих данных.
С другой стороны, пока вы работаете над автоматизацией задач своих пользователей, есть люди, которые работают над автоматизацией ваших задач как специалиста по интеллектуальному труду . Они хотят принимать ваши усилия и приобретенные с трудом навыки как должное, чтобы иметь возможность увеличивать богатство своих инвесторов.
В общем, вы сидите по обе стороны стола переговоров . Но это ещё не всё: благодаря вашим знаниям и проницательности, именно вы, возможно, являетесь тем человеком, который владеет ключами к взаимовыгодному разрешению этого конфликта интересов.
Существует ли бизнес-модель, в которой обе модели ИИ получают необходимые им данные, а работники сферы знаний получают справедливую долю за свой ценный вклад, а не просто выжимают и затем выбрасывают?

Размышление о беспроигрышном сценарии
В настоящее время мы наблюдаем ожесточённую борьбу между компаниями, занимающимися разработкой ИИ, и владельцами данных. Компании, занимающиеся разработкой ИИ, утверждают, что не могут работать и внедрять инновации без данных для обучения. Владельцы данных утверждают, что ИИ разрушает их бизнес и отнимает у них работу. Существуют юридические проблемы, связанные с правами на использование данных для обучения ИИ, и существуют сообщества, выступающие за полный отказ от обучения ИИ. Это настоящее поле битвы, и это никому не на пользу. Нам следует быть осторожнее!
Как бы выглядел идеальный сценарий? С точки зрения компании, занимающейся разработкой искусственного интеллекта, мы должны представить себе мир, в котором владельцы данных с радостью предоставляют свои данные для моделей искусственного интеллекта и, более того, делают всё возможное, чтобы удовлетворить потребности в данных для обучения искусственного интеллекта, предоставляя дополнительные точки данных, возможно, маркируя и очищая свои данные, а также обеспечивая их действительно высокое качество.
Что делает возможным такой сценарий? Кажется очевидным. Если бы успех компании, занимающейся разработкой ИИ, был бы успехом владельцев данных, они были бы рады внести свой вклад . Другими словами, владелец данных должен быть заинтересован в модели ИИ, он должен владеть частью модели и получать прибыль от неё.
Чтобы стимулировать качественный вклад, доля владельцев данных должна быть пропорциональна ценности их вклада.
По сути, мы будем рассматривать данные как капитал, а вклад данных — как капитальные инвестиции. Ведь именно этим и являются обучающие данные: это физический капитал, созданный человеком актив, используемый для производства товаров и услуг.
Интересно, что эта модель, рассматривающая вклад данных как капиталовложение, также решает главный страх работников интеллектуального труда: потерять средства к существованию из-за ИИ. «Белые воротнички» живут за счёт прибыли от своего человеческого капитала. Если модель извлекает человеческий капитал (знания и навыки) из их труда, этот человеческий капитал теряет свою рыночную стоимость, поскольку ИИ будет выполнять эти навыки и задачи быстрее и дешевле. Однако, если работники интеллектуального труда получают акционерный капитал в обмен на свой вклад в данные, они фактически обменивают свой человеческий капитал на акционерный капитал, который продолжает приносить им прибыль и, следовательно, служит источником средств к существованию.
Это возможность для положительного подкрепляющего цикла. Работая как специалист в области интеллектуального труда, вы вносите вклад в разработку более совершенных моделей ИИ, что увеличивает доходы компании, занимающейся ИИ, а значит, и ваше вознаграждение, что ещё больше мотивирует вас вносить свой вклад. Одновременно с этим, совершенствование модели ИИ в вашем рабочем программном обеспечении напрямую повышает количество и качество ваших результатов, ещё больше повышая ваш вклад и, следовательно, модель ИИ. Это двойной подкрепляющий цикл, который может стать неуправляемым процессом, приводящим к динамике «победитель получает всё».
Отношение к данным как к капиталу не только открывает доступ к большему количеству и более качественным данным для обучения, но и позволяет проводить быстрые и недорогие эксперименты. Например, вы хотите попробовать новый инновационный продукт, в основе которого лежит модель искусственного интеллекта. Если вы используете данные для обучения в качестве инвестиции, вам не нужно платить за них авансом. Вы выплачиваете дивиденды только после того, как ваш продукт начинает приносить прибыль, и платите пропорционально этой прибыли. Если ваша идея провалится, ничего страшного, никто не пострадал и не потерял деньги. Инновации — это дёшево и безрисково.
Коммерческие тайны против обучения ИИ
Теперь давайте обратимся к конфликту интересов между компаниями, занимающимися разработкой ИИ, и работодателями: компаниями, чьи специалисты по интеллектуальному труду производят данные для обучения.
Работодатели, похоже, не возражают против передачи работы своих сотрудников компаниям, занимающимся ИИ, если взамен они могут получить услугу ИИ, которая будет выполнять ту же работу, что и человек, но лучше и дешевле.
Реальный конфликт интересов возникает из-за того, что модель ИИ будет передавать коммерческие секреты и ноу-хау работодателя его конкурентам. Если компания, использующая ИИ, позволяет любой другой компании, будь то начинающий стартап или крупный конкурент, реализовывать те же стратегии и процессы с тем же качеством, скоростью и масштабом, что и действующая компания, это означает, что она устраняет значительную часть конкурентных преимуществ последней.
В каждой компании есть ноу-хау и процессы, которые «не улучшают вкус пива», а являются просто общими процессами. Уверен, компании с удовольствием внесли бы (с согласия и при участии своих специалистов) данные об этих процессах в модель ИИ в обмен на долю владения. Это взаимовыгодный обмен. Что касается ноу-хау и процессов, которые отличают Работодателя от конкурентов, их конкурентных преимуществ, то единственный вариант — это индивидуальное обучение модели или разработка ИИ по схеме «white-label», при которой компания, занимающаяся ИИ, помогает создавать и эксплуатировать модель ИИ, но она используется исключительно Работодателем и его специалистами и полностью принадлежит им.
Надеюсь, эта статья пробудила в вас интерес к позитивным сценариям использования данных для обучения ИИ. Возможно, вы внесёте свой вклад в решение этой головоломки.
Спасибо за чтение,
Жомбор
Другие мои статьи:
GenAI — это передача богатства от работников к владельцам капитала. Модели ИИ — это инструменты для превращения человеческого капитала (знаний и навыков) в традиционный капитал: объект (модель), которым может владеть корпорация.
SAP не предоставляет мои данные в Figma AI, и я горжусь этим. Стоит ли UX-дизайнерам предоставлять свои разработки в Figma для разработки более эффективных функций ИИ? Кому это будет выгодно? Инвесторам Figma? Дизайнерам? Работодателям дизайнеров?
Заблуждение о единовременной нагрузке не спасает человеческий труд от генного ИИ. Это заблуждение лишь предполагает, что работы всегда будет больше. Оно не предполагает, что люди будут выполнять эту работу, что весьма важно.
Проблема 80/20 генеративного ИИ — вывод из исследования UX. Когда LLM решает задачу на 80% правильно, это часто составляет лишь 20% от ценности для пользователя.
Источник: towardsdatascience.com



























