Исследователи из Массачусетского технологического института обучают модели искусственного интеллекта интерпретации графиков.
Новый обучающий набор данных ChartNet может повысить точность моделей визуально-языкового анализа, которые помогают анализировать бизнес-тенденции или интерпретировать научные данные.
↓ Скачать подпись к изображению : «Мы можем начать с одного графика, который используем в качестве исходного, и создать сотни его дополнений. Именно так нам удалось построить набор данных, содержащий более миллиона разнообразных изображений», — говорит Кондич. Источник : Предоставлено исследователями.
«Мы разработали ChartNet как универсальное решение для анализа графиков, охватывающее практически все, что может понадобиться модели искусственного интеллекта и специалисту, обучающему эту модель», — говорит Йована Кондич. Источник: MIT News; iStock
«Мы можем начать с одного изображения, которое используем в качестве исходного, и создать сотни его дополнений. Именно так нам удалось построить набор данных, содержащий более миллиона разнообразных изображений», — говорит Кондич. (Фото: Предоставлено исследователями)
Для ускорения и совершенствования процесса принятия решений на быстро меняющемся глобальном рынке предприятия могут использовать генеративные модели искусственного интеллекта, которые помогают обобщать и интерпретировать диаграммы, часто заполняющие обзоры рынка и финансовые отчеты.
Однако даже самые современные модели обработки визуальной и языковой информации иногда испытывают трудности с этой задачей, поскольку она требует от модели интеграции визуального, числового и лингвистического понимания. Компания, инвестирующая в передовую модель, все равно может получать неточную или неполную информацию.
Чтобы восполнить этот пробел в производительности, исследователи из Массачусетского технологического института и вычислительной исследовательской лаборатории MIT-IBM разработали многофункциональный ресурс для пользователей ИИ, специально предназначенный для обучения моделей визуального языка (VLM) эффективной интерпретации диаграмм.
Они использовали новый метод генерации данных для создания современного набора данных, включающего более миллиона разнообразных диаграмм. Этот набор данных также кодирует множество визуальных, лингвистических и числовых компонентов каждого изображения диаграммы, что позволяет моделям надежно анализировать информацию, содержащуюся в диаграмме.
Исследователи использовали этот набор данных, названный ChartNet, для обучения ряда моделей VLM с открытым исходным кодом. Многие из этих небольших моделей значительно превзошли по производительности на порядки более крупные коммерческие модели в таких задачах, как извлечение данных и составление сводных диаграмм.
Благодаря возможности использования моделей с открытым исходным кодом, превосходящих по производительности коммерческие аналоги, ChartNet может позволить небольшим компаниям с ограниченным бюджетом легче использовать ИИ. Открытый набор данных может быть использован для улучшения возможностей моделей ИИ в таких задачах, как анализ бизнес-тенденций и интерпретация научных графиков.
«Мы разработали ChartNet как универсальное решение для анализа графиков, охватывающее практически все, что может понадобиться модели ИИ и специалисту, обучающему эту модель. Мы надеемся, что наша работа вдохновит исследователей на достижение передовых результатов с помощью более компактных моделей, не требующих бесконечных вычислительных мощностей», — говорит Йована Кондич, аспирантка факультета электротехники и информатики Массачусетского технологического института и ведущий автор статьи о ChartNet.
В работе над статьей к ней присоединились многочисленные соавторы из Массачусетского технологического института (MIT), лаборатории вычислительных исследований MIT-IBM и исследовательского центра IBM, в том числе Пэнъюань Ли, научный сотрудник исследовательского центра IBM; Дхирадж Джоши, старший научный сотрудник исследовательского центра IBM; Исаак Санчес, инженер-программист исследовательского центра IBM; Оуд Олива, директор по стратегическому взаимодействию с промышленностью в Колледже вычислительной техники им. Шварцмана при MIT, директор лаборатории вычислительных исследований MIT-IBM и старший научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и Рожерио Ферис, ведущий научный сотрудник и руководитель лаборатории вычислительных исследований MIT-IBM. Результаты исследования будут представлены на конференции IEEE по компьютерному зрению и распознаванию образов.
Узкое место в наборе данных
Исследователи добились больших успехов в разработке генеративных моделей искусственного интеллекта, которые превосходно справляются с обработкой естественного языка и рассуждениями об изображениях. Однако, по словам Кондича, меньше внимания уделялось интерпретации сложных мультимодальных данных, содержащихся в графиках.
Тем не менее, для крупных и малых предприятий практически во всех отраслях понимание диаграмм является критически важной задачей.
«Финансовая индустрия процветает благодаря графикам. Если модели обработки визуальной и языковой информации смогут извлекать из графиков информацию, например, описания трендов, это значительно упростит многие последующие рабочие процессы», — говорит Джоши.
Отсутствие высококачественных обучающих данных является серьезным препятствием для разработки моделей визуального обучения, способных точно интерпретировать графики. Многие наборы данных содержат ограниченное количество изображений графиков, взятых из интернета, и часто не имеют необходимого масштаба и дополнительной информации, которая помогла бы модели интерпретировать базовые данные.
«В отличие от нашего мозга, модели визуально-языкового восприятия, возможно, потребуется увидеть тысячи примеров во время обучения, чтобы надежно распознать что-либо как линейный график», — говорит Кондич.
Исследователи стремились преодолеть эти недостатки, создавая синтетические данные. Синтетические данные искусственно генерируются алгоритмами для имитации статистических свойств реальных данных.
Набор данных ChartNet содержит более миллиона высококачественных изображений диаграмм, а также соответствующий код, использованный для генерации каждой диаграммы, текстовое описание и таблицу с ее числовой информацией. Кроме того, каждая точка данных включает пары вопросов и ответов, чтобы научить модель правильно отвечать на вопросы об изображении диаграммы.
«Эти дополнительные режимы обработки данных помогают модели связывать и согласовывать различные фрагменты информации, закодированные в изображении диаграммы», — говорит Кондич.
Генерация данных
Для создания ChartNet исследователи разработали двухэтапный конвейер генерации синтетических данных.
Сначала их автоматизированная система преобразует любой существующий набор изображений диаграмм в код. Затем система итеративно дополняет этот код, изменяя различные аспекты каждой диаграммы, такие как тип диаграммы, значения данных, тема, цвета и т. д.
«Мы можем начать с одного изображения, которое используем в качестве исходного, и создать на его основе сотни вариантов. Именно так нам удалось создать набор данных, содержащий более миллиона разнообразных изображений», — объясняет Кондич.
Они также внедрили автоматизированный процесс проверки качества, чтобы гарантировать высокое качество синтетических данных. Этот процесс подтверждает, что код является исполняемым, а отображаемые изображения диаграмм точны и аккуратны.
«Мы хотим не просто получать разнообразные образцы. Мы также хотим, чтобы информация была представлена в осмысленной форме», — говорит она.
ChartNet также включает в себя подборку данных для диаграмм, аннотированных экспертами. Это обеспечивает доступ к дополнительным типам диаграмм и вспомогательным данным, достоверность которых гарантирована.
Джоши добавляет, что специалист может использовать аннотированные данные для тонкой настройки существующей виртуальной производственной модели (VLM), что позволит еще больше повысить производительность для конкретного приложения .
Исследователи протестировали ChartNet, обучив модели из серии Granite Vision от IBM, а также несколько других моделей с открытым исходным кодом различного размера и оценив их на различных задачах интерпретации диаграмм. Набор данных повысил точность всех моделей в задачах реконструкции диаграмм, извлечения данных из диаграмм, обобщения данных из диаграмм и ответа на вопросы, касающиеся диаграмм.
С помощью ChartNet небольшие модели с открытым исходным кодом неизменно превосходили по результатам гораздо более крупные коммерческие модели.
«Многие предыдущие обучающие наборы данных были сосредоточены только на ответах на простые вопросы о графике. С ChartNet мы попытались выйти за рамки этого, создав данные, которые поддерживают все аспекты надежного понимания графиков», — говорит Кондич.
В будущем исследователи планируют продолжить расширение ChartNet, включив в него данные с более высокими уровнями сложности. Они также хотят учитывать отзывы исследовательского сообщества.
Данное исследование было частично профинансировано вычислительной исследовательской лабораторией MIT-IBM.
Источник: news.mit.edu

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.