Строка поиска с курсором и лупой на синем фоне.

Разработка ученых НГУ упростит и ускорит создание национальных поисковых систем

d7c53a1ccbe918094d3b901ac6276add

Магистрант Факультета информационных технологий (ФИТ) НГУ Даниил Лютаев под научным руководством Владимира Борисовича Барахнина, доктора технических наук, профессора кафедры системы информатики ФИТ НГУ, разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и так далее) с использованием больших языковых моделей. Данный метод найдет применение во многих областях — создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и других сферах.

Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и другое) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский.

Изначально у исследователя был большой набор предложений (около 10000) на узбекском языке, в котором эксперты вручную разметили именованные сущности. Документ представлял собой таблицу, в которой напротив каждого слова есть определенный тег, похожий на язык разметки html, он показывает, является ли это слово частью именованной сущности или нет. Задача исследователя состояла в том, чтобы автоматически перенести эти предложения на другой язык с сохранением разметки.

«Это позволяет масштабировать размеченные данные на новые языки без повторных трудозатрат, разметка делается один раз, а переносится автоматически многократно», — поясняет Даниил.

Магистрант опирался на два традиционных подхода: перевод предложений и сущностей через переводчик и алгоритмическое сопоставление; перевод предложений через переводчик и выделение именованных сущностей без учета исходной разметки с помощью предобученных моделей. А также предложил свой подход — использовать большие языковые модели — в данном случае GPT-4o. Для каждого предложения формулировалась задача в определенном формате с примерами ответов. Все три метода сравнивались по стандартным метрикам, таким как точность, полнота, F1-мера (гармоническое среднее между двумя первыми параметрами), на 30 предложениях на русском и 30 предложениях на английском языках, которые были вручную размечены (исходный язык был узбекский).

В результате было установлено, что разметка может быть перенесена с высокой точностью (F1-мера ~ 0.9) даже при работе с морфологически разными типами языков: узбекский относится к агглютинативным языкам, русский – к флективным, английский – к изолирующим. В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке – например, на том, для которого требуются более низкие финансовые затраты.

«Смысл нашей работы заключался в том, чтобы показать, что LLM можно использовать для решения такой задачи эффективно и автоматически получить разметку на другом языке. Результат алгоритма переноса разметки уже может применяться во многих областях — поисковых системах, классификации документов, построении сетей связей, переводе, а также для самих моделей выделения именованных сущностей, где нужны наборы размеченных данных», — рассказывает Даниил.

Для подтверждения результатов дополнительно была проведена автоматическая оценка обратного перевода, то есть исходное предложение на узбекском переводили на целевой язык, например, русский, далее брали полученное русское предложение и переводили обратно на узбекский, потом сравнивали этот обратный перевод с оригиналом на семантическую схожесть. Такая оценка автоматизирована для любого количества предложений. Вторая оценка – сравнение семантической схожести на целевом языке результата приложения и эталонного предложения, дополнительно размеченного вручную. В работе показано, что эти две оценки коррелируют для 30 вручную размеченных предложений на русском и английском языках.

Разработанный подход может внести свой вклад в достижение информационного суверенитета и создание национальных поисковых систем. Помимо Google, который сейчас фактически охватил весь мир, свои полноценные национальные поисковики есть только в России (Яндекс) и в Китае (Baidu). Однако на земном шаре есть достаточно большое население, которое говорит на испанском, арабском, индийском, немецком языках. При этом суверенных поисковых систем в таких странах нет.

«Существующие поисковики не раскрывают алгоритмы, по которым они построены, при этом они обладают огромными ресурсами, которые большинству стран недоступны. Наша же задача состоит в том, чтобы разработать систему, которую можно воспроизвести. Научное знание является воспроизводимым и общедоступным, а наши алгоритмы являются частью науки и технологий. Кроме того, они в реализации относительно простые и дешёвые. Таким образом, то, что делает Google, мы делаем реально доступным. Это в том числе вносит свой вклад в решение вопроса национального суверенитета в информационных технологиях, что чрезвычайно важно. Разработанный нами алгоритм будет помогать развивать национальные сегменты интернета в странах Содружества Независимых Государств, таких как Узбекистан и Казахстан», — поясняет Владимир Барахнин.

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: НГУ, новости, Поисковые Системы, Разработка, Создание, ученые

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Image Not Found
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.

Преодоление разрыва в операционном применении ИИ

Интеграция в масштабах всего предприятия используется для распространения современных автоматизированных процессов на завтрашние рабочие процессы, осуществляемые агентами. Трансформационный потенциал ИИ уже хорошо известен. Примеры его применения в корпоративной среде набирают обороты, и организации переходят от пилотных проектов…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых