Image

Новый проект делает данные Википедии более доступными для ИИ

На сенсорной панели открытого MacBook находится логотип Wikipedia, напечатанный на 3D-принтере.
Источники изображений: Wikimedia Commons (открывается в новом окне)

В среду Wikimedia Deutschland анонсировала новую базу данных, которая сделает богатство знаний Википедии более доступным для моделей искусственного интеллекта.

Система, получившая название Wikidata Embedding Project, применяет векторный семантический поиск — метод, который помогает компьютерам понимать значение и взаимосвязи между словами — к существующим данным в Wikipedia и родственных ей платформах, состоящим из почти 120 миллионов записей.

В сочетании с новой поддержкой протокола контекста модели (MCP), стандарта, который помогает системам ИИ взаимодействовать с источниками данных, проект делает данные более доступными для запросов на естественном языке от LLM.

Проект был реализован немецким филиалом Wikimedia в сотрудничестве с компанией нейронного поиска Jina.AI и компанией DataStax, предоставляющей данные для обучения в режиме реального времени и принадлежащей IBM.

Wikidata уже много лет предоставляет машиночитаемые данные из ресурсов Wikimedia, но существующие инструменты позволяют выполнять только поиск по ключевым словам и запросы на SPARQL, специализированном языке запросов. Новая система будет лучше работать с системами генерации дополненной поисковой информации (RAG), которые позволяют моделям ИИ получать доступ к внешней информации, предоставляя разработчикам возможность основывать свои модели на знаниях, проверенных редакторами Wikipedia.

Данные также структурированы для обеспечения важного семантического контекста. Например, запрос к базе данных по слову «ученый» выдаст списки выдающихся учёных-атомщиков, а также учёных, работавших в Bell Labs. Также доступны переводы слова «ученый» на разные языки, изображение учёных за работой, одобренное Викимедиа, и экстраполяции на связанные понятия, такие как «исследователь» и «ученый».

База данных доступна публично на Toolforge. Wikidata также проведёт вебинар для заинтересованных разработчиков 9 октября.

Новый проект появился в то время, когда разработчики искусственного интеллекта (ИИ) отчаянно ищут высококачественные источники данных для тонкой настройки моделей. Сами системы обучения стали сложнее — зачастую они представляют собой сложные обучающие среды, а не простые наборы данных, — но для их эффективной работы по-прежнему требуются тщательно отобранные данные. Для развёртываний, требующих высокой точности, потребность в надёжных данных особенно острая. И хотя некоторые могут с пренебрежением относиться к Википедии, её данные значительно более фактологичны, чем универсальные наборы данных, такие как Common Crawl, представляющие собой огромную коллекцию веб-страниц, собранных со всего интернета.

В некоторых случаях стремление к получению высококачественных данных может иметь дорогостоящие последствия для лабораторий ИИ. В августе компания Anthropic предложила урегулировать судебный процесс с группой авторов, чьи работы использовались в качестве учебных материалов, согласившись выплатить 1,5 миллиарда долларов, чтобы положить конец любым обвинениям в неправомерных действиях.

В заявлении для прессы руководитель проекта Wikidata AI Филипп Сааде подчеркнул независимость своего проекта от крупных лабораторий искусственного интеллекта или крупных технологических компаний. «Запуск проекта Embedding Project показывает, что мощный ИИ не обязательно должен контролироваться горсткой компаний», — заявил Сааде журналистам. «Он может быть открытым, коллективным и построенным на служении всем».

Источник: techcrunch.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых