Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

ИИ против русского налогового права, часть 2: тестируем топовые reasoning LLM на RuTaR

Июл 23, 2025 0

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR

В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”.

Однако, как вполне справедливо отметили некоторые читатели, мы не протестировали «настоящие» reasoning-модели — те, что спроектированы специально для выполнения сложных логических рассуждений, и занимают верхние строчки в соответствующих бенчмарках.

Мы решили исправиться.

После небольшого ресерча мы остановились на Qwen QwQ 32B, DeepSeek R1, Google Gemini 2.0 Flash Thinking, а также o1 и 04-mini от OpenAI. Кажется, что подобный выбор едва ли нуждается в обосновании — перечисленные модели — это флагманы среди reasoning-ориентированных LLM. Однако не менее интересным было посмотреть на то, как со схожей задачей справляются топовые отечественные LLM, такие, как GigaChat 2 Max от Сбера и Yandex GPT 5 Pro от, кто бы мог подумать, Яндекса. Последняя, являясь флагманской моделью семейства YandexGPT, с недавних пор также начала поддерживать функцию reasoning, что позволяет назвать проведенное сравнение относительно честным 🙂

На этот раз мы сфокусировались на следующих моделях:

Qwen QwQ 32B
DeepSeek R1
Gemini 2.0 Flash Thinking
OpenAI o1
OpenAI o4-mini

Также тестовая выборка пополнилась двумя отечественными разработками:

GigaChat 2 Max (Сбер)
Yandex GPT 5 Pro

Подобный выбор LLM объясняется просто: это либо флагманы среди reasoning-ориентированных LLM, либо — в случае с отечественными — топовые публичные решения, заявляющие поддержку аналогичных возможностей. C недавних пор Yandex GPT 5 Pro также была оснащена режимом рассуждений (https://yandex.cloud/ru/docs/foundation-models/concepts/yandexgpt/chain-of-thought), а Сбер заявляют о том, что активно тестирует эту функцию и в ближайшее время снабдят ей свой GigaChat (https://lenta.ru/news/2025/06/18/sberbank-nachal-testirovat-novuyu-versiyu-gigachat-s-funktsiey-reasoning).

Итак, перейдем к результатам…

У всех моделей точность, полнота и F-мера по правильным ответам увеличиваются по сравнению с не-reasoning моделями. Нельзя сказать, что прирост колоссальный — порядка 10%, — но всё же заметный. Как и в случае с не-reasoning моделями, использование RAG-пайплайна даёт ощутимый прирост по качеству. особенно “прибавляет” от внешней информации Gemini (+0.12 accuracy между no_rag и fine-tuned) и Qwen(+0.11 между no_rag и perfect).

Что касается отечественных моделей, то самым приятным удивлением стал GigaChat 2 Max — модель уверенно конкурирует с международными лидерами, особенно в fine-tuned режиме (accuracy = 0.822). Не сильно отстаёт и Yandex GPT 5 Pro: в perfect-пайплайне она набрала 0.819, что ставит её в одну лигу с o4-mini. И это при том, что Yandex GPT 5 Pro трестировалась с включенным режимом рассуждений, а в GigaChat 2 Max он на данный момент отсутствует.

Однозначными лидерами оказались модели OpenAI o1 и DeepSeek R1. При этом, хоть точность их ответов и зависит от используемых RAG-пайплайнов, они уверенно лидируют вне зависимости от наличия доступа к внешним данным. Особенно впечатляет o1 в режиме perfect (accuracy = 0.840), а также в basic (accuracy = 0.837). Это, в некотором роде, подтверждает нашу гипотезу о главенстве reasoning’а в юридическом дискурсе и неабсолютной ценности контекста в RAG-системах, ориентированных на право.

⸻

Если вы тоже работаете на стыке права и информационных технологий или ищете интеллектуальные решения по оптимизации бизнес-процессов в своей компании — будем рады сотрудничеству.

Итоговый датасет доступен на GitHub и распространяются по открытой лицензии.

📁 Датасет: https://github.com/rutar-anonymous/RuTaR

🧠 Статья: https://dialogue-conf.org/wp-content/uploads/2025/04/AlibekovAetal.075.pdf

💬 Вопросы, предложения, багрепорты, коллаборации — пишите в комментарии здесь или в личку Александру Мигалю.

Источник: habr.com

✅ Найденные теги: ИИ, новости

Метки:

ИИ новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

22.07.2025

Забираем список ЛУЧШИХ опенсорсных моделей для кодинга — идеально для…

СЛЕДУЮЩАЯ ЗАПИСЬ

23.07.2025

В тонких пленках соединений металлов обнаружились новые магнитные эффекты

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

ИИ против русского налогового права, часть 2: тестируем топовые reasoning LLM на RuTaR

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в