Архив рубрики ~Лента новостей~
Комплексная оценка больших языковых моделей для медицинских задач с помощью MedHELM.
В-третьих, проведено систематическое сравнение девяти перспективных моделей LLM — Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1, Gemini 1.5 Pro, Gemini 2.0 Flash, GPT-4o, GPT-4o mini, Llama 3.3 и o3-mini — с использованием автоматизированного метода оценки жюри LLM. Передовые модели рассуждений (DeepSeek…
Читать