Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Проверка линейных моделей на предмет исследований сверхпроводимости

Могут ли студенты-магистранты стать партнерами по исследованиям экспертного уровня в современной физике? Используя высокотемпературную сверхпроводимость в качестве примера, физики протестировали шесть студентов-магистрантов, задав им сложные вопросы, и оценили их ответы.

Быстрые ссылки

Искусственный интеллект (ИИ) в настоящее время повсеместно используется для составления электронных писем, редактирования изображений и обобщения информации из интернета. ИИ также обладает огромным потенциалом для ускорения научных исследований. Однако его эффективность в предоставлении научно точных и всесторонних ответов на сложные вопросы в специализированных областях остается активной областью исследований, требующей от ИИ чрезвычайно высокой точности и умения ориентироваться в сложных, постоянно развивающихся областях знаний.

В нашей новой статье, опубликованной в журнале Proceedings of the National Academy of Sciences , под названием «Экспертная оценка моделей мира на основе больших языковых моделей: пример высокотемпературной сверхпроводимости», оценивается, могут ли модели мира на основе больших языковых моделей (LLM) отвечать на вопросы экспертного уровня в физике конденсированных сред. В сотрудничестве с Корнельским университетом мы попросили шесть моделей LLM ответить на вопросы высокого уровня по высокотемпературным сверхпроводникам. Затем группа экспертов оценила ответы по нескольким критериям. Мы обнаружили, что лучшие результаты показали два инструмента, использующие замкнутую экосистему сертифицированных, прошедших контроль качества источников: NotebookLM и специально разработанная система. Мы также выявили ключевые области для улучшения во всех изученных системах. Результаты этого тестового примера могут помочь в разработке надежных инструментов для продвижения научных открытий.

В предыдущих работах исследователи Google оценивали, могут ли линейные логические модели (ЛЛМ) выполнять основные аналитические задачи в нескольких научных областях, используя в качестве参考 научные статьи из шести научных дисциплин. В этой работе был представлен CURIE, эталонный тест для оценки ЛЛМ в областях, начиная от биоразнообразия и заканчивая физикой конденсированных сред и секвенированием белков, который включает вопросы, требующие анализа, а не простого пересказа фактов. В других работах исследовалось использование ЛЛМ для интерпретации таблиц и рисунков, их применение для решения уравнений в квантовой механике и для решения инженерных задач моделирования с использованием специализированного программного обеспечения.

Несколько других групп в Google также изучают возможности применения ИИ для продвижения научных исследований: в качестве партнера по разработке новых гипотез; в качестве агента для написания научного программного обеспечения экспертного уровня; и с помощью модели на основе ИИ для анализа отдельных клеток.

Как ориентироваться в открытых исследовательских вопросах

В данной работе мы исследовали, могут ли специалисты в области права выступать в качестве компетентных и непредвзятых партнеров по обмену идеями в специализированных областях, требующих глубоких исследований и способности уравновешивать конкурирующие теории вокруг открытых научных вопросов.

Мы сосредоточились на основных механизмах высокотемпературной сверхпроводимости — открытой области исследований в физике конденсированных сред с момента открытия этого явления, удостоенного Нобелевской премии в 1987 году. В этом исследовании мы сосредоточились на классе медьсодержащих соединений (известных как купраты). Купраты могут проводить электроны с нулевым электрическим сопротивлением при температурах значительно выше, чем у традиционных сверхпроводниковых материалов, хотя и остаются холодными — их самый высокий известный температурный порог составляет примерно -140 градусов Цельсия. Понимание основного механизма этого поведения может помочь открыть больше соединений с аналогичными свойствами, потенциально при более высоких температурах, и может открыть путь к новым областям применения.

За прошедшие десятилетия физики опубликовали тысячи исследований, используя различные экспериментальные методы для изучения квантово-механических свойств, приводящих к сверхпроводимости. Различные исследовательские группы предложили и развили несколько конкурирующих теорий. Огромный объем литературы делает освоение этой базы знаний чрезвычайно сложным для нового поколения. Студентам, начинающим изучать эту область, будет полезен знающий преподаватель, обладающий нейтральной точкой зрения на опубликованные исследования.

LLM для высоко-Tc-1

Аспиранту или опытному исследователю может быть полезен виртуальный партнер по обмену идеями, чтобы быстро освоиться в области высокотемпературных сверхпроводников или изучить будущие направления исследований. Исследователь может задать вопрос, и виртуальный партнер предоставит сбалансированный ответ, отражающий нерешенные вопросы и дискуссии в этой области, а также ссылки на научные публикации. В нашей новой статье мы оценили шесть виртуальных партнеров по обмену идеями в этой задаче и обнаружили, что закрытые системы с тщательно отобранными ссылками предоставляют более точные и адекватно обоснованные ответы.

Пример из практики

Для сравнения влияния использования различных источников данных в исследовании были оценены четыре модели с полным доступом к сети Интернет по сравнению с двумя закрытыми системами, использующими тщательно отобранную базу данных. Для двух закрытых систем двенадцать ведущих международных экспертов в области высокотемпературной сверхпроводимости отобрали 15 научных обзорных статей, чтобы представить обзор данной области с использованием проверенных исходных материалов. Четыре веб-модели имели полный доступ к Интернету, включая 765 экспериментальных и 1553 теоретических статьи в открытом доступе.

HighTc_References

Для создания двух замкнутых систем мы сначала собрали 15 обзорных статей по высокотемпературной сверхпроводимости, предложенных экспертами ( вверху ), а затем извлекли все примерно 3300 ссылок, цитируемых в этих обзорных статьях ( посередине ). Затем мы использовали Gemini для разделения экспериментальных исследований от теоретических работ ( внизу ). В двух замкнутых системах использовалась подборка из 1726 источников, включающая статьи, основанные на экспериментальных данных, и обзорные статьи.

Затем группа экспертов составила 67 вопросов, призванных проверить глубокие знания модели в данной области, например: «При каком уровне легирования происходит переход Лифшица в LSCO?» и «Какие существуют доказательства, подтверждающие сценарий квантовой критической точки в купратах?». Наконец, каждый эксперт оценил эффективность шести различных моделей при ответе на эти тестовые вопросы.

Результаты

Мы оценили шесть моделей LLM: GPT-4o, Perplexity, Claude 3.5, Gemini Advanced Pro 1.5, Google NotebookLM и специально разработанную систему генерации текста с расширенными возможностями поиска (RAG). В рамках процесса слепой оценки эксперты индивидуально оценивали ответы каждой модели по шкале от 0 до 2 по шести показателям:

  • Сбалансированная точка зрения : были ли учтены различные научные точки зрения.
  • Всесторонний характер : Достоверность фактов без упущения важных экспериментов.
  • Краткость : Дать краткий и ясный ответ.
  • Доказательства : Подтверждено доказательствами и ссылками на источники.
  • Визуальная релевантность : Качество предоставленных изображений (применимо к двум программам магистратуры, которые неизменно включали изображения).
  • Качественная обратная связь : Открытые комментарии экспертов.

Из шести LLM-систем NotebookLM выделялась по большинству аспектов в ходе тестирования вслепую. NotebookLM — это продукт, который отвечает на вопросы пользователей на основе библиотеки предоставленных ими документов, в данном случае, библиотеки из 1726 источников, включающей экспериментальные работы и обзорные статьи. Следующей по общему результату оказалась наша собственная система RAG, содержащая те же источники. NotebookLM, Gemini и собственная система RAG вошли в тройку лидеров по обеспечению сбалансированности точек зрения и предоставлению исчерпывающих ответов. Несмотря на то, что NotebookLM была наименее лаконичной, она получила наивысший балл за предоставление доказательств. Показатели релевантности изображений были в целом ниже, при этом собственная система RAG получила более высокий балл, чем другая LLM-система, предоставляющая изображения, — Perplexity.

LLM для высоко-Tc-3

Средние баллы шести LLM, к которым обращались в конце 2024 года, за ответы на вопросы, сформулированные экспертами, которые проверяли знания систем о высокотемпературных сверхпроводниках. Эксперты оценивали ответы по шкале от 2 (хорошо) до 0 (плохо). LLM, которые использовали тщательно отобранные справочные материалы, в частности NotebookLM ( красный ) и специально разработанную систему ( синий ), получили самые высокие общие баллы от экспертов.

Заключение

Из этого тестового примера можно сделать несколько важных выводов. Две модели, которые использовали тщательно отобранные базы данных экспериментальной литературы, NotebookLM и наш собственный инструмент, превзошли модели LLM, обученные на нефильтрованных данных из интернета. В частности, модели, основанные на открытых веб-источниках, как правило, смешивали устоявшиеся теории с весьма спекулятивными.

Проанализированные LLM (доступ к которым был получен в декабре 2024 года) также продемонстрировали недостатки в понимании временных и контекстуальных аспектов. Например, они часто не могли распознать, когда предложенная гипотеза впоследствии была опровергнута. Кроме того, они часто пропускали соответствующие статьи, если в них явно не указывалась точная формулировка, использованная в первоначальном запросе.

Наши результаты в целом подчеркивают необходимость улучшения понимания таблиц и изображений в моделях LLM, поскольку научные статьи широко используют эти форматы. Хотя две из моделей последовательно ссылались на изображения, они часто больше полагались на подписи к изображениям, чем на визуальный анализ. Улучшение возможностей визуального мышления, включая интерпретацию изображений, графиков и масштабных линеек, является важным направлением для дальнейшего совершенствования.

Взгляд в будущее

Надежный партнер в области исследований искусственного интеллекта мог бы помочь быстро ознакомить новых аспирантов с существующей научной литературой и выступать в качестве всегда доступного источника идей. Он также мог бы помочь опытным ученым определить новые направления исследований.

Несмотря на существующие ограничения, наши результаты показывают, что линейные модели могут достичь высокого уровня компетентности в сложных областях, связанных с открытыми исследовательскими вопросами. Однако оценка возможностей модели в специализированных областях зависит от квалифицированных экспертов, чьи знания являются одновременно необходимыми и редкими. Мы продолжаем работать в этой области и представим результаты CMT-бенчмарка на ICLR 2026 в апреле в качестве более строгой оценки линейных моделей в более широкой области теории конденсированных сред. В целом, эти усилия потребовали значительного времени и анализа от экспертов в области физики; мы надеемся, что полученные ими результаты смогут быть использованы для дальнейшего развития надежных инструментов искусственного интеллекта, способствующих научному прогрессу.

Благодарности

Описанное здесь исследование является результатом совместной работы Google Research, Корнельского университета и Гарвардского университета. Мы благодарны многим выдающимся ученым из Стэнфорда, Университета Джонса Хопкинса, Института Флэтайрон, Городского университета Нью-Йорка, Массачусетского технологического института, Корнельского университета и Гарварда, которые сделали это исследование возможным: Стивену А. Кивельсону, Н. П. Армитажу, Антуану Жоржу, Оливье Жинграсу, Доминику Кисе, Чунхану Фэну, Вадиму Оганесяну, Т. Сентилу, Б. Дж. Рамшоу и Субиру Сачдеву. Мы благодарим Хаоюй Гао и студентку-исследовательницу Марию Тихановскую за помощь в формировании исследования и наборов данных. Мы также отмечаем ценный вклад Оливера Кинга и Уэсли Хатчинса в организацию исследования с использованием NotebookLM. Мы благодарим Стефана Хойера за ценные замечания по ранним вариантам рукописи этой работы. Наконец, мы благодарим Джона Платта и Майкла Бреннера за постоянную поддержку и поощрение, которые позволили провести это исследование.

Источник: research.google

✅ Найденные теги: Исследований, Линейных, Моделей, новости, Предмет, Проверка

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Новые модули памяти G.SKILL DDR5 работают со скоростью 9200 MT/s при напряжении 1.1 В Архив рубрики ~Лента новостей~: Show HN: TV Explorer. Добавление расширенного пользовательского интерфейса к бесплатному онлайн-телевидению. Архив рубрики ~Лента новостей~: Основатели компании воспользовались решением индийского суда, чтобы возобновить критику рекламного бизнеса Google. Архив рубрики ~Лента новостей~: God of Prompt продает подборки промтов за 10 тысяч рублей. Вот как устроен такой ИИ-бизнес Архив рубрики ~Лента новостей~: «Мы можем сшить воедино наше прошлое»: созданные искусственным интеллектом путешественники во времени ведут видеоблоги из прошлого. Архив рубрики ~Лента новостей~: Pinterest сократил затраты на ИИ на 90%, убрав слой обработки изображений из перспективной модели. Архив рубрики ~Лента новостей~: [Перевод] IPO компании SpaceX: хорошая попытка, но нет Архив рубрики ~Лента новостей~: Сотрудники xAI говорят, что Илон Маск обещал им 420 долларов, чтобы передать их налоги в Grok, но прижал их к выплате