Может ли ИИ написать ваш код?

26.05.2026 ideipro.ru

Что говорит нам недавнее исследование ChatGPT, Python, R и Stata о кодировании с помощью ИИ для причинно-следственного анализа

Делиться

NOVOSTI — Изображение сгенерировано с помощью ChatGPT

А что, если настоящий вопрос уже не в том, может ли ИИ писать код, а в том, можем ли мы доверять коду, который он пишет?

В последние несколько лет ChatGPT и другие крупные языковые модели стали все более распространены в повседневной работе студентов, аналитиков, исследователей и специалистов по обработке данных. Многие из нас уже использовали инструменты ИИ для генерации функций на Python, отладки сообщений об ошибках, автоматизации повторяющихся задач или быстрого перевода кода с одного языка на другой.

Однако существует существенная разница между просьбой к ChatGPT написать небольшую вспомогательную функцию и просьбой реализовать сложный эконометрический метод.

Может ли ChatGPT корректно запрограммировать модель «разность разностей»? Может ли он реализовать взвешивание по методу обратной вероятности? Может ли он воспроизвести анализ разрыва регрессии? Может ли он сделать это не только на Python, но и на R и Stata?

Именно поэтому статья Винберга и др. «Может ли ИИ написать ваш код? Пример использования возможностей статистического кодирования ChatGPT для количественных исследований» сразу же привлекла мое внимание. Статья была опубликована онлайн 22 января 2026 года в журнале Health Economics Review. Авторы оценивают способность ChatGPT-4.0 Pro генерировать код для задач причинно-следственного анализа на Python, R и Stata , используя эталонные решения из книги Скотта Каннингема «Причинно-следственный анализ: сборник».

Большинство статей, которые я читал ранее на эту тему, были посвящены относительно простым задачам программирования: небольшим автоматизациям, описательной статистике, очистке данных, базовому анализу данных или генерации кода на таких языках, как Python, R и SAS. Это исследование идет дальше. В нем задается вопрос, может ли ChatGPT поддерживать количественные исследования в более сложных условиях, где код является не только техническим, но и методологическим.

Авторы сосредоточиваются на трех широко используемых методах причинно-следственного анализа:

Разность разностей, также называемая разностью разностей;
Метод взвешивания обратной вероятности лечения (IPTW);
Регрессионный разрыв, или РД.

В этой статье я структурированно рассмотрю данное исследование. Во-первых, мы представим, чем это исследование отличается от других количественных исследований. Во-вторых, мы рассмотрим методологию, использованную авторами. В-третьих, мы рассмотрим, как оценивалась производительность ChatGPT. Наконец, мы обсудим, как рост числа программ магистратуры изменил мой собственный подход к работе.

Чем отличается это исследование?

Во многих предыдущих исследованиях возможности ChatGPT в области программирования оценивались с помощью субъективной оценки. Другими словами, исследователи просматривали сгенерированный код и оценивали, кажется ли он правильным.

Такой подход полезен, но имеет ограничение: он в значительной степени зависит от суждения оценщика.

Винберг и др. используют более структурированный подход. Они сравнивают сгенерированный ChatGPT код со стандартизированным эталонным кодом и результатами бенчмарка из Causal Inference: The Mixtape. Это позволяет им оценивать код не только по внешнему виду, но и по тому, воспроизводит ли он ожидаемые результаты.

Ещё одним важным вкладом является то, что в исследовании используется программа Stata .

Это важно, потому что многие эмпирические исследователи, особенно в экономике, государственной политике и экономике здравоохранения, по-прежнему широко используют Stata. Однако обсуждения помощников по программированию на основе ИИ часто в основном сосредоточены на Python и R. Включив Stata, авторы оценивают ChatGPT на языке, который очень актуален для прикладных эконометрических исследований, но реже анализируется в исследованиях по программированию на основе ИИ.

Методология, использованная в исследовании

Авторы оценивают ChatGPT-4.0 Pro , платную версию ChatGPT, доступную на момент исследования. Их цель — измерить, насколько хорошо она справляется с кодированием причинно-следственных анализов на Python, R и Stata.

Они используют общедоступные данные и наборы задач из учебника «Causal Inference: The Mixtape». Этот учебник широко известен в прикладной эконометрике и содержит примеры с кодом на языках R, Stata и Python. Согласно исследованию, в качестве эталонных сред использовались R 3.6.0 , Stata 18 и Python 3.13 .

Авторы рассматривают три метода причинно-следственного анализа:

Разность разностей;
Взвешивание по методу обратной вероятности лечения;
Разрыв регрессии.

Эти методы были выбраны потому, что они широко используются в эмпирических исследованиях и требуют большего, чем простое создание синтаксиса. Они требуют надлежащей подготовки данных, спецификации модели и интерпретации результатов.

Исследование проводится в три этапа.

Использование задач по эконометрике в ChatGPT для стимулирования работы с данными.

Первый шаг — предоставить ChatGPT наборы задач и попросить сгенерировать код для соответствующих эконометрических анализов.

Например, один из наборов задач посвящен методу разности разностей. Контекст – легализация абортов в пяти штатах США до общенациональной легализации после решения по делу «Роу против Уэйда» в 1973 году. Задача состоит в том, чтобы оценить, повлияла ли ранняя легализация абортов на заболеваемость гонореей среди девушек-подростков в возрасте 15–19 лет.

Вместо использования лишь простого показателя после лечения, в запросе к ChatGPT предлагается использовать взаимодействие года и лечения для отслеживания динамических эффектов лечения с течением времени.

Этот тип запроса сложнее, чем запрос на простую регрессию. Он требует от модели понимания контекста политики, определения индикатора воздействия, структурирования членов взаимодействия и генерации соответствующего кода.

Авторы определяют схожие наборы задач для IPTW и RD.

Запрос на предоставление полных рабочих процессов кодирования.

На втором этапе авторы предоставляют более подробные задания. Эти задания просят ChatGPT воспроизвести более полные задачи по кодированию из The Mixtape, включая управление данными, эконометрический анализ и создание графиков.

Это важно, потому что реальные рабочие процессы в исследованиях редко ограничиваются одной командой моделирования. Обычно исследователю приходится импортировать данные, очищать переменные, создавать индикаторы, оценивать модели, генерировать таблицы, строить графики и сравнивать результаты.

Путем тестирования полных рабочих процессов авторы оценивают, может ли ChatGPT справиться с практической сложностью прикладной количественной работы.

Запуск кода и сравнение результатов

На третьем этапе сгенерированный код выполняется в соответствующей среде программирования: Python, R или Stata.

Затем авторы сравнивают результаты, полученные с помощью кода, сгенерированного ChatGPT, с эталонными результатами, полученными с помощью The Mixtape.

Как были сгенерированы подсказки

Одним из наиболее интересных аспектов исследования является способ разработки вопросов.

Авторы привлекли четырех исследователей с углубленными знаниями в области эконометрических методов. Двое имели докторскую степень, а двое были кандидатами наук. Трое исследователей были назначены для работы с одним языком программирования: Python, R или Stata. Четвертый исследователь воспроизвел весь процесс на всех трех языках, чтобы подтвердить результаты и оценить их согласованность.

Данная модель полезна, поскольку отражает то, как исследователи могли бы использовать ChatGPT на практике. Каждый исследователь взаимодействует с моделью, генерирует код, запускает его, отслеживает ошибки и оставляет отзыв.

Однако это также создает риск. Если каждый исследователь будет составлять вопросы независимо, результаты могут отражать различия в стиле формулирования вопросов, а не различия в навыках кодирования ChatGPT.

Чтобы уменьшить это смещение, авторы стандартизировали подсказки. Они совместно разработали подсказки, которые были ясными, структурированными и достаточно общими, чтобы применяться в различных задачах. Цель состояла в том, чтобы предоставить ChatGPT достаточно информации для решения проблемы, не перенастраивая подсказку на какую-либо конкретную задачу.

Качество выходных данных во многом зависит от качества запроса. Если запрос расплывчатый, модель может выдавать общий или некорректный код. Если же запрос слишком конкретный, модель может хорошо справляться с одной задачей, но не сможет её обобщить.

Хороший запрос должен содержать контекст, указывать ожидаемый метод, определять соответствующие переменные, описывать желаемый результат и разъяснять любые предположения.

Пять показателей эффективности

Авторы оценивают производительность ChatGPT по пяти основным показателям: точность, эффективность, вывод ошибок, редактирование и согласованность.

Точность измеряется путем сравнения результатов, полученных с помощью кода, написанного на ChatGPT, с результатами бенчмарка The Mixtape.

Оценка носит бинарный характер: если результат соответствует эталонному значению, он считается точным. Если нет, он считается неточным.

Эффективность измеряется путем сравнения количества команд, используемых в коде, сгенерированном ChatGPT, с количеством команд в стандартном эталонном коде.

Это не идеальный показатель эффективности, но он дает полезное приближение.

Авторы документируют, приводит ли сгенерированный ChatGPT код к ошибкам выполнения.

Это один из наиболее практичных индикаторов. Когда код не выполняется, пользователю необходимо его отлаживать. Если пользователь не понимает метод или язык программирования, это может стать серьезной проблемой.

Редактирование относится к случаям, когда код не приводит к ошибке выполнения, но все же требует уточнения, дополнительного контекста или ручной корректировки для получения правильного результата.

Это особенно важно, поскольку не все ошибки видны. Блок кода может работать без сбоев, но при этом выдавать некорректную модель, неправильное преобразование переменных или вводящий в заблуждение рисунок.

Последовательность оценивается путем воспроизведения. Четвертый исследователь повторяет задания, используя те же подсказки в Python, R и Stata, с новой учетной записью ChatGPT и без истории предыдущих разговоров.

Цель состоит в том, чтобы определить, генерирует ли ChatGPT схожую логику и структуру при отправке разными пользователями одних и тех же запросов.

Это важно, потому что воспроизводимость результатов имеет центральное значение для исследований. Если один и тот же запрос приводит к совершенно разным результатам в разных сессиях, исследователям необходимо тщательно документировать и проверять полученные данные.

Что показало исследование?

Общий вывод сбалансирован. Ниже приведена таблица, summarizing результаты.

Согласно результатам исследования, ChatGPT показал лучшие результаты в Python и R, чем в Stata. Авторы утверждают, что ChatGPT генерировал точный код и результаты в R и Python для большинства задач, в то время как Stata оказалась менее надежной.

Этот результат не является полностью неожиданным.

Python и R широко используются в науке о данных, статистике и машинном обучении. У них также есть большие онлайн-сообщества, обширная документация и множество общедоступных примеров кода. Поскольку большие языковые модели обучаются на больших объемах текстовых и кодовых данных, вполне логично ожидать, что они будут показывать лучшие результаты в языках с большим количеством общедоступных примеров.

Тем не менее, к такой интерпретации следует относиться с осторожностью. Данное исследование не является масштабным сравнительным анализом тысяч задач. Это тематическое исследование, основанное на выбранных наборах эконометрических задач. Поэтому мы не должны делать вывод о том, что ChatGPT универсально лучше работает с Python или R, чем Stata во всех контекстах.

Более осторожный вывод таков:

В задачах причинно-следственного анализа, протестированных в этом исследовании, ChatGPT оказался более надежным инструментом в Python и R, чем в Stata.

Что изменил мой собственный подход к работе благодаря появлению программ магистратуры в области права (LLM)?

Что делает это исследование особенно интересным для меня, так это то, что оно затрагивает не только теоретический вопрос. Оно напрямую связано с тем, что я наблюдаю в своей работе, как дома, так и в профессиональной среде. Раньше мы использовали ChatGPT Pro 4.0, а сегодня — ChatGPT Pro 5.5. В этом разделе я хочу объяснить, как внедрение этих моделей изменило мой подход к работе.

Раньше, когда мне приходилось проводить количественное исследование или разрабатывать статистическую методологию, значительная часть работы уходила на обзор литературы. Мне нужно было найти подходящие научные статьи, понять используемые методы, сравнить различные подходы, а затем решить, как применить их к нашим собственным данным.

Сегодня, благодаря ChatGPT, этот этап исследования проходит гораздо быстрее. Он не заменяет критическое чтение научных статей, но помогает структурировать первоначальное исследование, быстрее выявлять ключевые концепции и более четко формулировать методологические вопросы.

Изменения стали еще более заметны на рабочем месте, особенно в том, как мы используем языки программирования.

Ранее мы в основном использовали SAS для извлечения, подготовки и обработки данных. SAS остается очень эффективным инструментом для обработки больших объемов данных в профессиональной среде. Однако для статистического моделирования мы часто полагались на R , который был более удобен для оценки, визуализации и методологических экспериментов.

С ростом популярности программ LLM мы постепенно решили перевести значительную часть нашей работы на Python . Это решение было продиктовано не только простотой и широким распространением Python, но и очень практическим наблюдением: по нашему опыту, такие инструменты, как ChatGPT, как правило, дают лучшие ответы на Python, с меньшим количеством ошибок и большим количеством примеров, которые можно использовать повторно.

Мы не проводили столь же структурированного научного исследования, как работа Винберга и др., но пришли к этому выводу на основе отзывов специалистов по моделированию в нашей команде и в рамках долгосрочного стратегического решения. На практике ИИ повлиял не только на то, как мы пишем код, но и на используемую нами инфраструктуру. Мы перешли от среды, ориентированной на SAS Studio и RStudio, к рабочему процессу, более ориентированному на VS Code , поскольку он легче интегрируется с такими инструментами, как ChatGPT, Claude и GitHub Copilot.

Этот сдвиг может выглядеть технически сложным, но на самом деле он довольно глубокий. Искусственный интеллект не только повышает производительность, но и влияет на выбор языков программирования, используемых инструментов и организацию рабочих процессов.

Еще один конкретный пример — сбор внешних данных. В нашей работе нам иногда требуются общедоступные наборы данных: данные INSEE, климатические данные, данные МГЭИК, сценарии NGFS для стресс-тестирования климата или другие наборы данных, используемые в моделировании рисков ESG.

Раньше выполнение подобных задач могло занимать несколько дней, а иногда и несколько недель. Нам приходилось находить нужный источник, понимать структуру файлов, скачивать данные, очищать их, переформатировать и делать пригодными для использования в наших моделях. Сегодня, благодаря LLM-моделям, этот процесс можно значительно ускорить.

Например, недавно мне понадобилось получить коды NAF с веб-сайта INSEE вместе с их обозначениями в формате, пригодном для непосредственного использования. Раньше эта задача, вероятно, заняла бы у меня несколько часов. С помощью нескольких хорошо структурированных подсказок я быстро получил скрипт, который извлек данные, очистил коды, удалил точки и создал готовый к использованию файл Excel. Это не только экономия времени, но и снижение трения между идеей и ее реализацией.

На мой взгляд, это один из важнейших вкладов программ LLM для статистиков и специалистов по количественному анализу. Они очень полезны для обработки данных, статистического моделирования, математического программирования, составления отчетов и форматирования результатов.

Они также стали ценными инструментами для создания конечных результатов: структурирования документов, улучшения пояснений, форматирования таблиц, описания рисунков и интерпретации результатов. Более ранние версии ChatGPT по-прежнему допускали множество ошибок в этих задачах, особенно в технических рассуждениях и ссылках. Современные модели значительно лучше, хотя они все еще требуют тщательной проверки.

В своей работе я рассматриваю их скорее как очень быстрых научных сотрудников, чем как самостоятельных экспертов. Они могут за несколько часов сделать то, что раньше мы могли бы поручить научному сотруднику на несколько дней: изучить метод, предложить код, создать первую версию диаграммы, переписать интерпретацию или автоматизировать часть отчета.

Но такая скорость достигается при одном условии: человеческий контроль и проверка по-прежнему имеют важное значение .

Риск галлюцинаций не является теоретическим. Недавний пример это наглядно продемонстрировал: по данным Financial Times, компания EY Canada отозвала исследование, использовавшееся для продвижения своих услуг в области кибербезопасности, после того, как выяснилось, что оно содержит сфабрикованные данные, неверно указанные источники и даже ссылку на несуществующий отчет McKinsey.

Именно поэтому исследование Винберга и соавторов кажется мне интересным. Оно не просто задаёт вопрос, может ли ChatGPT писать код. Оно указывает на более важный вопрос: при каких условиях мы можем доверять коду, сгенерированному ИИ?

Для меня ответ очевиден. Мы можем использовать LLM-ы для ускорения работы, но не для снятия ответственности с исследователя. Исследователю по-прежнему необходимо проверять предположения, подтверждать достоверность данных, тестировать код, сравнивать результаты с эталонными показателями и убедиться в правильности интерпретации.

Иными словами, ИИ кардинально меняет наш подход к работе, но не отменяет необходимости в экспертных знаниях. Напротив, экспертные знания становятся еще более важными. Чем мощнее становится инструмент, тем важнее понимать, когда ему можно доверять, а когда нет.

Наконец, внедрение инструментов искусственного интеллекта продолжит трансформировать наш подход к работе. Некоторые процессы станут более эффективными, другие исчезнут, а появятся более сложные рабочие процессы. Чтобы оставаться конкурентоспособными, нам необходимо постоянно учиться, продолжать работать и быть готовыми интегрировать эти инструменты в нашу профессиональную жизнь.

В то же время, ИИ изменит и способы создания и распространения знаний. Поскольку эти инструменты повышают производительность, статью, на написание которой раньше требовался месяц, теперь иногда можно завершить за неделю. Это хорошо во многих отношениях: снижает барьер для написания текстов, помогает большему количеству людей обмениваться идеями и ускоряет распространение знаний.

Но это также создает новую проблему. Если каждый сможет создавать больше контента быстрее, интернет станет еще более переполненным. Охват каждой статьи может измениться. Некоторые авторы могут почувствовать себя обескураженными, особенно если их работы получают меньше внимания, несмотря на приложенные усилия.

На мой взгляд, это создаст новую форму неравенства между теми, кто умеет эффективно использовать ИИ, и теми, кто не умеет, а также между теми, кто пишет только для создания контента, и теми, кто пишет, потому что им действительно небезразлична тема.

В долгосрочной перспективе, я считаю, останутся те, кто по-настоящему увлечен своим делом, кто хочет учиться, глубоко размышлять и делиться знаниями с другими. Искусственный интеллект может ускорить процесс написания текстов, но он не заменит любопытство, дисциплину и желание внести значимый вклад.

Ссылки

Винберг, Д., Цай, Э., Тан, Т., Сюань, Д., Марчи, Н., и Ши, Л. (2026). Может ли ИИ написать ваш код? Пример использования возможностей статистического кодирования chatgpt для количественных исследований. Обзор экономики здравоохранения.

JUNIOR JUMBONG Посмотреть все товары от JUNIOR JUMBONG

Источник: towardsdatascience.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Может ли ИИ написать ваш код?

Чем отличается это исследование?

Методология, использованная в исследовании

Использование задач по эконометрике в ChatGPT для стимулирования работы с данными.