Архив рубрики ~Обо всем~

Как обучить модель оценки в эпоху искусственного интеллекта

Структурированная методология для сравнения моделей-кандидатов, проверки их стабильности и выбора надежного итогового результата.

Делиться

96af69645599e50c364db80fd26a2829
Изображение сгенерировано с помощью ChatGPT

Весь код, использованный в этом разделе, доступен на GitHub. Бизнес-логика и функции моделирования находятся в каталоге src/selection , а именно в следующем файле:

src/selection/logit_model_selection.py

Соответствующий анализ и результаты задокументированы в:

08_logistic_model_selection.qmd

Благодаря искусственному интеллекту стало проще генерировать код, автоматизировать обучение моделей, сравнивать метрики и создавать сводные таблицы. Несколько хорошо структурированных подсказок теперь могут помочь специалисту по анализу данных написать скрипты на Python, оценить логистическую регрессию, вычислить AUC и коэффициент Джини, построить графики и задокументировать результаты.

Но такая скорость создает риск.

Модель оценки — это не просто алгоритм, который успешно работает. Это не просто модель с наивысшей производительностью на обучающей выборке. В профессиональной среде оценки кредитного риска модель оценки должна быть статистически обоснованной, стабильной во времени, интерпретируемой, соответствовать ожиданиям бизнеса и легко контролируемой после внедрения.

Эта статья является частью более широкой серии статей о создании надежных, интерпретируемых и стабильных моделей оценки. В предыдущих статьях мы рассмотрели основные этапы, предшествующие моделированию: создание наборов данных, проведение разведочного анализа данных, подготовка переменных, предварительный выбор предикторов, проверка стабильности во времени, сравнение выборок для разработки и валидации, а также дискретизация непрерывных переменных.

Теперь перейдем к одному из важнейших этапов: обучению моделей-кандидатов и выбору окончательной модели.

Цель данной статьи — представить понятную методологию обучения нескольких моделей оценки, сравнения их производительности, оценки их стабильности и выбора окончательной модели на основе статистических, деловых и операционных критериев.

Такие инструменты, как ChatGPT, Codex и GitHub Copilot, могут помочь в генерации кода, автоматизации циклов моделирования, проведении статистических тестов, создании сводных таблиц и документировании результатов. В данной работе мы будем использовать Codex и оценивать его способность выполнять каждую из этих задач.

Статья состоит из трех частей. Во-первых, мы представляем наборы данных, использованные в процессе моделирования. Во-вторых, мы описываем методологию, используемую для обучения и оценки моделей-кандидатов. В-третьих, мы объясняем, как анализировать результаты и выбирать окончательную модель.

Наборы данных

В этой статье мы иллюстрируем этот основополагающий шаг, используя набор данных с открытым исходным кодом, доступный на Kaggle: набор данных по кредитному скорингу. Этот набор данных содержит 32 581 наблюдение и 12 переменных, описывающих кредиты, выданные банком отдельным заемщикам.

В ходе этой серии исследований мы применили ряд этапов обработки к этим переменным, чтобы предварительно отобрать переменные-кандидаты для окончательного выбора модели с учетом как статистических, так и нормативных ограничений.

В данном приложении переменные, оставшиеся после этапов предварительного отбора, являются категориальными. Большинство из них имеют две или три модальности. Это соответствует предыдущим этапам методологии, где непрерывные переменные были дискретизированы для улучшения интерпретируемости и упрощения объяснения итогового результата.

Сохраненные переменные:

3184347f60dd63eb0a3fd71377cc8503

Эти переменные являются объясняющими переменными, обозначаемыми как X1,…,XqX_1, …, X_{q}. В данном случае q = 6.

Целевая переменная, обозначенная буквой Y, представляет собой статус дефолта. В данном случае она соответствует переменной loan_status . Она определяется следующим образом:

Y = {1, если заемщик не выполнил свои обязательства; 0, в противном случае Y = begin{cases} 1 & text{если заемщик не выполнил свои обязательства} \ 0 & text{в противном случае} end{cases}

Цель состоит в том, чтобы оценить вероятность дефолта при условии наличия наблюдаемых характеристик:

P(Y=1|X1=x1,X2=x2,…,X6=x6)P(Y = 1 mid X_1 = x_1, X_2 = x_2, dots, X_{6} = x_{6})

Затем полученный результат строится как преобразование этой оценочной вероятности. В случае логистической регрессии это преобразование основано на логит-функции.

Данные разделены на три основные выборки.

Обучающая выборка используется для оценки параметров моделей-кандидатов. В нашем случае она также разделена на четыре части для оценки устойчивости моделей в разных подвыборках.

Тестовая выборка используется для оценки эффективности модели на наблюдениях, которые не использовались непосредственно для оценки коэффициентов. Она помогает определить, насколько хорошо модель обобщается на популяцию, аналогичную выборке для разработки модели.

Выборка, выходящая за рамки текущего момента времени, используется для оценки временной стабильности. Это особенно важно в кредитном скоринге. Модель должна не только хорошо работать на момент разработки, но и оставаться стабильной при применении к другому временному периоду.

Это различие важно, потому что модель может выглядеть сильной на обучающих данных, но значительно ухудшиться на выборке, полученной вне периода обучения. В этом случае модель может быть переобучена или слишком зависима от периода разработки.

Переформулировка проблемы подсчета баллов

Модель оценки позволяет определить взаимосвязь между бинарной целевой переменной YY и набором объясняющих переменных X1, X2, …, X6, X_1, X_2, …, X_6.

Для каждого отдельного пользователя i модель выдает оценку, основанную на предполагаемой вероятности дефолта:

Оценка (xi) = f(P(Yi=1|X1,i,X2,i,…,Xq,i)) Оценка (x_i) = f left(P(Y_i = 1 mid X_{1,i}, X_{2,i}, dots, X_{q,i})right)

В системе кредитного скоринга необходимо ранжировать заемщиков по степени риска. Хорошая модель должна в среднем присваивать более высокие баллы за риск заемщикам, которые допускают просрочку платежей, и более низкие баллы за риск заемщикам, которые этого не делают.

Именно эта способность ранжировать модели объясняет, почему такие показатели дискриминации, как AUC и Gini, играют центральную роль в оценке. Однако одной лишь дискриминации недостаточно. Модель может обладать хорошей прогностической способностью, но при этом быть нестабильной, сложной для интерпретации или несовместимой с бизнес-логикой.

Именно поэтому окончательную модель необходимо выбирать, используя несколько критериев, а не только один показатель производительности.

Почему логистическая регрессия остается эталонной моделью

Поскольку целевая переменная является бинарной, логистическая регрессия представляет собой естественную эталонную модель. Она моделирует логарифм отношения шансов дефолта как линейную комбинацию объясняющих переменных:

log⁡(P(Y=1|X)1−P(Y=1|X))=β0+β1X1+⋯+βqXq log left( frac{P(Y = 1 mid X)}{1 – P(Y = 1 mid X)} right) = beta_0 + beta_1 X_1 + dots + beta_q X_q

Логистическая регрессия имеет ряд преимуществ в контексте оценки. Она предназначена для бинарных результатов, позволяет получать интерпретируемые коэффициенты, дает аналитику возможность проверить направление риска и хорошо понятна статистическим, бизнес- и ИТ-командам. Кроме того, ее относительно легко внедрить в производство.

В эпоху искусственного интеллекта может возникнуть соблазн сразу перейти к более сложным моделям, таким как случайные леса, градиентный бустинг или нейронные сети. Иногда эти модели могут демонстрировать лучшие показатели производительности.

Однако в кредитном скоринге важна не только эффективность, но и объяснимость модели. Модель должна быть также документированной, стабильной и соответствовать ожиданиям бизнеса. По этой причине логистическая регрессия остается надежным эталоном и во многих случаях предпочтительной производственной моделью.

Искусственный интеллект может ускорить процесс моделирования, но он не меняет основных требований к профессиональной модели оценки.

Подготовка категориальных переменных

Поскольку объясняющие переменные являются категориальными, их необходимо преобразовать перед использованием в логистической регрессии.

Каждая категориальная переменная преобразуется в фиктивные переменные. Если переменная имеет n модальностей, она представлена n – 1 индикаторами. Одна модальность сохраняется в качестве эталонной категории.

Это позволяет избежать полной мультиколлинеарности между модальностями. Затем оцененные коэффициенты интерпретируются относительно эталонной категории.

Например, предположим, что переменная имеет три модальности: A, B и C. Если A выбрана в качестве эталонной, модель оценивает один коэффициент для B и один коэффициент для C. Эти коэффициенты измеряют разницу в риске между B и A, а также между C и A.

В данной методологии в качестве эталонной категории выбирается наименее рискованный вариант, то есть вариант с наименьшим процентом отказов в обучающей выборке. Это упрощает интерпретацию: положительные коэффициенты указывают на более высокий риск по сравнению с наиболее безопасным вариантом.

Обучение моделей-кандидатов

После предварительного отбора переменных проверяются все релевантные комбинации переменных-кандидатов.

Цель состоит не просто в том, чтобы определить модель с наивысшей эффективностью обучения. Задача состоит в том, чтобы сохранить модель, удовлетворяющую нескольким требованиям:

  • статистическая достоверность;
  • стабильность бизнеса;
  • достаточная дискриминационная способность;
  • стабильность в разных образцах;
  • разумное количество переменных;
  • ограниченная мультиколлинеарность;
  • Четкая интерпретируемость.

Для каждой комбинации переменных на обучающей выборке строится логистическая регрессия, которая затем оценивается на валидационных выборках.

Каждая модель-кандидат оценивается по четырем группам критериев: статистическая валидация, прогностическая эффективность, стабильность и интерпретируемость.

Этот процесс можно в значительной степени автоматизировать с помощью искусственного интеллекта. Помощник по программированию на основе ИИ может помочь в создании циклов по комбинациям переменных, оценке моделей, сохранении коэффициентов, вычислении метрик и построении сравнительных таблиц.

Критерии статистической валидации

Первый этап оценки касается статистической достоверности.

Глобальное значение

Глобальную значимость можно оценить с помощью критерия отношения правдоподобия. Этот критерий сравнивает полную модель с нулевой моделью, которая включает только свободный член.

Цель состоит в том, чтобы проверить, вносят ли объясняющие переменные в совокупности существенный вклад в объяснение целевой переменной.

Модель, которая не демонстрирует существенного улучшения по сравнению с нулевой моделью, не должна сохраняться, даже если некоторые описательные показатели кажутся приемлемыми.

Индивидуальное значение

Индивидуальная значимость оценивается путем анализа коэффициентов и соответствующих им статистических тестов, таких как тесты Вальда, тесты отношения правдоподобия или p-значения.

В данной методологии выбранные переменные должны быть статистически значимы на уровне 5%. Также следует проверить используемые методы, чтобы убедиться, что каждая из отобранных переменных вносит значимый вклад в дифференциацию риска.

Этот шаг важен, поскольку переменная может казаться в целом полезной, в то время как некоторые из ее характеристик могут быть слабыми, нестабильными или сложными для интерпретации.

Направление риска

Статистической значимости недостаточно. Коэффициенты также должны соответствовать ожиданиям бизнеса.

Если ожидается, что тот или иной вид кредита будет представлять более высокий риск, его коэффициент должен указывать на увеличение вероятности дефолта по сравнению с базовой категорией.

Модель может быть статистически надежной, но ее трудно обосновать, если направление риска не соответствует экономической или деловой логике. В профессиональной оценке рисков подобные несоответствия необходимо тщательно исследовать, прежде чем модель будет принята.

Мультиколлинеарность

Мультиколлинеарность может сделать оценки коэффициентов нестабильными и затруднить интерпретацию. Обычно её оценивают с помощью коэффициента инфляции дисперсии (VIF).

В данной методологии сохраненные модели должны удовлетворять следующим условиям:

VIF < 10

Поскольку переменные являются категориальными, VIF рассчитывается на основе фиктивных переменных, исключая эталонные модальности. Для каждой категориальной переменной мы возвращаем простой статус:

  • OK , если все модальности удовлетворяют ограничению VIF;
  • KO если хотя бы один из методов имеет VIF >= 10.

Это правило помогает исключить модели, в которых объясняющие переменные слишком сильно избыточны.

Качество посадки

Соответствие модели данным можно оценить с помощью таких тестов, как тест Хосмера-Лемешоу. Этот тест сравнивает прогнозируемые вероятности с наблюдаемыми показателями дефолта в различных группах риска.

Его не следует интерпретировать изолированно, но он может предоставить полезную информацию о калибровке.

В данном приложении мы не используем тест Хосмера-Лемешоу напрямую. В нашем рабочем процессе на Python мы не полагаемся на документированную встроенную реализацию этого теста, выполняемую одним вызовом. Поэтому его следует либо написать вручную, либо реализовать с помощью проверенной внешней функции, либо обработать в другой статистической среде. Эта тема будет рассмотрена в отдельной статье.

Показатели эффективности

Эффективность модели оценивается с двух точек зрения.

Первый аспект измеряет дискриминационную способность: способность модели отличать заемщиков, допустивших дефолт, от заемщиков, не допустивших его. Это отражается в кривой ROC, AUC и коэффициенте Джини.

Вторая точка зрения фокусируется на дисбалансе классов и качестве прогнозирования положительного класса. Это отражается показателями полноты, точности, F1-меры и PR-AUC.

ROC-кривая, AUC и коэффициент Джини

Кривая ROC показывает взаимосвязь между частотой истинно положительных и ложноположительных результатов при различных пороговых значениях классификации.

Показатель истинно положительных результатов, также называемый показателем полноты ответа, определяется следующим образом:

TPR = TPTP + FNTPR = frac{TP}{TP + FN}

Он измеряет долю фактических случаев неисполнения обязательств, правильно идентифицированных моделью.

Показатель ложноположительных результатов определяется следующим образом:

FPR = FPFP + TNFPR = frac{FP}{FP + TN}

Он измеряет долю заемщиков, не допустивших просрочки платежей, которые ошибочно классифицируются как допустившие просрочку.

Показатель AUC, или площадь под кривой, суммирует характеристики ROC-кривой. Чем ближе AUC к 1, тем лучше модель ранжирует рискованных и нерискованных заемщиков. Значение AUC, близкое к 0,5, указывает на эффективность, близкую к случайной классификации.

Индекс Джини — это распространенное преобразование показателя AUC в системах кредитного скоринга:

Джини = 2×AUC−1 Джини = 2 × AUC – 1

Значение коэффициента Джини, равное 0, соответствует случайным результатам. Более высокое значение коэффициента Джини указывает на более высокую дискриминационную способность.

Полнота, точность и F1-мера

Когда целевая переменная несбалансирована, полезно дополнить AUC и Gini метриками, ориентированными на класс по умолчанию.

Показатель полноты (recall) измеряет, сколько фактических значений по умолчанию было правильно обнаружено:

Полнота = TP + FN Полнота = frac{TP}{TP + FN}

Показатель точности измеряет, сколько прогнозируемых случаев дефолта действительно являются дефолтами:

Точность = TP + FP Точность = frac{TP}{TP + FP}

Показатель F1-меры объединяет точность и полноту посредством гармонического среднего:
F1 = 2 × Точность × Полнота / Точность + Полнота / (Точность + Полнота)

Этот показатель полезен, когда нам нужно найти баланс между способностью обнаруживать значения по умолчанию и необходимостью минимизировать ложные срабатывания.

Точность-Полнота AUC

Кривая «Точность-полнота» отображает зависимость точности от полноты для различных пороговых значений. Она особенно полезна, когда положительный класс встречается редко.

Показатель PR-AUC следует интерпретировать относительно уровня дефолтов в выборке. Эффективная модель, как правило, должна достигать значения PR-AUC выше наблюдаемого уровня дефолтов.

Условные распределения оценок

Числовые показатели следует дополнять графическим анализом.

Условные распределения баллов для заемщиков, допустивших и не допустивших просрочки платежей, помогают показать, насколько эффективно модель разделяет эти две группы заемщиков.

Хорошая модель должна демонстрировать заметно различающиеся распределения оценок. Если распределения сильно перекрываются, модель обладает ограниченной дискриминационной способностью, даже если некоторые показатели кажутся приемлемыми.

Критерии стабильности

Модель оценки не следует выбирать, основываясь только на результатах обучения. Она должна оставаться стабильной при работе с различными выборками.

По этой причине производительность сравнивается по следующим параметрам:

  • обучающая выборка;
  • тестовый образец;
  • выборка, не совпадающая по времени;
  • валидационные блоки.

Модель с высоким коэффициентом Джини на обучающей выборке, но со значительным ухудшением результатов на тестовой выборке или выборке, не соответствующей текущему моменту обучения, может быть переобучена.

Для учета стабильности мы используем штрафной критерий Джини:

Ginipenalized=mean(Ginifolds)−|Ginitrain−Ginitest|−|Ginitrain−GiniOOT|text{Gini}_{text{penalized}} = text{mean}(text{Gini}_{text{folds}}) – |text{Gini}_{text{train}} – text{Gini}_{text{test}}| – |text{Gini}_{text{train}} – text{Gini}_{text{OOT}}|

Этот критерий поощряет модели, которые сочетают в себе хорошую среднюю производительность по всем фолдам с ограниченным ухудшением между выборками.

Та же логика применима к показателям полноты, точности, F1-меры и PR-AUC.

Основная идея проста: хорошая модель оценки должна показывать хорошие результаты, но при этом стабильно высокие.

Выбор оптимального числа переменных

После определения статистически приемлемых моделей проводится анализ их эффективности в зависимости от количества включенных переменных.

Цель состоит в том, чтобы найти самую компактную модель, обеспечивающую удовлетворительную производительность и стабильность.

Более сложная модель не всегда лучше. Добавление переменных может немного улучшить коэффициент Джини, но также может снизить стабильность, увеличить риск переобучения и затруднить интерпретацию результатов.

Итоговая модель должна обеспечивать баланс:

  • производительность;
  • стабильность;
  • интерпретируемость;
  • простота;
  • деловая стабильность.

При оценке результатов этот баланс зачастую важнее, чем максимизация какого-либо одного показателя.

Модель с шестью стабильными, интерпретируемыми переменными может быть предпочтительнее модели с десятью переменными и несколько более высоким коэффициентом Джини на этапе обучения.

Роль больших языковых моделей

В данной статье код для обучения, сравнения и отбора создан с помощью инструмента искусственного интеллекта, а именно Codex с усовершенствованной моделью рассуждений.

Цель состоит не в том, чтобы делегировать ИИ статистические оценки. Цель состоит в том, чтобы использовать ИИ в качестве ускорителя для выполнения повторяющихся и технических задач.

Искусственный интеллект может помочь в создании скриптов для подготовки данных, автоматизации комбинаций переменных, оценке логистической регрессии, вычислении показателей производительности, проверке статистических ограничений, сравнении результатов обучения, тестирования и вневременного анализа, создании сводных таблиц и документировании рабочего процесса.

Это делает ИИ мощным методологическим помощником.

Однако результаты все равно необходимо проанализировать. Статистические тесты должны быть правильно интерпретированы. Коэффициенты должны быть проверены. Необходимо подтвердить согласованность бизнес-процессов. Необходимо оценить стабильность. Окончательную модель должен выбирать аналитик, а не инструмент.

Представление результатов

Результаты должны соответствовать той же логике, что и процесс выбора модели.

Сначала необходимо представить количество переменных-кандидатов, количество протестированных комбинаций и количество моделей, исключенных на каждом этапе. Это сделает процесс отбора прозрачным.

Во-вторых, представьте статистически приемлемые модели. Это модели, удовлетворяющие основным критериям валидации: общая значимость, значимость переменных, согласованное направление риска, приемлемые уровни VIF и стабильные коэффициенты.

В-третьих, сравните оставшиеся модели, используя показатели производительности и стабильности:

  • средний коэффициент Джини по всем фолдам;
  • поезд Джини;
  • тест Джини;
  • вневременной коэффициент Джини;
  • Разрыв между обучающей и тестовой версиями;
  • разрыв в расписании поезда;
  • штрафной коэффициент Джини;
  • отзывать;
  • точность;
  • F1-мера;
  • PR-AUC.

Наилучшая модель для каждого количества переменных, удовлетворяющая всем статистическим ограничениям и ограничениям устойчивости, представлена в таблице ниже.

0497d2e74acf9e425ee1a17e67182b77

Выбор окончательной модели зависит от поставленной задачи. В данном случае выбрана модель 4. Стандартная частота использования обучающего набора данных составляет 22%, что устанавливает минимальный пороговый показатель PR-AUC примерно на уровне 22%. Эффективная модель должна достигать показателя PR-AUC значительно выше этого порога.

Модель 5 демонстрирует наилучшие показатели штрафованного PR-AUC, наилучший штрафованный показатель полноты и наилучший штрафованный показатель F1-меры. Если основной задачей является оперативное обнаружение дефолтов с использованием порогового значения классификации, модель 5 является привлекательным вариантом.

Однако для модели оценки основным критерием остается способность ранжировать риски — то есть индекс Джини, — особенно на тестовых и вневременных наборах данных, а в нашем случае — штрафованный индекс Джини.

Модель 4 предлагает наилучшее соотношение цены и качества по следующим причинам:

  • Он достигает наивысшего штрафного коэффициента Джини — 56,01% , что отражает сильную и стабильную дискриминационную способность в различных наборах данных.
  • Эта модель незначительно превосходит модель 3 за счет включения переменной cb_person_default_on_file , которая добавляет значимую информацию о рисках.
  • Показатель PR-AUC, учитываемый при расчете штрафных санкций, составляет 48,44% , что значительно выше уровня неплатежей в 22%, подтверждая способность модели выявлять заемщиков, допускающих просрочку платежей.
  • Благодаря наличию всего 4 переменных , модель остается легко интерпретируемой и понятной для бизнес-подразделений и органов управления.

По этим причинам в качестве окончательной модели для оценки выбрана Модель 4. Оцененные коэффициенты этой модели представлены в таблице ниже:

f59a9b39bf43b2247aa8b4895342b3d7

Наконец, приведенная ниже диаграмма суммирует эффективность распознавания финальной модели, представляя индекс Джини для обучающего, тестового и дополнительного наборов данных. Результаты подтверждают отсутствие переобучения, поскольку значения индекса Джини остаются неизменными во всех трех наборах данных.

5fabf76162088232df4bc78bca6d33c0

Модель была сохранена в Python с использованием формата pickle для дальнейшего использования, например, для вычисления оценок для различных контрагентов в рамках портфеля.

Заключение

В данной статье мы представили ключевые этапы выбора наилучшей модели-кандидата, которая впоследствии будет использоваться для построения шкалы, способной различать контрагентов в рамках розничного портфеля, используя логистическую регрессию в качестве базовой модели.

Результаты показывают, что четырехпеременная модель обеспечивает наилучший компромисс между дискриминационной способностью, прогностической способностью и временной стабильностью. При коэффициенте Джини приблизительно 60% и показателе PR-AUC приблизительно 49% она демонстрирует как высокую способность ранжирования рисков, так и значимую способность выявлять заемщиков, допустивших дефолт, — значительно выше базового уровня в 22%, установленного наблюдаемым уровнем дефолта.

В ходе этой работы мы использовали агент Codex от OpenAI для помощи в написании кода и создании диаграмм. Результаты генерировались путем указания желаемого формата без каких-либо дополнительных ручных настроек. Качество результатов было неизменно высоким, что подтверждает, что подобный инструмент может служить надежным методологическим помощником и, вероятно, окажет существенное влияние на разработку моделей оценки в будущем.

В следующей части мы представим, как рассчитываются баллы для различных контрагентов в портфеле, а также индивидуальный вклад каждой переменной в итоговый балл.

Ссылки

[1] Лоренцо Беретта и Алессандро Сантаньелло.
Алгоритмы заполнения пропущенных данных методом ближайшего соседа: критическая оценка.
Национальная медицинская библиотека, 2016.

[2] Nexialog Consulting.
Traitement des données manquantes в банковской среде.
Рабочий документ, 2022 год.

[3] Джон Т. Хэнкок и Таги М. Хошгофтаар.
Обзор категориальных данных для нейронных сетей.
Журнал больших данных, 7(28), 2020.

[4] Мелисса Дж. Азур, Элизабет А. Стюарт, Константин Франгакис и Филип Дж. Лиф.
Метод множественной импутации с помощью цепных уравнений: что это такое и как он работает?
Международный журнал методов психиатрических исследований, 2011.

[5] Маджид Сармад.
Надежный анализ данных для факторных экспериментальных планов: усовершенствованные методы и программное обеспечение.
Кафедра математических наук, Даремский университет, Англия, 2006.

[6] Дэниел Дж. Стеховен и Питер Бюльманн.
MissForest — Непараметрический метод восполнения пропущенных значений в данных смешанного типа. Биоинформатика, 2011.

[7] Суприянто Вибисоно, Анвар и Амин.
Обнаружение многомерных аномалий погоды с использованием алгоритма кластеризации DBSCAN.
Журнал физики: Серия конференций, 2021.

[8] Лаборда, Дж., и Рю, С. (2021). Выбор признаков в модели кредитного скоринга. Математика, 9(7), 746.

Данные и лицензирование

Набор данных, использованный в этой статье, распространяется под лицензией Creative Commons Attribution 4.0 International (CC BY 4.0) .

Данная лицензия позволяет любому пользователю делиться набором данных и адаптировать его для любых целей, включая коммерческое использование, при условии указания источника.

Для получения более подробной информации см. официальный текст лицензии: CC0: Общественное достояние.

Отказ от ответственности

Ответственность за любые оставшиеся ошибки или неточности несет автор. Отзывы и исправления приветствуются.

JUNIOR JUMBONG Посмотреть все товары от JUNIOR JUMBONG

Источник: towardsdatascience.com

✅ Найденные теги: Искусственного, Как, Модель, новости, Обучить, Оценки, Эпоху
Читайте также
Архив рубрики ~Лента новостей~ ChatGPT может полностью изменить вашу жизнь за одну ночь. Вот 5 запросов, которые помогут собрать план успеха Архив рубрики ~Лента новостей~ MLIR-to-RTL simulation flow: от linalg.matmul до systolic array Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Лента новостей~ NASA перевело своих астронавтов в Crew Dragon на время герметизации утечек воздуха на МКС. Они наблюдаются в переходном отсеке модуля «Звезда» Архив рубрики ~Лента новостей~ Новая система визуализации позволяет видеть сквозь мутную воду. Архив рубрики ~Лента новостей~ Компания Anthropic заявляет, что эти темы слишком опасны, чтобы позволять модели из Fable 5 обсуждать их. Архив рубрики ~Лента новостей~ Warner Music приобретает стартап Sureel AI, специализирующийся на атрибуции с использованием ИИ. Архив рубрики ~Лента новостей~ Синдром золотой рыбки, или почему ваша реклама длится слишком долго Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Лента новостей~ ChatGPT может полностью изменить вашу жизнь за одну ночь. Вот 5 запросов, которые помогут собрать план успеха Архив рубрики ~Лента новостей~ MLIR-to-RTL simulation flow: от linalg.matmul до systolic array Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Лента новостей~ NASA перевело своих астронавтов в Crew Dragon на время герметизации утечек воздуха на МКС. Они наблюдаются в переходном отсеке модуля «Звезда» Архив рубрики ~Лента новостей~ Новая система визуализации позволяет видеть сквозь мутную воду. Архив рубрики ~Лента новостей~ Компания Anthropic заявляет, что эти темы слишком опасны, чтобы позволять модели из Fable 5 обсуждать их. Архив рубрики ~Лента новостей~ Warner Music приобретает стартап Sureel AI, специализирующийся на атрибуции с использованием ИИ. Архив рубрики ~Лента новостей~ Синдром золотой рыбки, или почему ваша реклама длится слишком долго Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее…

Оставить комментарий

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.