Я создал 11 моделей для прогнозирования результатов чемпионата мира по футболу 2026 года. По их результатам будут определены четыре разных чемпиона.

16.06.2026 ideipro.ru

Одна-единственная модель дает вам единственный ответ и не дает никакого представления о том, насколько он зависит от десятков вариантов, скрытых внутри нее.

Делиться

Футбол нелегко предсказать, даже имея данные мирового уровня. Изображение создано с помощью Leonardo AI.

В чемпионате мира 2026 года участвуют 48 команд, проводится 104 матча, и количество уверенных прогнозов примерно равно количеству болельщиков. Создать модель, которая объявляет: «Команда X победит, вероятность p», легко — это работа на один день с общедоступными данными и распределением Пуассона. Ловушка заключается в том, чтобы поверить в эти цифры. Одна модель дает вам один ответ и не дает представления о том, насколько он зависит от десятков вариантов, скрытых внутри нее: какая система рейтингов, какое распределение голов, какой алгоритм обучения. Измените любой из них, и «ответ» может измениться на двузначное число.

Поэтому вместо того, чтобы доверять одной модели, я создал одиннадцать — по одной почти на каждую главу учебника по машинному обучению — обучил или вычислил их все на одних и тех же реальных данных о матчах, пропустил каждую через один и тот же симулятор турнира и позволил им «спорить». Три рейтинговые системы (Эло, Колли, PageRank), две модели голов (Пуассона, отрицательного биномиального распределения), пять классификаторов (логистическая регрессия, KNN, случайный лес, XGBoost, нейронная сеть) и рынок ставок в качестве эталона. Те же 48 команд, те же данные, одиннадцать методов.

Они определяют четырех разных чемпионов — и именно это разногласие, а не консенсус, оказывается самым полезным, что может дать набор моделей. Эта статья о том, как его построить и как его читать. (Если вам нужен просто один четкий прогноз, версия Эло-плюс-Пуассона — это отдельная короткая статья; здесь же нам нужно нечто более честное, чем одно число.)

Данные

Все данные основаны на 358 реальных международных матчах: все игры чемпионатов мира 2010–2022 годов (256 матчей), а также чемпионатов Европы 2020 и 2024 годов (102 матча), взятые из проекта openfootball — а именно из его наборов данных worldcup.json и euro.json , которые находятся в общественном доступе. Классификаторы обучаются сопоставлению характеристик матчей с результатами этих игр; рейтинговые системы вычисляются непосредственно из графа результатов. Состав участников — реальный, подтвержденный состав 2026 года: 48 команд, 12 групп.

С точки зрения «домашней» (первой по счету, нейтральной) команды, каждый матч описывается тремя факторами: разница в силе между командами, их общая сила и критерием плей-офф. Цель – достижение результата в трех матчах (победа / ничья / поражение).

Один интерфейс, одиннадцать двигателей

Единственный способ честно соревноваться между различными семействами моделей — это заставить их выполнять один и тот же контракт: имея две команды, вернуть P(win), P(draw), P(loss) плюс ожидаемую разницу голов для определения победителя в групповом этапе. Все последующие этапы идентичны для всех моделей: 12 групп, квалификация лучшей третьей команды и плей-офф из 32 команд. Симулятор даже векторизован, так что все 20 000 турниров для каждой модели выполняются как операции с массивами NumPy, а не как циклы Python.

 def match_probs(model, a, b): """Every model implements this -> (p_win, p_draw, p_loss).""" ... def simulate(model, n_sims=20_000): # groups -> top 2 + 8 best thirds -> 32-team knockout -> champion ...

Схема с 11 моделями слева (Elo, Colley, PageRand, Poisson, Negative Binomial, Logistic, KNN, Random Forest, XGBoost, Neural Net, Betting odds), которые поступают в общий интерфейс, а тот, в свою очередь, передает данные в векторизованный симулятор, который вычисляет вероятность выигрыша в игре. — Одиннадцать моделей, питающих один турнирный движок. Изображение создано автором.

Разница заключается в том, как каждая модель заполняет поле match_probs . Именно здесь и возникают разногласия, поэтому давайте рассмотрим семейства моделей.

Модели рейтингов: сила на основе результатов

Эло — это рейтинг, о котором слышали большинство людей, шахматный рейтинг, адаптированный для футбола: самокорректирующееся число, обновляемое после каждого матча по формуле R' = R + K(S − E) , где S — фактический результат, а ожидаемая вероятность победы равна E = 1/(1 + 10^(−Δ/400)) для разницы в рейтинге Δ . Чтобы получить вероятность матча, мы пропускаем разницу в рейтинге Эло через эту логистическую кривую и отдельно получаем вероятность ничьей (подробнее об этом ниже).

В алгоритме Колли полностью отсутствует временное обновление, и решается единая линейная система. Постройте матрицу Колли C и вектор b для всех совпадений:

 C_ii = 2 + (games played by i) C_ij = -(games between i and j) b_i = 1 + (wins_i - losses_i) / 2

Затем решите уравнение C r = b относительно вектора рейтинга r . +2 на диагонали — это априорное распределение в стиле Лапласа, которое делает систему строго диагонально доминирующей и, следовательно, всегда разрешимой — каждая команда неявно получает посев 0,5 до начала любых игр. Метод Колли элегантен именно потому, что в нем нет свободных параметров и понятия «текущей формы»: это чистое, замкнутое уравнение, описывающее, кто кого победил.

PageRank рассматривает сезон как ориентированный граф. Каждый матч добавляет вес ребру от проигравшего к победителю (в случае ничьей вес распределяется в обе стороны), поэтому указание на команду является одобрением. Нормализуйте исходящие ребра каждого узла в стохастическую матрицу переходов T , затем найдите стационарное распределение при затухающей случайной прогулке:

 r = (1 - d)/n + d · Tᵀ r # d = 0.85, solved by power iteration

Команда получает высокий балл, если сильные команды «указывают» на неё — то есть проигрывают ей. Это тот же алгоритм, который Google использовал для ранжирования веб-страниц, но примененный к результатам футбольных матчей.

Colley и PageRank используют собственные шкалы, поэтому я вычисляю для каждой из них z-оценку и сопоставляю её со шкалой, подобной шкале Эло, прежде чем пропустить их через одну и ту же кривую вероятности победы. Команды, отсутствующие на графике из 358 матчей, возвращаются к предыдущей шкале. Вот почему они интересны: они полностью игнорируют репутацию и оценивают только то, что есть в данных — и в этом временном интервале Нидерланды получили гораздо более высокую оценку, чем считает рынок.

Целевые модели: распределение Пуассона и отрицательное биномиальное распределение.

Это модельные показатели, а не результаты матчей. Я построил обобщенную линейную модель Пуассона с логарифмической связью для реальных голов в матчах, разделив каждый матч на два наблюдения (голы каждой команды против разницы в силе между ними):

 import statsmodels.api as sm # goals ~ exp(beta0 + beta1 * strength_diff) fit = sm.GLM(goals, sm.add_constant(sdiff), family=sm.families.Poisson()).fit() # -> lambda = exp(0.167 + 0.00164 * strength_diff)

Из λ_home, λ_away мы получаем P(W/D/L) формируя внешнее произведение распределений голов Пуассона двух команд и суммируя ячейки, в которых домашняя команда забивает больше, столько же или меньше голов, чем гостевая команда.

Вариант отрицательного биномиального распределения ослабляет наиболее ограничительное предположение Пуассона — что среднее значение равно дисперсии. Реальные данные о забитых голах имеют умеренную избыточную дисперсию, поэтому отрицательное биномиальное распределение вводит параметр дисперсии α с дисперсией μ + αμ² . Здесь подобранное значение α ≈ 0.008 очень мало (международные голы распределены почти равномерно), поэтому отрицательное биномиальное распределение практически не отклоняется от распределения Пуассона — что само по себе является полезным эмпирическим результатом, заслуживающим отдельного упоминания в любой статье.

Классификаторы: результаты, полученные на основе признаков.

Пять моделей прогнозируют P(W/D/L) непосредственно на основе трех характеристик:

Логистическая регрессия : многомерная/softmax-модель, линейная по логарифму отношения шансов. Ее индуктивное смещение — то, что вероятность результата является плавной, монотонной функцией разницы в силе — практически идеально соответствует поставленной задаче.
Метод k-ближайших соседей : вообще не имеет параметрической формы; он предсказывает совпадение на основе баланса классов 30 ближайших исторических совпадений. Благодаря всего трем признакам, проклятие размерности не представляет угрозы, поэтому метод k-ближайших соседей оказывается на удивление конкурентоспособным.
Случайный лес : деревья решений, построенные методом бутстрапа на основе выборки из нескольких элементов и случайного подмножества признаков, а затем усредненные — уменьшение дисперсии путем ансамблевого обучения.
XGBoost : градиентный бустинг деревьев, обучение происходит последовательно, так что каждое дерево корректирует остатки предыдущего ансамбля.
Нейронная сеть : небольшой многослойный перцептрон (16→8 скрытых слоев), который обучается взаимодействию собственных признаков.

Все пять функций предоставляют доступ predict_proba , поэтому они напрямую подключаются к общему интерфейсу — я просто выполняю пакетное предсказание для всех пар команд размером 48×48 один раз и кэширую матрицы вероятностей.

Задача о броске кубика

Одна тонкость связывает воедино все рейтинговые модели. Elo, Colley и PageRank изначально дают ожидаемую вероятность победы, а не распределение между тремя сторонами — так откуда же берется P(draw) ?

Я подогнал модель на основе данных как логистическую функцию абсолютной разницы в силе: равные по силе команды играют вничью гораздо чаще, чем команды с разным уровнем силы. Эта единая калиброванная кривая используется во всех трех моделях рейтинга, что обеспечивает справедливость сравнения.

Один матч, одиннадцать мнений

Прежде чем моделировать весь турнир, полезно рассмотреть разногласия на уровне отдельной игры. Возьмем, например, матч Испания против Марокко — явный фаворит против очень сильного аутсайдера. Вот вероятность победы/ничьи/поражения, которую каждая модель присваивает Испании:

Модель	Испания победила	Рисовать	Марокко победило
PageRank (Глава 8)	69%	24%	7%
Пуассон (Глава 4)	63%	22%	15%
Отрицательное биномиальное распределение (Глава 4)	62%	22%	15%
Логистика (Глава 5)	61%	24%	15%
Эло (Глава 8)	61%	26%	13%
Колли (Глава 8)	57%	26%	17%
Нейронная сеть (Глава 7)	56%	20%	24%
KNN (Главы 4/5)	47%	27%	27%
Случайный лес (Глава 6)	40%	39%	22%
XGBoost (канал 6)	25%	64%	11%

Таблица: Смоделированные результаты матчей Испания против Марокко. Данные рассчитаны автором.

Вероятность победы Испании колеблется от 69% (PageRank) до 25% (XGBoost) — и XGBoost фактически делает ничью наиболее вероятным результатом, с показателем 64%. PageRank высоко оценивает Испанию, потому что в данных сильные команды проигрывали ей; XGBoost, будучи слишком гибким только на основе 358 матчей, распределяет вероятность в пользу ничьей — ошибка калибровки, заслуживающая отдельной статьи.

Это не просто незначительные различия — это разные теории одной и той же игры. Теперь умножьте это расхождение на 64 групповых матча и плей-офф с участием 32 команд, 20 000 раз, и вы получите действительно разные турниры.

Результат: они не согласны.

Матрица, показывающая вероятность победы 12 стран на чемпионате мира по футболу в зависимости от модели. — Кто выиграет чемпионат мира? Модели расходятся во мнениях, но многое указывает на Испанию. Изображение и цифры предоставлены автором.

Если прочитать любую строку, судьба команды будет зависеть от того, кто задает вопрос. Рейтинг Испании колеблется от 13% до 29% — это явный фаворит. Итог — наиболее вероятный чемпион по каждой модели:

Выбор чемпиона	Модели, поддерживающие это
Испания	Эло, распределение Пуассона, отрицательное биномиальное распределение, логистическая регрессия, KNN, PageRank и рынок
Аргентина	Случайный лес, XGBoost
Франция	Нейронная сеть
Нидерланды	Колли

Таблица 2: Разные модели, разные чемпионы. Создано автором.

Одиннадцать моделей, четыре чемпиона.

Почему они не согласны — три реальные причины

Существует три основных причины этих разногласий, и ни одна из них не имеет прямого отношения к футболу как таковому:

Источник информации. Коэффициенты Эло и рыночные подразумеваемые коэффициенты отражают текущую глобальную форму; коэффициенты Колли и PageRank кодируют только результаты в наборе данных. Когда недавние результаты команды превосходят ее репутацию (в данном случае Нидерланды), графовые методы резко расходятся с методами, основанными на форме. Ни один из них не является ошибочным — они отвечают на разные вопросы.
Голы против результатов. Семейство уравнений Пуассона моделирует итоговые результаты и определяет победителя; классификаторы моделируют результат напрямую. В напряженных матчах эти два подхода определяют разную долю жеребьевки и, следовательно, разную вероятность выбывания из турнира.
Смещение против дисперсии. Бустинг-деревья улавливают более тонкие взаимодействия в обучающих данных и смещаются в сторону Аргентины; линейные модели сглаживают эти искажения. На основе всего 358 матчей такая гибкость с одинаковой вероятностью может быть как шумом, так и сигналом — что, как оказалось, в точности подтверждается результатами перекрестной проверки: самый простой классификатор подходит лучше всего, а самые гибкие — хуже всего.

Вы можете увидеть эту семейную структуру напрямую, сопоставив вектор вероятностей каждой модели, включающий 48 команд, с векторами вероятностей всех остальных:

Тепловая карта, показывающая совпадение и расхождение результатов между моделями. Модели Эло, логистическая регрессия, пуассоновское распределение и отрицательное биномиальное распределение согласуются друг с другом; нейронная сеть, XGBoost, KNN и случайный лес согласуются друг с другом; все остальные комбинации в значительной степени не согласуются. — Тепловая карта согласованности моделей – много разногласий! Изображение предоставлено автором.

Три блока выпадают, и кластеризация не случайна. Модели, основанные на форме (Elo, логистическая регрессия, распределение Пуассона, отрицательное биномиальное распределение), практически идеально совпадают, поскольку все они используют одинаковую априорную вероятность с разными функциями связи.

Классификаторы машинного обучения (KNN, случайный лес, XGBoost, нейронная сеть) образуют второй блок. А модели Colley и PageRank, единственные, которые игнорируют априорное распределение и считывают чистые результаты, выделяются среди всех остальных (корреляции составляют около 0,72–0,83). Диаграмма, по сути, показывает, какие модели обмениваются информацией — это честный способ оценить любой ансамбль моделей.

Общий вывод, полученный путем усреднения результатов десяти нерыночных моделей, по-прежнему выглядит разумным:

График, показывающий консенсус (среднее значение моделей) и результаты, прогнозируемые рынком. — Консенсус против распространения мнений. Изображение предоставлено автором.

Вероятность победы Испании составляет примерно 20%, Франции и Аргентины — около 14%, затем Нидерландов и Англии. Усреднение моделей само по себе является методом: простой ансамбль обычно превосходит большинство своих членов, поскольку некоррелированные ошибки частично компенсируют друг друга.

Но обратите внимание на серые полосы — диапазон минимального и максимального значений для разных моделей. Они широкие. Любой, кто называет вам одну цифру на вопрос «кто выиграет чемпионат мира», скрывает эти полосы, и именно они являются честной частью.

Что это может и чего не может вам рассказать

На данном этапе уместно сделать несколько оговорок, первая из которых крайне важна для правильного прочтения графика согласованности. Все целевые модели и классификаторы используют один и тот же априорный уровень значимости в стиле Эло в качестве основного входного параметра, поэтому значительная часть их согласованности является механической, а не независимой — только Colley и PageRank независимо определяют уровень значимости на основе графика результатов, именно поэтому они и отличаются друг от друга. Таким образом, следует рассматривать консенсус как «точку, к которой, как правило, приходят эти методы, учитывая данные», а не как одиннадцать независимых свидетелей.

Во-вторых, обучающий набор состоит из 358 матчей, в значительной степени ориентированных на чемпионаты мира и Европы; данные по матчам вне европейских турниров представлены недостаточно, а шесть отборочных матчей 2026 года, по которым отсутствует история игр, возвращаются к предыдущим. В-третьих, матчи моделируются на нейтральном поле с посевной сеткой, а не по точной карте 1/32 финала FIFA. Ничто из этого не сводит на нет все усилия, но модель может быть независимой только в той мере, в какой независимы её входные данные, и именно явное указание на это отличает реальный ансамбль от замкнутого круга.

За пределами чемпионата мира

Данная модель открывает два важных момента, которые стоит изучить на основе ваших собственных данных. Во-первых, подразумеваемые рынком вероятности — это всего лишь еще один столбец на этой тепловой карте. Поэтому естественным следующим шагом будет сопоставление консенсуса модели с вероятностями рынка после вычитания рыночных значений и выяснение того, где и почему они расходятся: рассматривая вероятности как вероятности, исключая погрешность и задаваясь вопросом, насколько эффективен рынок как прогнозист.

Во-вторых, можно предположить, что более гибкие модели, такие как XGBoost и нейронная сеть, лучше всего подходят для исторических данных. Однако результаты перекрестной проверки говорят об обратном, и причина в том, что мы переобучаемся на небольшом и низкоразмерном наборе данных. Этот урок имеет значение не только для футбола.

Более полный набор инструментов для моделирования, данные и диаграммы доступны на GitHub. Каждая модель разработана и описана в готовящейся к выходу книге, соавтором которой я являюсь, под названием «Футбольная аналитика с помощью машинного обучения» (O'Reilly, 2026). (Электронная версия книги будет доступна примерно с 25 июня; печатная версия появится в продаже примерно в середине июня во всех книжных магазинах.)

Ари Джури, доктор философии. Все материалы от Ари Джури, доктора философии.

Источник: towardsdatascience.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.