ИИ провалил ставки на АПЛ: эксперимент kellybench раскрыл пределы

ИИ провалил спортивные ставки: лучшие модели слили банк на сезоне АПЛ

Модели искусственного интеллекта, созданные крупнейшими разработчиками - Google, OpenAI, Anthropic и xAI, - показали себя крайне слабо в роли спортивных аналитиков. В контролируемом эксперименте стартапа General Reasoning они последовательно теряли виртуальный банкролл, делая ставки на матчи английской Премьер-лиги, и в большинстве случаев заканчивали сезон полным банкротством.

Исследование стало частью проекта KellyBench. Его цель - проверить, насколько нынешние ИИ-системы способны ориентироваться в динамичном и хаотичном мире, где события постоянно меняются, а новые данные появляются в режиме реального времени. Авторы эксперимента подчёркивают: в задачах написания кода модели часто поражают точностью, но в контексте долгосрочных прогнозов, требующих понимания реальных процессов, они пока демонстрируют весьма скромные результаты.

Как устроен эксперимент KellyBench

Команда General Reasoning смоделировала сезон английской Премьер-лиги 2023-2024 годов. Восемь передовых моделей ИИ получили доступ к подробной статистике по каждой команде: результаты матчей, забитые и пропущенные мячи, динамика выступлений, данные о прошлых играх в сезоне. На основе этой информации модели должны были самостоятельно построить стратегии ставок.

Искусственным агентам предлагалось делать ставки сразу по двум направлениям:
- на исходы матчей (победа, ничья, поражение);
- на количество забитых голов (различные тоталы).

Задача ИИ состояла не просто в угадывании результатов, а в полноценном управлении виртуальным капиталом с ориентацией на максимизацию прибыли и контроль рисков. Фактически от моделей требовали поведения опытного беттора-аналитика, который не только анализирует статистику, но и корректирует стратегию по мере развития сезона.

Отдельным ограничением стало отсутствие доступа к интернету. Модели не могли подгружать свежие новости о травмах, конфликтах внутри команд, изменениях тренерских штабов или других факторах, влияющих на игру. Они были заперты в рамках предоставленного набора данных и исходных инструкций, а это резко отличает эксперимент от обычного поведения человека, который перед ставкой может мониторить самые разные источники информации.

Каждой ИИ-модели дали три независимые попытки заработать на сезоне. Это позволило оценить не только "везение" в одном конкретном заходе, но и устойчивость стратегий.

Кто показал себя лучше (и всё равно проиграл)

В относительном зачёте самым "успешным" оказался Anthropic Claude Opus 4.6. В среднем его убыток составил около 11 %, а в одной из трёх попыток модель почти вышла в ноль - то есть сумела довести сезон практически без серьёзной просадки банка. Однако даже этот лучший результат нельзя назвать успехом: задача состояла в заработке, а не в "почти не проиграть".

Модель Grok 4.20 от xAI справилась хуже всех. В первый же заход она фактически слила банк и обанкротилась, после чего не смогла полноценно продолжить оставшиеся две попытки. Это говорит о крайне агрессивной или неадекватной стратегии risk management, когда ставка за ставкой приводит к быстрому обнулению капитала.

Google Gemini 3.1 Pro проявил себя более противоречиво. В одной из попыток он смог показать впечатляющую прибыль - около 34 % - но уже во второй полностью обанкротился. Такая амплитуда результатов указывает, с одной стороны, на потенциал модели к генерации доходных стратегий, а с другой - на полное отсутствие устойчивости и высокой вероятности краха на дистанции.

В итоге общая картина для всех протестированных систем оказалась сходной: в долгосрочном горизонте ни одна из моделей не продемонстрировала стабильной прибыльности. Большинство рано или поздно уходило в глубокий минус или оказывалось банкротом. По словам исследователей, в аналогичных задачах люди, специализированные на спортивной аналитике и ставках, как минимум не проигрывали столь стремительно и зачастую показывали более стабильный результат.

Почему ИИ так плохо справился с прогнозами по футболу

Результаты эксперимента подчёркивают принципиальное отличие типичных ИИ-бенчмарков от реального мира. Большинство тестов для моделей построено на статичных, формализованных задачах: решить задачу, сгенерировать код, написать текст, ответить на вопрос по существующему корпусу знаний. В этом пространстве ИИ действительно силён: есть чёткие правила, ограниченное количество "шумов" и почти полное отсутствие непредсказуемых внешних факторов.

Реальный футбольный сезон - противоположность такой среде. Здесь постоянно что-то меняется:
- игроки получают травмы;
- тренеры меняют тактику в середине сезона;
- клубы проводят трансферы;
- команды выдают неожиданные серии поражений или побед;
- мотивация резко падает или, наоборот, возрастает под определённые матчи.

Все эти параметры плохо формализуются и тем более сложно предсказуемы наперёд. Даже если модель получает подробные исторические данные, они не гарантируют правильное понимание будущего. Футбол, как и многие другие виды спорта, сочетает в себе элементы статистики, психологии, удачи и контекста, который не всегда поддаётся алгоритмическому описанию.

Иллюзия всесильного ИИ и границы его возможностей

Один из важных выводов исследования - расхождение между общественными ожиданиями от ИИ и его реальными возможностями. В популярном представлении развитые модели воспринимаются как универсальный инструмент, который "умеет всё". Успехи в генерации кода, текстов и изображений подталкивают к мысли, что ИИ способен не менее эффективно справляться и с задачами в реальном мире: управлять инвестициями, делать спортивные прогнозы, принимать стратегические решения.

Однако эксперимент с Премьер-лигой наглядно показывает: способность обрабатывать текстовую информацию и выдавать логичные на вид рассуждения вовсе не означает умение действовать в живой, изменчивой среде. Там, где требуются интуиция, глубокое понимание контекста, учёт неформализуемых факторов и гибкая реакция на непрерывный поток событий, текущие ИИ-модели пока заметно уступают человеку.

Особенно уязвимы те подходы, где ИИ воспринимают как "чёрный ящик, который знает лучше". Если бесконтрольно передавать ему принятие финансовых решений - будь то ставки, торговля на бирже или управление рисками, - итоги могут оказаться не просто далеки от идеала, а разрушительными.

Почему написание кода и ставки на спорт - принципиально разные задачи

Авторы KellyBench обращают внимание на разницу между задачами, где ИИ уже доказал свою эффективность, и теми областями, где он демонстрирует провал. Написание программного кода - это, по сути, манипуляция хорошо структурированным формальным языком, где чётко определено, что такое "правильно" и "неправильно". Если код компилируется, проходит тесты, выполняет нужные функции - задача решена.

Спортивные ставки и прогнозы на реальные события работают по другим правилам.
- Нет гарантированного способа оценить "идеальность" решения: даже самые грамотные ставки могут проигрывать из-за случайностей.
- История не повторяется в точности: даже если ИИ нашёл закономерность в прошлых матчах, это не даёт гарантий на будущее.
- В игру вмешиваются факторы, которых нет в данных: внутренняя атмосфера в клубе, проблемы игроков вне поля, решения судей, погода.

Такая среда ближе к хаосу, чем к математическому уравнению. И именно здесь нынешние ИИ-системы начинают "сыпаться".

Что это говорит о будущей роли ИИ

Авторы эксперимента делают важный вывод: страхи о скором вытеснении человека ИИ из всех сфер жизни сильно преувеличены. На длинной дистанции, особенно в областях, связанных с неопределённостью, эмоциями и человеческим фактором, машины пока не демонстрируют способности заменять живых специалистов.

Это не означает, что ИИ бесполезен. Наоборот, в качестве вспомогательного инструмента он может быть крайне ценен:
- быстро анализировать большие объёмы статистики;
- предлагать альтернативные сценарии и гипотезы;
- помогать формировать первичные модели вероятностей.

Но "отдать штурвал" полностью и доверить ИИ самостоятельное управление деньгами или ключевыми решениями - по данным эксперимента, очень рискованная стратегия. Сейчас ИИ логичнее рассматривать как интеллектуального ассистента, а не как автономного управляющего.

Можно ли научить ИИ выигрывать на ставках

Эксперимент KellyBench не ставил целью создать идеального "ставочного бота", но он поднимает закономерный вопрос: возможно ли вообще построить ИИ, который будет стабильно зарабатывать на спортивных рынках?

В теории да, если:
- обеспечить моделям доступ к максимально полному и актуальному потоку данных;
- подключить информацию о травмах, трансферах, погоде, высказываниях тренеров и игроков;
- внедрить сложные системы управления банкроллом;
- постоянно адаптировать модель под изменяющуюся реальность.

На практике же букмекерские линии формируются огромным количеством участников, в том числе профессиональными аналитиками и уже существующими алгоритмическими моделями. Рынок в целом стремится к эффективности: любые устойчивые закономерности быстро "выкупают", и их маржа тает. Чтобы обыгрывать такой рынок в долгосрочной перспективе, нужна не просто сильная модель, а сочетание уникальных данных, технических преимуществ и специфического "ноу-хау", которое далеко выходит за рамки стандартных ИИ-систем.

Чему этот эксперимент может научить обычных пользователей

Опыт General Reasoning полезен не только для разработчиков, но и для обычных людей, которые склонны переоценивать возможности ИИ. Несколько практических выводов:
1. Не стоит доверять ИИ принятие финансовых решений вслепую - особенно там, где присутствуют риск и случайность.
2. Любой "совет от нейросети" по ставкам, инвестициям или трейдингу должен восприниматься как подсказка, а не как руководство к действию.
3. Если модель звучит очень уверенно, это не гарантия её правоты - уверенность легко имитируется в тексте, но не подтверждает качество прогноза.
4. Долгосрочная прибыльность в спорте и на рынках - это не разовый удачный прогноз, а устойчивая стратегия, которую текущие ИИ по данным эксперимента обеспечивать не умеют.

Что дальше

Проекты вроде KellyBench постепенно смещают фокус дискуссии об искусственном интеллекте: от абстрактных разговоров о "сверхразумных" машинах - к конкретному тестированию в сложных, динамичных и неидеальных условиях. Такие эксперименты выявляют реальные сильные и слабые стороны технологий, а не те, которые приписываются им в рекламных материалах.

На ближайшие годы наиболее вероятный сценарий - развитие гибридных систем, где человек и ИИ работают в тандеме. Машины обрабатывают массивы данных и предлагают варианты, люди принимают финальные решения, учитывая контекст, интуицию и опыт. И история с провалом ИИ в ставках на матчи английской Премьер-лиги - убедительное напоминание о том, что полностью автоматизировать человеческое суждение пока не получилось.

В итоге эксперимент General Reasoning показывает: искусственный интеллект способен впечатлять в контролируемых, формализованных задачах, но при столкновении с хаотичным, живым миром футбола и реальных денег его ограниченность проявляется особенно ярко. И до момента, когда ИИ действительно сможет заменить человека в принятии сложных, рискованных решений, ещё очень далеко.

Прокрутить вверх