ИИ провалил ставки на АПЛ: эксперимент kellybench раскрыл пределы -

ИИ провалил спортивные ставки: лучшие модели слили банк на сезоне АПЛ

Модели искусственного интеллекта, созданные крупнейшими разработчиками - Google, OpenAI, Anthropic и xAI, - показали себя крайне слабо в роли спортивных аналитиков. В контролируемом эксперименте стартапа General Reasoning они последовательно теряли виртуальный банкролл, делая ставки на матчи английской Премьер-лиги, и в большинстве случаев заканчивали сезон полным банкротством.

Исследование стало частью проекта KellyBench. Его цель - проверить, насколько нынешние ИИ-системы способны ориентироваться в динамичном и хаотичном мире, где события постоянно меняются, а новые данные появляются в режиме реального времени. Авторы эксперимента подчёркивают: в задачах написания кода модели часто поражают точностью, но в контексте долгосрочных прогнозов, требующих понимания реальных процессов, они пока демонстрируют весьма скромные результаты.

Как устроен эксперимент KellyBench

Команда General Reasoning смоделировала сезон английской Премьер-лиги 2023-2024 годов. Восемь передовых моделей ИИ получили доступ к подробной статистике по каждой команде: результаты матчей, забитые и пропущенные мячи, динамика выступлений, данные о прошлых играх в сезоне. На основе этой информации модели должны были самостоятельно построить стратегии ставок.

Искусственным агентам предлагалось делать ставки сразу по двум направлениям:
- на исходы матчей (победа, ничья, поражение);
- на количество забитых голов (различные тоталы).

Задача ИИ состояла не просто в угадывании результатов, а в полноценном управлении виртуальным капиталом с ориентацией на максимизацию прибыли и контроль рисков. Фактически от моделей требовали поведения опытного беттора-аналитика, который не только анализирует статистику, но и корректирует стратегию по мере развития сезона.

Отдельным ограничением стало отсутствие доступа к интернету. Модели не могли подгружать свежие новости о травмах, конфликтах внутри команд, изменениях тренерских штабов или других факторах, влияющих на игру. Они были заперты в рамках предоставленного набора данных и исходных инструкций, а это резко отличает эксперимент от обычного поведения человека, который перед ставкой может мониторить самые разные источники информации.

Каждой ИИ-модели дали три независимые попытки заработать на сезоне. Это позволило оценить не только "везение" в одном конкретном заходе, но и устойчивость стратегий.

Кто показал себя лучше (и всё равно проиграл)

В относительном зачёте самым "успешным" оказался Anthropic Claude Opus 4.6. В среднем его убыток составил около 11 %, а в одной из трёх попыток модель почти вышла в ноль - то есть сумела довести сезон практически без серьёзной просадки банка. Однако даже этот лучший результат нельзя назвать успехом: задача состояла в заработке, а не в "почти не проиграть".

Модель Grok 4.20 от xAI справилась хуже всех. В первый же заход она фактически слила банк и обанкротилась, после чего не смогла полноценно продолжить оставшиеся две попытки. Это говорит о крайне агрессивной или неадекватной стратегии risk management, когда ставка за ставкой приводит к быстрому обнулению капитала.

Google Gemini 3.1 Pro проявил себя более противоречиво. В одной из попыток он смог показать впечатляющую прибыль - около 34 % - но уже во второй полностью обанкротился. Такая амплитуда результатов указывает, с одной стороны, на потенциал модели к генерации доходных стратегий, а с другой - на полное отсутствие устойчивости и высокой вероятности краха на дистанции.

В итоге общая картина для всех протестированных систем оказалась сходной: в долгосрочном горизонте ни одна из моделей не продемонстрировала стабильной прибыльности. Большинство рано или поздно уходило в глубокий минус или оказывалось банкротом. По словам исследователей, в аналогичных задачах люди, специализированные на спортивной аналитике и ставках, как минимум не проигрывали столь стремительно и зачастую показывали более стабильный результат.

Почему ИИ так плохо справился с прогнозами по футболу

Результаты эксперимента подчёркивают принципиальное отличие типичных ИИ-бенчмарков от реального мира. Большинство тестов для моделей построено на статичных, формализованных задачах: решить задачу, сгенерировать код, написать текст, ответить на вопрос по существующему корпусу знаний. В этом пространстве ИИ действительно силён: есть чёткие правила, ограниченное количество "шумов" и почти полное отсутствие непредсказуемых внешних факторов.

Реальный футбольный сезон - противоположность такой среде. Здесь постоянно что-то меняется:
- игроки получают травмы;
- тренеры меняют тактику в середине сезона;
- клубы проводят трансферы;
- команды выдают неожиданные серии поражений или побед;
- мотивация резко падает или, наоборот, возрастает под определённые матчи.

Все эти параметры плохо формализуются и тем более сложно предсказуемы наперёд. Даже если модель получает подробные исторические данные, они не гарантируют правильное понимание будущего. Футбол, как и многие другие виды спорта, сочетает в себе элементы статистики, психологии, удачи и контекста, который не всегда поддаётся алгоритмическому описанию.

Иллюзия всесильного ИИ и границы его возможностей

Один из важных выводов исследования - расхождение между общественными ожиданиями от ИИ и его реальными возможностями. В популярном представлении развитые модели воспринимаются как универсальный инструмент, который "умеет всё". Успехи в генерации кода, текстов и изображений подталкивают к мысли, что ИИ способен не менее эффективно справляться и с задачами в реальном мире: управлять инвестициями, делать спортивные прогнозы, принимать стратегические решения.

Однако эксперимент с Премьер-лигой наглядно показывает: способность обрабатывать текстовую информацию и выдавать логичные на вид рассуждения вовсе не означает умение действовать в живой, изменчивой среде. Там, где требуются интуиция, глубокое понимание контекста, учёт неформализуемых факторов и гибкая реакция на непрерывный поток событий, текущие ИИ-модели пока заметно уступают человеку.

Особенно уязвимы те подходы, где ИИ воспринимают как "чёрный ящик, который знает лучше". Если бесконтрольно передавать ему принятие финансовых решений - будь то ставки, торговля на бирже или управление рисками, - итоги могут оказаться не просто далеки от идеала, а разрушительными.

Почему написание кода и ставки на спорт - принципиально разные задачи

Авторы KellyBench обращают внимание на разницу между задачами, где ИИ уже доказал свою эффективность, и теми областями, где он демонстрирует провал. Написание программного кода - это, по сути, манипуляция хорошо структурированным формальным языком, где чётко определено, что такое "правильно" и "неправильно". Если код компилируется, проходит тесты, выполняет нужные функции - задача решена.

Спортивные ставки и прогнозы на реальные события работают по другим правилам.
- Нет гарантированного способа оценить "идеальность" решения: даже самые грамотные ставки могут проигрывать из-за случайностей.
- История не повторяется в точности: даже если ИИ нашёл закономерность в прошлых матчах, это не даёт гарантий на будущее.
- В игру вмешиваются факторы, которых нет в данных: внутренняя атмосфера в клубе, проблемы игроков вне поля, решения судей, погода.

Такая среда ближе к хаосу, чем к математическому уравнению. И именно здесь нынешние ИИ-системы начинают "сыпаться".

Что это говорит о будущей роли ИИ

Авторы эксперимента делают важный вывод: страхи о скором вытеснении человека ИИ из всех сфер жизни сильно преувеличены. На длинной дистанции, особенно в областях, связанных с неопределённостью, эмоциями и человеческим фактором, машины пока не демонстрируют способности заменять живых специалистов.

Это не означает, что ИИ бесполезен. Наоборот, в качестве вспомогательного инструмента он может быть крайне ценен:
- быстро анализировать большие объёмы статистики;
- предлагать альтернативные сценарии и гипотезы;
- помогать формировать первичные модели вероятностей.

Но "отдать штурвал" полностью и доверить ИИ самостоятельное управление деньгами или ключевыми решениями - по данным эксперимента, очень рискованная стратегия. Сейчас ИИ логичнее рассматривать как интеллектуального ассистента, а не как автономного управляющего.

Можно ли научить ИИ выигрывать на ставках

Эксперимент KellyBench не ставил целью создать идеального "ставочного бота", но он поднимает закономерный вопрос: возможно ли вообще построить ИИ, который будет стабильно зарабатывать на спортивных рынках?

В теории да, если:
- обеспечить моделям доступ к максимально полному и актуальному потоку данных;
- подключить информацию о травмах, трансферах, погоде, высказываниях тренеров и игроков;
- внедрить сложные системы управления банкроллом;
- постоянно адаптировать модель под изменяющуюся реальность.

На практике же букмекерские линии формируются огромным количеством участников, в том числе профессиональными аналитиками и уже существующими алгоритмическими моделями. Рынок в целом стремится к эффективности: любые устойчивые закономерности быстро "выкупают", и их маржа тает. Чтобы обыгрывать такой рынок в долгосрочной перспективе, нужна не просто сильная модель, а сочетание уникальных данных, технических преимуществ и специфического "ноу-хау", которое далеко выходит за рамки стандартных ИИ-систем.

Чему этот эксперимент может научить обычных пользователей

Опыт General Reasoning полезен не только для разработчиков, но и для обычных людей, которые склонны переоценивать возможности ИИ. Несколько практических выводов:
1. Не стоит доверять ИИ принятие финансовых решений вслепую - особенно там, где присутствуют риск и случайность.
2. Любой "совет от нейросети" по ставкам, инвестициям или трейдингу должен восприниматься как подсказка, а не как руководство к действию.
3. Если модель звучит очень уверенно, это не гарантия её правоты - уверенность легко имитируется в тексте, но не подтверждает качество прогноза.
4. Долгосрочная прибыльность в спорте и на рынках - это не разовый удачный прогноз, а устойчивая стратегия, которую текущие ИИ по данным эксперимента обеспечивать не умеют.

Что дальше

Проекты вроде KellyBench постепенно смещают фокус дискуссии об искусственном интеллекте: от абстрактных разговоров о "сверхразумных" машинах - к конкретному тестированию в сложных, динамичных и неидеальных условиях. Такие эксперименты выявляют реальные сильные и слабые стороны технологий, а не те, которые приписываются им в рекламных материалах.

На ближайшие годы наиболее вероятный сценарий - развитие гибридных систем, где человек и ИИ работают в тандеме. Машины обрабатывают массивы данных и предлагают варианты, люди принимают финальные решения, учитывая контекст, интуицию и опыт. И история с провалом ИИ в ставках на матчи английской Премьер-лиги - убедительное напоминание о том, что полностью автоматизировать человеческое суждение пока не получилось.

В итоге эксперимент General Reasoning показывает: искусственный интеллект способен впечатлять в контролируемых, формализованных задачах, но при столкновении с хаотичным, живым миром футбола и реальных денег его ограниченность проявляется особенно ярко. И до момента, когда ИИ действительно сможет заменить человека в принятии сложных, рискованных решений, ещё очень далеко.

ИИ провалил ставки на АПЛ: эксперимент kellybench раскрыл пределы

Как устроен эксперимент KellyBench

Кто показал себя лучше (и всё равно проиграл)

Почему ИИ так плохо справился с прогнозами по футболу

Иллюзия всесильного ИИ и границы его возможностей

Почему написание кода и ставки на спорт - принципиально разные задачи

Что это говорит о будущей роли ИИ

Можно ли научить ИИ выигрывать на ставках

Чему этот эксперимент может научить обычных пользователей

Что дальше

РАЗДЕЛЫ

Классические рубрики

Свежие поступления

Как устроен эксперимент KellyBench

Кто показал себя лучше (и всё равно проиграл)

Почему ИИ так плохо справился с прогнозами по футболу

Иллюзия всесильного ИИ и границы его возможностей

Почему написание кода и ставки на спорт - принципиально разные задачи

Что это говорит о будущей роли ИИ

Можно ли научить ИИ выигрывать на ставках

Чему этот эксперимент может научить обычных пользователей

Что дальше

Читайте также:

РАЗДЕЛЫ

Классические рубрики

Свежие поступления