Внутренняя модель openai решила ещё пять задач Эрдёша и изменила математику ИИ

Внутренняя модель OpenAI решила ещё пять задач Эрдёша: что это значит для математики и ИИ

Команда математиков OpenAI - Борис Алексеев, Мо Паттерман, Мехтааб Сони, Марк Селлке и Грегори Валиант - опубликовала на arXiv второй препринт с решениями открытых задач, сформулированных легендарным венгерским математиком Полом Эрдёшем. Это продолжение их недавней работы, где были закрыты первые три задачи из знаменитого списка Эрдёша. Теперь к ним добавились ещё пять, и все доказательства снова целиком сгенерированы внутренней моделью OpenAI, недоступной широкой публике.

Какие именно задачи решены

Во втором препринте модель справилась сразу с пятью задачами:

- №960 - о так называемых "обычных прямых" и конфигурациях без "обычной клики";
- №987 - об оценках экспоненциальных сумм;
- №1091 - о K4-free 4‑хроматических графах, все малые подграфы которых трёхцветны;
- №990 - о разреженном варианте теоремы Эрдёша-Турана;
- №1141 - о простых числах вида n − a·k².

Эти задачи относятся к разным разделам математики - от комбинаторики графов до аналитической теории чисел. Их объединяет характерный для Эрдёша стиль: на вид простые формулировки, за которыми скрываются нетривиальные, порой мучительно сложные вопросы.

Все пять доказательств целиком были получены внутренней моделью OpenAI. Участие людей ограничилось математической проверкой и литературной обработкой текста. Авторы подчёркивают, что их роль сводилась к тому, чтобы "переварить" полученные рассуждения, структурировать их и сделать доказательства более ясными и элегантными.

Где люди всё‑таки вмешались

Единственное содержательное изменение люди внесли в решение задачи №1091. В исходном варианте модель опиралась на представление через так называемые "склейки Хайоша" - классический, но технически более громоздкий приём из теории графов. Математики заменили этот фрагмент на более прозрачный аргумент, основанный на понятий 2‑вырожденности подграфов.

То есть ключевой конструктивный вклад по‑прежнему принадлежит ИИ, а люди выступили в роли строгих редакторов: упростили идею, не меняя сути, и оформили доказательство так, чтобы его было удобнее читать специалистам.

Как ИИ усилил задачу Эрдёша о простых числах

Особенно показательно решение задачи №1141. Изначально Эрдёш спрашивал о числах вида n − k² (случай a = 1): может ли существовать бесконечно много n, для которых выражение n − k² остаётся простым для всех допустимых целых k?

Внутренняя модель OpenAI пошла дальше исходной постановки. Она доказала более общий факт: для любого фиксированного целого a ≥ 1 существует лишь конечное число n, таких что n − a·k² остаётся простым для всех подходящих k. То есть модель не просто решила исходный частный вопрос Эрдёша, а закрыла целое семейство обобщённых задач.

С точки зрения теоретико-числовой интуиции такой результат выглядит естественным: сочетание квадратичных выражений и простых чисел обычно приводит к сильно ограниченным наборам решений. Но превратить эту интуицию в строгое, полностью выписанное доказательство - задача, с которой многие математики предпочитают не иметь дела из‑за технической сложности. Для ИИ, как выясняется, эта "техническая грязная работа" становится всё более доступной.

Эксперимент с GPT‑5.4 Pro: публичная модель пока отстаёт

Отдельный интерес вызывает сравнение с GPT‑5.4 Pro - самой мощной на данный момент публичной моделью OpenAI. После того как внутренние доказательства были проверены и признаны корректными, авторы поставили эксперимент: дали GPT‑5.4 Pro те же пять задач, по пять независимых попыток на каждую.

Результаты оказались весьма контрастными:

- из пяти задач GPT‑5.4 Pro смогла решить только две;
- с задачей №960 модель справилась, но её доказательство оказалось слабее: оно не покрывало случай, когда запрещённая клика имеет размер три;
- задача №1141 оказалась для GPT‑5.4 Pro неожиданно лёгкой - все пять попыток решения были успешны;
- оставшиеся три задачи - №987, №990 и №1091 - публичная модель не взяла ни разу.

Этот эксперимент демонстрирует растущий разрыв между исследовательскими внутренними моделями и доступными коммерческими версиями. Внутренний ИИ, по сути, уже работает на уровне узких математических экспертов, тогда как публичные модели всё ещё больше годятся для ассистирования и набросков, а не для открытия новых результатов.

Тайное имя "Spud" и слухи вокруг внутренней модели

На фоне этих успехов в профессиональной среде активно обсуждается, какая именно система стоит за формулировкой "внутренняя модель OpenAI". В социальных сетях циркулируют предположения, что речь идёт о модели с кодовым именем Spud, обучение которой, по слухам, недавно завершилось.

Официального подтверждения нет, но косвенные признаки указывают на то, что эта внутренняя модель обладает существенно большей "математической глубиной", чем линейка публичных GPT. Уровень автономности в поиске идей, построении контрпримеров и проведении сложных комбинаторных рассуждений явно выходит за рамки привычного "умного автодополнения".

Задача №1091: любимый результат и элегантный контрпример

Особого внимания заслуживает решение задачи №1091, которую Мехтааб Сони назвал своим любимым результатом в этом препринте. Формулировка вопроса Эрдёша звучала так:

пусть граф имеет хроматическое число 4 (то есть его рёбра нельзя раскрасить в три цвета так, чтобы соседние вершины имели разные цвета), но при этом все его достаточно малые подграфы трёхцветны. Обязан ли такой граф содержать нечётный цикл с большим числом хорд?

Ещё в 1982 году Хайнц‑Юрген Восс установил, что хотя бы две хорды у такого нечётного цикла гарантированно найдутся. Открытым же оставался усиленный вариант: существует ли функция f(r), стремящаяся к бесконечности, такая, что для достаточно "сложного" графа соответствующий нечётный цикл должен иметь не меньше f(r) хорд?

Внутренняя модель OpenAI показала, что ответ отрицательный. Она построила явное семейство графов - так называемые "гусеницы" из пятиугольных блоков, - в которых каждый нечётный цикл имеет не больше десяти хорд, независимо от роста параметров. Этот контрпример окончательно закрывает усиленный вариант задачи: никакой функции f(r), растущей до бесконечности, тут быть не может.

Любопытная деталь: схему конструкции, по словам Сони, рисовал не человек, а отдельная кодовая модель Codex. Получилась ситуация, когда один ИИ находит математический контрпример, а другой иллюстрирует его так, чтобы людям было проще восстановить доказательство.

Восемь задач за две недели: как ИИ входит в теоретическую математику

Если проследить хронологию, становится видно, что мы имеем дело не со случайным успехом, а с устойчивым трендом. В январе 2026 года связка GPT‑5.2 Pro и специализированного помощника Aristotle от Harmonic закрыла задачу Эрдёша №728 с машинной верификацией в системе Lean. Это стало одним из первых знаковых случаев, когда ИИ не только нашёл идею доказательства, но и прошёл формальную проверку в строгом доказательном помощнике.

Теперь же внутренняя модель OpenAI всего за пару недель добавила ещё восемь результатов к "списку Эрдёша": три в первом препринте и пять во втором. С учётом того, насколько тщательно обычно анализируются подобные работы, даже сам темп появления корректных доказательств здесь выглядит беспрецедентным.

Фактически наблюдается переход от единичных "фокусов" ИИ к регулярной исследовательской практике, где модель становится полноправным участником математического процесса: выдвигает гипотезы, строит примеры, ищет контрпримеры, выкручивает сложные комбинаторные оценки и помогает заполнять технические лакуны.

Почему именно задачи Эрдёша стали полигоном для ИИ

Список задач Эрдёша давно играет роль своеобразного стресс‑теста для человеческой математики. Многие из этих вопросов формулируются в один‑два предложения, понятны студентам старших курсов, но могут сопротивляться десятилетиям попыток. Именно такой формат идеально подходит и для оценки возможностей ИИ.

Во‑первых, задачи достаточно локальны: они не требуют глубокого погружения в обширные теории, а завязаны на комбинации дискретных объектов, оценок и конструкций. Во‑вторых, у них обычно есть богатый контекст частичных результатов, оценок сверху и снизу, специальных конструкций - то есть у ИИ есть множество "строительных блоков", из которых можно собирать новые аргументы.

Наконец, у задач Эрдёша сильный символический вес. Каждый закрытый номер из этого перечня мгновенно привлекает внимание и математиков, и специалистов по ИИ, и широкой публики. Поэтому успехи внутренних моделей на этом фронте становятся удобным маркером прогресса в ИИ‑математике.

Как меняется роль человека в математике

Серия работ OpenAI под заголовком Short Proofs показывает и ещё одну важную тенденцию: меняется сама роль человеческого математика. Если раньше основное усилие уходило на отыскание идеи, придумывание конструкции и затем на painstaking‑выписывание доказательства, то теперь эти стадии начинают расщепляться.

Модель способна:

- предложить нетривиальный контрпример;
- перебрать десятки вариантов построений и отобрать работающие;
- заполнить длинные технические выкладки, которые люди обычно опускают словами "аналогично проверяется, что...".

Человек при этом становится больше редактором и стратегом: выбирает направление атаки на задачу, фильтрует и проверяет идеи, приводит доказательства к стандарту, приемлемому для математического сообщества.

В случае с задачей №1091 мы уже видим этот новый баланс: ИИ находит ключевую конструкцию и общий ход доказательства, а математик заменяет один фрагмент более изящным, основанным на понятии 2‑вырожденности, и приводит всё к читабельному виду.

Что ограничивает текущие модели и куда они могут двинуться дальше

Несмотря на впечатляющие достижения, эксперимент с GPT‑5.4 Pro показывает пределы сегодняшних публичных систем. Они по‑прежнему:

- чувствительны к формулировке задачи;
- склонны выдавать правдоподобные, но некорректные доказательства;
- нестабильны: один и тот же запрос может давать как удачные наброски, так и полную чепуху.

Внутренние модели, судя по всему, усилены целевым обучением на математических корпусах, специализированными процедурами поиска и проверкой промежуточных шагов. Но даже они пока нуждаются в строгой человеческой валидации: малейшая ошибка в рассуждениях делает доказательство ничтожным, и ответственность за это по‑прежнему на людях.

Следующий шаг развития здесь - тесная интеграция с системами формальной верификации. Когда ИИ сможет не просто предложить доказательство, но и автоматически провести его через строгую проверку в формальной системе, роль человека ещё раз сместится - от проверки к постановке задач и интерпретации результатов.

Что всё это значит для будущего исследований

Случай с пятью новыми задачами Эрдёша - не просто интересный эпизод из жизни ИИ‑сообщества, а маркер зарождающейся новой исследовательской экосистемы. В ней:

- внутренние модели выступают в роли "силовых" математических двигателей;
- публичные GPT‑системы помогают широкой аудитории разбирать новые результаты, объяснять их и применять в других областях;
- математические сообщества начинают адаптировать стандарты публикаций к ситуации, когда существенная часть работы выполнена не человеком.

Можно ожидать, что в ближайшие годы подобные препринты будут появляться регулярно: сначала на задачах Эрдёша, затем - на более сложных проблемах из смежных областей. И чем привычнее станет участие ИИ в математике, тем важнее будет умение человека работать с этими инструментами: задавать правильные вопросы, проверять корректность, выделять действительно новые идеи среди множества технических выкладок.

Сегодня внутренняя модель OpenAI сделала ещё один шаг в эту сторону, закрыв сразу пять задач Эрдёша. Завтра подобные системы, вероятно, будут сопровождать каждый серьёзный математический проект - от первых набросков гипотезы до формальной верификации окончательного доказательства.

Прокрутить вверх