Яндекс с Yccl ускорил обучение Llm и сократил затраты на ИИ‑инфраструктуру

У Яндекса появился собственный ответ решениям Meta*, AMD и крупнейших китайских компаний: компания радикально ускорила обучение больших языковых моделей и одновременно сократила затраты на инфраструктуру. За счёт глубокого пересмотра архитектуры и оптимизации всех ключевых компонентов сервисов ИИ годовая экономия достигла 4,8 млрд рублей, то есть около 400 млн рублей в месяц, при этом качество моделей и масштаб экспериментов были сохранены на прежнем уровне.

В центре этих изменений - собственная библиотека коллективных коммуникаций YCCL (Yet Another Collective Communication Library). Она отвечает за взаимодействие графических процессоров в вычислительных кластерах и стала ядром новой инфраструктуры обучения. По оценкам компании, внедрение YCCL позволило вдвое ускорить обмен данными между GPU и одновременно сократить объём передаваемой информации, что критически важно при обучении моделей с триллионами параметров.

Одним из ключевых инженерных решений стало перераспределение ролей между компонентами системы: управление процессом обучения перенесли с графических процессоров на центральные. Это освободило ресурсы GPU для собственно вычислений, уменьшило накладные расходы и позволило эффективнее использовать дорогостоящее оборудование. В результате графические процессоры стали загружены именно тем, для чего они созданы, - линейной алгеброй и параллельными вычислениями, а координация процессов легла на CPU.

Библиотека YCCL разрабатывалась с прицелом на крупные кластеры: она масштабируется на тысячи графических процессоров, обеспечивая устойчивую работу при распределённом обучении гигантских моделей. В Яндексе подчёркивают, что решения такого уровня сейчас есть лишь у ограниченного круга компаний мирового масштаба - в числе сопоставимых по функциональности систем называют разработки Meta*, AMD и ведущих китайских IT-игроков. Появление собственного стека коллективных коммуникаций выводит российскую компанию в одну лигу с глобальными лидерами в области ускорения ИИ-инфраструктуры.

Существенный вклад в рост эффективности внёс и переход на формат чисел с пониженной точностью FP8. Использование такого представления данных уменьшает объём вычислений и объём передаваемой между устройствами информации, за счёт чего обучение ускорилось примерно на 30%, а нагрузка на коммуникационные каналы сократилась вдвое. При этом для больших языковых моделей удалось сохранить нужный уровень качества, что особенно важно, поскольку снижение точности традиционно связано с риском деградации результатов.

Одновременно Яндекс радикально увеличил размер батча - количество токенов, обрабатываемых за один шаг обучения. Теперь модели обучаются с батчем 16-32 млн токенов. Это решение позволило избавиться от простоев графических процессоров: вместо того чтобы ждать накопления данных или завершения вспомогательных операций, GPU практически постоянно загружены полезной работой. Для крупных языковых моделей это один из ключевых факторов, определяющих итоговую стоимость цикла обучения.

Не ограничившись программной оптимизацией алгоритмов, компания занялась и инженерной составляющей инфраструктуры. Улучшена надёжность дата-центров и вычислительных кластеров, снижено количество аппаратных сбоев, уменьшены простои и риск внезапного прерывания длительных обучающих запусков. Это особенно критично: перезапуск обучения огромных моделей с нуля - чрезвычайно затратная операция, и даже единичный инцидент может "съесть" сэкономленные ресурсы. За счёт повышения стабильности инфраструктуры удалось существенно уменьшить расходы на повторные прогоны.

Изменения коснулись и программного кода, и архитектурных решений. В Яндексе пересмотрели внутренние инструменты оркестрации задач, улучшили планировщик, оптимизировали работу с памятью и сетевыми стеками, внедрили дополнительные механизмы мониторинга и диагностики. Всё это в совокупности повысило общую функциональность системы: стало проще управлять экспериментами, масштабировать обучение на новые кластеры, добавлять новые модели и конфигурации без глубоких переработок.

Фактически компания выстроила полный технологический контур для промышленного обучения LLM: от низкоуровневой библиотеки коллективных операций до высокоуровневых инструментов, управляющих экспериментами исследователей и разработчиков. Такой подход даёт не только прямой экономический эффект, выраженный в миллиардах рублей, но и стратегическое преимущество - независимость от внешних поставщиков критически важного ПО и возможность тонко адаптировать систему под собственные задачи.

С экономической точки зрения достигнутый результат сопоставим с крупными инфраструктурными проектами: экономия 4,8 млрд рублей в год - это не просто сокращение расходов, а перераспределение ресурсов в пользу дальнейших инвестиций в ИИ. Высвобождённые средства можно направить на расширение кластеров, разработку новых архитектур LLM, улучшение продуктов на основе YandexGPT и голосового ассистента "Алиса", а также на исследования в смежных областях, таких как мультимодальные модели и агенты нового поколения.

Важно и то, что предложенные решения не сводятся к узкоспециализированной оптимизации "под одну модель". YCCL и связанный с ней стек технологий могут использоваться в самых разных сценариях: при обучении языковых моделей, систем генерации кода, рекомендательных движков, систем обработки изображений и видео. Универсальность библиотеки и способность масштабироваться на большие кластеры делает её базовым элементом всей экосистемы ИИ-сервисов компании.

Для российского рынка ИИ такие разработки имеют ещё одно измерение - технологический суверенитет. Наличие собственной высокопроизводительной библиотеки коллективных коммуникаций и полностью контролируемой инфраструктуры означает меньшую зависимость от решений зарубежных вендоров и санкционных рисков. Это создаёт более устойчивую базу для долгосрочного развития сервисов ИИ, ориентированных как на массового пользователя, так и на корпоративный сегмент.

На прикладочном уровне подобные оптимизации напрямую влияют на конечные продукты. Чем дешевле и быстрее обучать новые версии моделей, тем чаще можно выпускать обновления, расширять словарь, улучшать понимание контекста, внедрять новые языки и доменные знания. Пользователи видят это в виде более умных ответов голосового ассистента, более точной генерации текстов, лучшего понимания запросов и естественного диалога с сервисами.

Помимо чисто технических преимуществ, подобные проекты формируют внутри компании уникальную экспертизу по построению высокопроизводительных вычислительных систем. Команды, создающие YCCL и сопутствующую инфраструктуру, накапливают знания о работе с крупными кластерами, оптимизации сетей, балансировке нагрузок и управлении рисками. Эта экспертиза становится конкурентным преимуществом сама по себе и может использоваться в других направлениях - от облачных платформ до корпоративных решений для крупных клиентов.

Можно ожидать, что дальнейшее развитие инфраструктуры обучения пойдёт в сторону ещё более агрессивного использования чисел пониженной точности (включая гибридные форматы), адаптивной настройки батча в реальном времени и более тесной интеграции алгоритмов оптимизации с планировщиком вычислений. В таком сценарии системы будут автоматически подстраиваться под состояние кластера, тип модели и текущую нагрузку, выжимая максимум из доступного "железа" без ручной настройки.

Особое значение имеет и конкурентный контекст. На глобальном рынке лишь немногие компании могут позволить себе разрабатывать и поддерживать собственные библиотеки коллективных коммуникаций: традиционно этим занимались производители железа и корпорации, контролирующие огромные GPU-кластеры. Появление у Яндекса собственной библиотеки уровня YCCL сигнализирует о том, что компания перешла из категории просто крупного пользователя ИИ-инфраструктуры в категорию её создателей, формирующих отраслевые стандарты.

Таким образом, оптимизация обучения нейросетей в Яндексе - это не точечное улучшение, а комплексная трансформация вычислительной платформы. За счёт сочетания собственного программного стека (YCCL), перехода на FP8, увеличения батча до 16-32 млн токенов, перераспределения ролей между CPU и GPU, укрепления инфраструктуры и улучшения архитектуры система стала одновременно быстрее, дешевле и надёжнее. Это редкий пример того, как внутренняя инженерная работа напрямую превращается в ощутимый экономический и технологический эффект.

*Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена.

Прокрутить вверх