Введение
ML-платформы в России к концу 2025 года — это рынок двух скоростей. С одной стороны — Яндекс и Cloud.ru наращивают GPU-кластеры, открывают модели и строят managed-сервисы для машинного обучения. С другой — подавляющее большинство компаний не может довести AI-проекты до продакшена: менее 10%проектов выходят из стадии экспериментов.
Между амбициями и реальностью — GPU-дефицит из-за санкций NVIDIA, незрелость MLOps-практик и отсутствие managed Feature Store. Этот обзор фиксирует состояние рынка ML-платформ в Q4 2025 — последний «спокойный» квартал перед ожидаемым ускорением.
Yandex DataSphere: главная ML-платформа страны
DataSphere — managed ML-платформа Яндекса — к концу 2025 года утвердилась как основной инструмент для ML-команд в России. Платформа предоставляет Jupiter-ноутбуки с доступом к GPU, managed-обучение моделей, версионирование экспериментов и деплой моделей в продакшен.
Ключевое преимущество DataSphere — доступ к GPU-кластеру Яндекса, насчитывающему более 10 000GPU. В условиях санкционного дефицита вычислительных мощностей это решающий фактор. Компании, не имеющие собственных GPU, могут арендовать мощности в DataSphere по модели pay-per-use.
Ограничения: DataSphere заточен под экосистему Яндекса. Интеграция с внешними системами (on-premise хранилища, сторонние CI/CD) требует дополнительных усилий. Для компаний с гибридной инфраструктурой это может быть проблемой.
Cloud.ru ML Space и Christofari
Cloud.ru (бывший SberCloud) развивает ML Space — собственную ML-платформу, работающую на суперкомпьютере Christofari. Архитектурно ML Space ближе к Amazon SageMaker: управление экспериментами, обучение моделей, деплой эндпоинтов.
Christofari — один из мощнейших суперкомпьютеров в России — обеспечивает вычислительную базу. Для обучения крупных моделей (десятки миллиардов параметров) альтернатив в России немного: Яндекс и Cloud.ru фактически делят рынок крупных вычислений для ML.
ML Space менее зрелый, чем DataSphere, по количеству managed-сервисов. Но для клиентов экосистемы Сбера — естественный выбор: интеграция с данными, безопасность, compliance.
YandexGPT 5 Lite: первый шаг к open-source
В феврале 2025 года Яндекс открыл исходный код YandexGPT 5 Lite — модели с 8 млрдпараметров. Это первая крупная open-source LLM от Яндекса и один из немногих российских примеров открытия весов промышленной модели.
Зачем это важно: компании получили возможность fine-tune модели на собственных данных без отправки данных в облако. Для задач, требующих data residency (финтех, госсектор, КИИ), это принципиально. 8 млрд параметров — достаточно для многих практических задач: классификация, суммаризация, генерация текста, чат-боты.
Ограничения: 8B — это не frontier-модель. Для задач, требующих глубокого reasoning или работы с длинным контекстом, нужны модели крупнее. YandexGPT 5 Lite — рабочий инструмент, а не research breakthrough.
GPU-дефицит: санкции определяют архитектуру
Санкции против NVIDIA ограничили поставки современных GPU (A100, H100) в Россию. Последствия ощущаются на всех уровнях — от стартапов до крупнейших компаний.
Для облачных провайдеров дефицит означает невозможность масштабировать GPU-кластеры привычными темпами. Яндекс и Cloud.ru закупали GPU до усиления санкций и накопили запасы, но пополнение — через параллельный импорт и альтернативных поставщиков — дороже и непредсказуемее.
Для компаний-потребителей дефицит выражается в высоких ценах на облачные GPU и длинных очередях на выделенные инстансы. Обучение модели, которое на AWS стоило бы $X, в российском облаке стоит 2–3X — не из-за жадности провайдеров, а из-за стоимости оборудования.
Архитектурные последствия:
- Оптимизация моделей — компании инвестируют в квантизацию, дистилляцию и pruning, чтобы уместить модели на доступное оборудование
- Предпочтение inference-задач — обучение с нуля слишком дорого, компании используют готовые модели (YandexGPT, GigaChat) и fine-tune на малых объёмах данных
- Рост спроса на CPU-inference — для задач с невысокими требованиями к латентности модели оптимизируются для работы на CPU (ONNX Runtime, vLLM)
MLOps: незрелость как барьер
Менее 10% AI-проектов в России доходят до продакшена. Основная причина — не качество моделей, а незрелость MLOps-практик.
Что отсутствует:
- Managed Feature Store — ни один российский облачный провайдер не предлагает managed Feature Store (аналог AWS SageMaker Feature Store или Feast). Команды строят собственные решения или обходятся без фича-стора — что приводит к дублированию работы и несогласованности данных между обучением и inference
- Model Registry — версионирование моделей ведётся в лучшем случае через MLflow, в худшем — папками на сетевом диске. Промышленных managed-решений нет
- Мониторинг моделей — drift detection, A/B-тестирование моделей, мониторинг качества предсказаний — всё это ручная работа в большинстве компаний
- CI/CD для ML — автоматическое обучение, валидация и деплой моделей. Немногие компании имеют полностью автоматизированный ML-пайплайн
Парадокс: data scientist-ы обучают отличные модели в Jupiter-ноутбуках, но перенести модель в продакшен — отдельный проект, который может занять месяцы. Разрыв между экспериментом и продакшеном — главная болезнь российского AI.
Экосистема: кто что предлагает
Обзор ML-платформ, доступных российским компаниям к Q4 2025:
- Yandex DataSphere — наиболее зрелый managed-сервис. Jupyter, GPU, обучение, деплой. Экосистема Яндекса
- Cloud.ru ML Space — на базе Christofari. Обучение крупных моделей, интеграция с экосистемой Сбера
- VK Cloud ML Platform — развивающееся предложение, Jupyter + GPU, пока менее зрелое
- Selectel ML — GPU-инстансы по запросу, без managed ML-сервисов. Для команд, предпочитающих self-managed стек
- On-premise — крупные компании (банки, телеком) строят собственные ML-платформы на Kubeflow или MLflow. Дорого, но обеспечивает полный контроль
Интерпретация: от экспериментов к продакшену
ML-платформы в России к концу 2025 года — это рынок с огромным потенциалом и серьёзными структурными проблемами. GPU-дефицит не исчезнет в ближайшие годы — значит, оптимизация и эффективность использования ресурсов будут определять успех.
Открытие YandexGPT 5 Lite — правильный шаг: он снижает порог входа и создаёт экосистему вокруг отечественных моделей. Но для массового продакшен-использования AI нужны не только модели — нужна инфраструктура MLOps, которой в России пока нет.
Компаниям, планирующим ML-проекты, стоит начинать не с обучения моделей, а с построения MLOps-пайплайна: Feature Store, Model Registry, CI/CD для ML, мониторинг. Без этого фундамента каждый ML-проект — одноразовый эксперимент, а не масштабируемое решение.
Источники
Yandex Cloud — документация DataSphere, 2025
Cloud.ru — ML Space и Christofari, 2025
Яндекс — анонс YandexGPT 5 Lite (open-source), февраль 2025
TAdviser — аналитика рынка AI-инфраструктуры в России, 2025
NVIDIA — санкционные ограничения на поставки GPU, 2023–2025
FAQ о ML-платформах Q4 2025
Какая ML-платформа доминирует в России в 2025 году?
Yandex DataSphere — основная managed ML-платформа на российском рынке. Кластер Яндекса насчитывает более 10 000 GPU. Второй крупный игрок — Cloud.ru ML Space, работающий на суперкомпьютере Christofari. Обе платформы предлагают managed-инфраструктуру для обучения и инференса моделей.
Как GPU-дефицит влияет на ML-разработку в России?
Санкции против NVIDIA ограничили поставки современных GPU (A100, H100) в Россию. Это привело к дефициту вычислительных мощностей для обучения крупных моделей. Компании вынуждены использовать облачные GPU по завышенным ценам или оптимизировать модели для работы на менее мощном оборудовании.
Почему менее 10% AI-проектов доходят до продакшена в России?
Основные причины: незрелость MLOps-практик (отсутствие managed Feature Store, слабый мониторинг моделей), нехватка ML-инженеров с опытом продакшен-деплоя и разрыв между экспериментами data scientist-ов и требованиями промышленной эксплуатации.
Исследование подготовлено редакцией it-institute.ru на основе анализа открытых источников с использованием собственной аналитической методологии. Все числовые утверждения сопровождаются ссылками на первоисточники.