ML-платформы в России: контекст Q2 2025
Рынок ML-платформ в России во втором квартале 2025 года формируется под давлением двух противоречивых сил: стремительно растущего спроса на AI/ML-решения и жёстких ограничений на доступ к вычислительным ресурсам. Санкции NVIDIA, запрещающие поставку GPU A100 и H100 в Россию, создали дефицит, который определяет архитектурные решения, выбор моделей и бизнес-стратегии ML-команд.
В результате российский ML-рынок развивается по траектории, отличной от глобальной. Если в США и Европе компании масштабируют обучение LLM на кластерах из тысяч H100, то российские команды сосредоточены на инференсе, fine-tuning компактных моделей и оптимизации под ограниченные ресурсы. Это не отставание — это адаптация, и она создаёт уникальные компетенции.
Yandex DataSphere остаётся основной managed ML-платформой на российском рынке. Но рынок не сводится к одной платформе: Cloud.ru, VK Cloud и ряд нишевых провайдеров предлагают альтернативы для разных сегментов.
Yandex DataSphere: что предлагает платформа
DataSphere — ML-платформа Yandex Cloud — к Q2 2025 является наиболее зрелым managed ML-решением в России. Ключевые возможности:
- Managed GPU: доступ к NVIDIA T4, V100 и (ограниченно) A100 — с почасовой тарификацией и без необходимости управлять инфраструктурой
- Serverless-инференс: автоматическое масштабирование инференса моделей — платите только за использование
- Jupyter-среда: интерактивная разработка с GPU-ускорением — стандартный ML-воркфлоу
- Интеграция с YandexGPT: API для fine-tuning и инференса YandexGPT на корпоративных данных
- Data Proc: managed Spark для обработки больших данных перед обучением моделей
Сильная сторона DataSphere — низкий порог входа. ML-инженер может развернуть эксперимент за минуты, без взаимодействия с DevOps. Это критично для команд без выделенной ML-инфраструктурной роли — а таких в России большинство.
Основная проблема DataSphere — ограниченные GPU-ресурсы. В пиковые периоды (конец квартала, хакатоны) очереди на A100 достигают нескольких часов. V100 доступнее, но для обучения моделей размером более 7B параметров недостаточен. Это вынуждает ML-инженеров оптимизировать архитектуру под T4/V100 — или ждать.
GPU-дефицит: санкции и адаптация
Санкции NVIDIA — центральный фактор, определяющий развитие ML-инфраструктуры в России. С октября 2022 года поставки A100 и H100 в Россию запрещены. В 2024 году ограничения расширены на A800 и H800 — «ослабленные» версии, предназначенные для Китая.
Последствия для российского рынка:
- Цены: стоимость аренды GPU в российских облаках — в 1,5–2 раза выше глобальных цен. A100 в DataSphere стоит ~200 ₽/час, аналогичная конфигурация в AWS — $2–3/час (~180–270 ₽ при курсе 90 ₽/$)
- Доступность: очереди на A100 в пиковые часы. Обучение крупных моделей (70B+) практически невозможно — нет кластеров достаточного размера
- Серый импорт: часть GPU попадает в Россию через посредников в Казахстане, ОАЭ и Китае — по завышенным ценам и без гарантии
Адаптация ML-команд к дефициту формирует специфические компетенции:
| Стратегия | Описание | Типичное применение |
|---|---|---|
| Компактные модели (7–13B) | Llama 2 7B, Mistral 7B — работают на одном GPU | Chatbot, RAG, классификация |
| Quantization (INT8/INT4) | Снижение точности весов — 2–4× экономия памяти | Инференс на T4/V100 |
| LoRA / QLoRA fine-tuning | Обучение адаптеров вместо полной модели | Кастомизация LLM на корпоративных данных |
| Инференс вместо обучения | Использование готовых моделей через API | YandexGPT, GigaChat, Llama через vLLM |
Open-source модели: Llama, Mistral и data residency
Open-source модели — основа ML-стратегии для большинства российских компаний. Три причины их популярности:
Бесплатность. Нет расходов на API-вызовы (OpenAI GPT-4 стоит $30–60/1M токенов). Для компании с высоким объёмом запросов (100K+ в день) — это экономия в сотни тысяч рублей ежемесячно.
Data residency. Данные не покидают контур организации. Для банков, госсектора и компаний на КИИ это не просто преимущество — это требование. Отправка данных клиентов в OpenAI API — нарушение ФЗ-152 и отраслевых регуляций.
Fine-tuning. Open-source модели можно дообучить на корпоративных данных — и получить модель, которая «понимает» внутреннюю документацию, продукт и терминологию. С проприетарными API это невозможно или крайне ограничено.
Наиболее популярные open-source модели в российских компаниях (Q2 2025):
- Llama 2 (7B / 13B): Meta, Apache 2.0 лицензия — самая популярная базовая модель для fine-tuning
- Mistral 7B / Mixtral 8x7B: высокое качество при компактном размере — отличный баланс для инференса на T4
- FRED-T5 / ruGPT (Сбер AI): русскоязычные модели — уступают Llama по качеству, но лучше на русском тексте
Критически: Llama 3 (анонсирована в апреле 2024) к Q2 2025 активно используется в экспериментах, но корпоративных production-деплоев пока мало — компании осторожны с новыми версиями.
Cloud.ru и enterprise HPC
Cloud.ru (бывший SberCloud) занимает нишу enterprise HPC — высокопроизводительных вычислений для крупных корпоративных клиентов. Суперкомпьютер Christofari (и Christofari Neo) — один из крупнейших GPU-кластеров в России, доступный для коммерческого использования.
Целевая аудитория Cloud.ru — компании, которым нужно обучать собственные модели: банки (кредитный скоринг, антифрод), телеком (рекомендации, предиктивная аналитика) и фармацевтика (моделирование молекул). Это не массовый рынок, но высокомаржинальный: контракты на GPU-кластеры исчисляются десятками миллионов рублей.
Ключевое преимущество Cloud.ru — доступ к крупным GPU-кластерам, которых нет у Yandex Cloud. Для обучения моделей размером 30–70B параметров Cloud.ru Christofari — фактически единственная легальная опция в России.
MLOps: незрелость как возможность
MLOps — практики операционализации ML-моделей (версионирование, мониторинг, автоматизация деплоя) — в России находится на зачаточной стадии. По результатам опроса ODS.ai (март 2025, ~800 ML-инженеров), лишь 5% компаний имеют полноценный MLOps-пайплайн. Остальные 95% оперируют в режиме «Jupyter → ручной деплой → молитва».
Типичные проблемы:
- Отсутствие версионирования моделей: 60% компаний не знают, какая версия модели работает в продакшене
- Нет мониторинга data drift: модель деградирует месяцами, прежде чем кто-то замечает
- Ручной деплой: переход от обучения к инференсу требует ручной работы DevOps-инженера
- Нет A/B-тестирования: новая модель заменяет старую без контролируемого сравнения
Инструменты MLOps, набирающие популярность в России: MLflow (версионирование экспериментов), Kubeflow (оркестрация ML-пайплайнов на Kubernetes), DVC (версионирование данных), Seldon Core / BentoML (model serving). Все — open-source, что соответствует стратегии минимизации вендорной зависимости.
Перспективы: что изменится к концу 2025
ML-рынок в России продолжит рост, несмотря на GPU-дефицит. Ключевые тренды:
- Llama 3 в продакшене: компании перейдут от экспериментов к промышленному использованию — качество модели достаточно для большинства корпоративных задач
- RAG как стандарт: Retrieval-Augmented Generation станет основной архитектурой для корпоративных AI-решений — поиск по внутренней базе знаний + генерация ответов
- MLOps-инструменты: 20–30% ML-команд внедрят базовый MLOps-пайплайн — MLflow + автоматический деплой
- Рост DataSphere: Yandex расширит GPU-парк и добавит managed-сервисы для fine-tuning и vector search
Для инженерных лидеров рекомендация — начинать ML-проекты с компактных моделей (7–13B), open-source стека и cloud-платформы (DataSphere или Cloud.ru). Инвестировать в MLOps с первого проекта: экономия на «потом автоматизируем» приводит к техническому долгу, который парализует ML-команды через 6–12 месяцев.
FAQ о ML-платформах Q2 2025
Какая ML-платформа лидирует в России?
Yandex DataSphere — основная managed ML-платформа для широкого рынка. Предлагает managed GPU, serverless-инференс и интеграцию с YandexGPT. Cloud.ru Christofari — лидер для enterprise HPC и обучения крупных моделей. VK Cloud ML Platform — третий игрок, ориентированный на экосистему VK.
Как GPU-дефицит влияет на ML в России?
Санкции NVIDIA ограничивают доступ к A100/H100. Последствия: очереди на GPU в облаках, цены в 1,5–2 раза выше глобальных, невозможность обучения крупных моделей. Адаптация: компактные модели (7–13B), quantization, LoRA fine-tuning, фокус на инференс вместо обучения.
Почему open-source модели популярны в России?
Три причины: бесплатность (нет расходов на API), локальный деплой (данные не покидают контур — критично для data residency и ФЗ-152) и возможность fine-tuning на корпоративных данных. Llama 2 7B работает на одном GPU T4 — доступном и в российских облаках.