ML-платформы в России за первый квартал 2026 года прошли путь от «всё считаем на своих GPU» до «GPU как сервис». Q1 обзор зафиксировал дефицит GPU и начало коммерческой зрелости российских LLM. Q2 принёс три сдвига: Cloud.ru превратился в Neocloud и запустил GPUaaS, спрос на GPU обогнал предложение на 50%, а государство утвердило нацплан на 700+ млрд ₽ в ИИ до 2030 года. Разбираем, что изменилось за квартал и что это значит для CTO и ML-лидов.
Что изменилось с Q1: сводная таблица
| Параметр | Q1 2026 | Q2 2026 | Тренд |
|---|---|---|---|
| Ключевой GPU-провайдер | Cloud.ru ML Space | Neocloud (GPUaaS + AI Factory) | Ребрендинг и расширение |
| Доля GPU-облаков | ~15% (оценка) | 27,4% | Удвоение за год |
| GPU-дефицит | Дефицит на уровне санкций | Спрос на 50% больше предложения | Обострение |
| Расходы бизнеса на ИИ | 58 млрд ₽ (GenAI) | 257 млрд ₽ (весь ИИ) | Масштаб x4,4 |
| Госинвестиции | Нет утверждённого плана | 700+ млрд ₽ до 2030 | Стратегический приоритет |
| Альтернативные GPU | Единичные поставки | Metax, Biren, Moore Threads на Data Fusion | Появление рынка |
| Парадигма адаптации LLM | Fine-tuning как основа | Сдвиг к RAG | Смена подхода |
| Рынок IaaS+PaaS | 226,9 млрд ₽ | 226,9 млрд ₽ (итог 2025) | Рост 37% г/г |
Cloud.ru → Neocloud: GPU как сервис
9 апреля 2026 года Cloud.ru официально запустил Neocloud — подразделение, сфокусированное на GPUaaS (GPU as a Service) и концепции AI Factory. За сухим пресс-релизом стоят конкретные цифры:
- 29 000 серверов в 9 дата-центрах общей мощностью 56 МВт
- Утилизация GPU до 98% — показатель, который большинство корпоративных кластеров не достигают и на 60%
- Снижение стоимости инференса на 80% за счёт оптимизации планировщика и мультитенантности
- 30 млрд ₽ инвестиций в строительство новых дата-центров
Переход от Cloud.ru ML Space к Neocloud — это не просто ребрендинг. Это смена бизнес-модели: вместо продажи вычислительных мощностей enterprise-клиентам предлагается платформа GPUaaS, где GPU арендуются посекундно, с автоматическим масштабированием и оркестрацией задач. Для ML-команд это означает предсказуемые затраты и отсутствие необходимости управлять инфраструктурой вручную.
Концепция AI Factory предполагает полный цикл: от загрузки данных и обучения модели до инференса в продакшене — всё на одной платформе, без переноса между средами. Neocloud позиционирует это как «конвейер для ИИ»: загрузил данные, обучил, развернул, масштабировал — платишь за потреблённые GPU-часы.
В контексте Q1 обзора, где Cloud.ru ML Space конкурировал с Yandex DataSphere за enterprise-сегмент, Neocloud делает ставку на другую нишу — массовый GPU-доступ для любых AI-команд, не только крупных корпораций.
GPU-дефицит: спрос на 50% больше предложения
В Q1 мы констатировали, что санкции ограничивают поставки NVIDIA H100/A100. В Q2 ситуация количественно определена: по данным ComNews (апрель 2026), спрос на GPU-мощности в России превышает предложение на 50%.
Цифры рынка подтверждают масштаб проблемы:
- Доля GPU-облаков в облачном рынке: 12,3% в 2024 → 27,4% в 2026. Прогноз — 85,5% к 2030 году (Data Fusion)
- Рынок IaaS+PaaS: 226,9 млрд ₽ в 2025 году (+37% г/г). GPU-сервисы — основной драйвер роста PaaS-сегмента
- Глобальный рынок MLOps: $4,39 млрд в 2026 → $89,91 млрд к 2034 (CAGR 45,8%). Россия следует мировому тренду с лагом 1–2 года
Для ML-команд это означает три вещи. Во-первых, очереди на GPU-кластеры растут — Yandex DataSphere и Neocloud не справляются с объёмом заявок. Во-вторых, стоимость GPU-аренды не снижается, несмотря на конкуренцию. В-третьих, оптимизация инференса (квантизация, distillation, batching) из «приятного бонуса» превращается в обязательный навык.
Альтернативные GPU: китайские чипы и российские серверы
На Data Fusion 2026 впервые были массово представлены альтернативные GPU-решения — до этого рынок был монополией NVIDIA:
| Производитель | Страна | Продукт | Позиционирование |
|---|---|---|---|
| Metax | Китай | GPU-ускорители | Обучение и инференс, совместимость с CUDA |
| Biren Technology | Китай | BR100/BR104 | HPC и AI-задачи, альтернатива A100 |
| Moore Threads | Китай | MTT S4000 | Инференс, мультимедиа, рендеринг |
| Iluvatar CoreX | Китай | BI-V150 | Обучение LLM, поддержка PyTorch |
Российские серверные платформы — YADRO Vegman, Aquarius, Rikor — начинают интеграцию с китайскими GPU. Это открывает путь к инфраструктуре, не зависящей от NVIDIA, но с существенными оговорками:
- Экосистема программного обеспечения — китайские GPU поддерживают PyTorch и TensorFlow, но не все библиотеки оптимизированы. CUDA-совместимость частичная
- Производительность — по бенчмаркам обучения LLM китайские ускорители отстают от NVIDIA H100 на 20–40%, но для инференса разрыв минимален
- Поддержка — документация преимущественно на китайском, русскоязычное сообщество пока отсутствует
В марте 2026 года Росатом запустил внутреннюю AI-платформу, построенную на open source стеке (MLflow, Kubeflow, Ray). Это первый публичный кейс крупной госкорпорации, которая отказалась от коммерческих ML-платформ в пользу собственной сборки. Для рынка это сигнал: зрелые инженерные команды могут строить ML-инфраструктуру без vendor lock-in.
RAG вместо fine-tuning: смена парадигмы
Одно из ключевых наблюдений Q2 — сдвиг от fine-tuning к RAG (Retrieval-Augmented Generation) как основному способу адаптации LLM. По данным ICT.Moscow (апрель 2026), формулировка звучит так: «доменный ИИ достигается через контекст, а не дообучение».
Почему это важно для ML-инфраструктуры:
- Fine-tuning требует GPU. Дообучение даже 7B-модели на YandexGPT требует 4–8 GPU на часы. При дефиците мощностей это роскошь
- RAG требует векторной БД. Qdrant, Milvus, Weaviate — инфраструктура дешевле и масштабируется проще
- Качество RAG сопоставимо с fine-tuning для большинства бизнес-задач: ответы на вопросы, классификация документов, генерация отчётов
- Обновление данных без переобучения. Новые документы индексируются за минуты, а не часы GPU-времени
Практический эффект: компании, которые в Q1 планировали fine-tuning YandexGPT или GigaChat, к Q2 переключились на RAG-пайплайны. Это снижает порог входа — вместо ML-инженера с опытом распределённого обучения нужен бэкенд-разработчик, умеющий работать с embeddings и vector search.
Нацплан: 700+ млрд ₽ — куда пойдут деньги
Утверждённый национальный план предусматривает инвестиции свыше 700 млрд ₽ в развитие ИИ до 2030 года. На фоне 257 млрд ₽, которые бизнес уже потратил в 2025 году (Data Fusion), государственное финансирование удваивает ресурсную базу отрасли.
Ключевые направления:
- Вычислительная инфраструктура — строительство GPU-кластеров и дата-центров. Neocloud с его 30 млрд ₽ инвестициями — часть этого тренда
- Подготовка кадров — расширение программ ML/AI в вузах. Контекст: SberAI уже предлагает 650–850 тыс. ₽/мес инженерам post-training LLM (апрель 2026)
- Отраслевые AI-решения — внедрение ИИ в здравоохранение, образование, госуправление, промышленность
- Регуляторная рамка — разработка стандартов для AI-систем, включая требования к безопасности и этике
Для ML-платформ нацплан означает рост спроса на managed-сервисы: государственные заказчики предпочитают сертифицированные облачные решения собственной инфраструктуре. Yandex DataSphere и Neocloud — основные бенефициары этого направления.
Рынок кадров: зарплаты LLM-инженеров
Косвенный, но показательный индикатор перегрева рынка — зарплатные предложения. В апреле 2026 года SberAI опубликовал вакансию инженера post-training LLM с вилкой 650–850 тыс. ₽ в месяц. Для сравнения: медианная зарплата ML-инженера в России — около 280 тыс. ₽/мес (данные Хабр Карьера, H2 2025).
Разрыв в 2–3 раза между «обычным ML» и «LLM post-training» отражает реальный дефицит: специалистов, способных работать с RLHF, DPO и alignment на масштабах сотен GPU, в России единицы. Это ещё одна причина, почему рынок смещается к RAG — он не требует таких узких компетенций.
Stanford AI Index 2026: глобальный контекст
13 апреля 2026 года Stanford HAI опубликовал очередной AI Index Report. Ключевые выводы, релевантные для российского рынка ML-платформ:
- Глобальные инвестиции в AI-инфраструктуру выросли на 67% — Россия с ростом GPU-облаков на 120% опережает среднемировой темп
- Доля open source моделей превысила 60% — совпадает с трендом в России (YandexGPT Lite, Saiga, ruGPT)
- RAG стал доминирующим подходом к enterprise AI — подтверждает российский тренд, зафиксированный ICT.Moscow
- Регулирование AI усиливается во всех юрисдикциях — российский нацплан на 700+ млрд ₽ включает регуляторный компонент
Рекомендации для CTO и ML-лидов
| Рекомендация | Действие | Срок |
|---|---|---|
| Оценить Neocloud GPUaaS | Запросить тестовый доступ. Сравнить стоимость инференса с текущим решением. Утилизация 98% означает очереди — бронировать заранее | Q2 2026 |
| Приоритизировать RAG над fine-tuning | Для 80% бизнес-задач RAG достаточно. Fine-tuning оставить для специализированных моделей (медицина, юриспруденция) | Сейчас |
| Протестировать китайские GPU | Metax и Biren — для инференса. Не для обучения крупных моделей. Запросить пилотный доступ у дистрибьюторов | Q3 2026 |
| Бюджетировать рост GPU-затрат | Дефицит 50% не рассосётся к Q3. Заложить +30–40% к текущему GPU-бюджету на H2 2026 | Q2 2026 |
| Следить за нацпланом | Гранты и субсидии из 700+ млрд ₽ начнут распределяться в H2 2026. Подготовить заявки | Q3 2026 |
| Инвестировать в MLOps | Глобальный рынок MLOps растёт на 45,8% в год. Внедрить feature store и model registry до масштабирования | Q2–Q3 2026 |
Методология
Обзор основан на данных конференции Data Fusion (апрель 2026), публикациях ComNews, ICT.Moscow, CNews, пресс-релизе Neocloud (9 апреля 2026), вакансиях SberAI на hh.ru, Stanford AI Index 2026 (13 апреля 2026). Все цифры приведены с указанием источника. Данные о расходах бизнеса (257 млрд ₽) — из доклада на Data Fusion; данные о GPU-облаках (27,4%) — из аналитики Data Fusion; данные о GPU-дефиците (50%) — ComNews.
FAQ о ML-платформах в России Q2 2026
Чем Neocloud отличается от Cloud.ru ML Space?
Neocloud — это отдельное подразделение Cloud.ru, сфокусированное на GPUaaS (GPU as a Service) и концепции AI Factory. Если ML Space предлагал enterprise-вычисления на суперкомпьютере Christofari, то Neocloud — это платформа массового GPU-доступа с посекундной тарификацией, автомасштабированием и утилизацией до 98%. Инфраструктура: 29 000 серверов, 9 дата-центров, 56 МВт мощности.
Стоит ли переходить с fine-tuning на RAG?
Для 80% бизнес-задач — да. RAG дешевле (не требует GPU для дообучения), быстрее обновляется (индексация документов за минуты) и проще в поддержке (бэкенд-разработчик вместо ML-инженера). Fine-tuning оправдан для специализированных доменов — медицина, юриспруденция, финансы — где требуется глубокая адаптация модели.
Можно ли заменить NVIDIA на китайские GPU?
Частично. Для инференса — Metax и Biren Technology показывают приемлемую производительность. Для обучения крупных LLM — пока нет: отставание от NVIDIA H100 составляет 20–40%, а экосистема ПО (библиотеки, документация, сообщество) значительно беднее. Рекомендация: тестировать для инференса, не рассчитывать на замену для обучения до 2027 года.
Как GPU-дефицит влияет на сроки AI-проектов?
Спрос превышает предложение на 50% (ComNews, 2026). На практике это означает очереди на GPU-кластерах от 2 до 6 недель, рост стоимости аренды GPU на 15–25% за квартал и невозможность масштабирования обучения без предварительного бронирования. Рекомендация: бронировать GPU-мощности минимум за месяц, оптимизировать инференс через квантизацию и batching.
Куда пойдут 700+ млрд ₽ из нацплана?
Четыре основных направления: вычислительная инфраструктура (GPU-кластеры и дата-центры), подготовка кадров (ML/AI-программы в вузах), отраслевые AI-решения (здравоохранение, образование, промышленность) и регуляторная рамка (стандарты безопасности AI). Распределение грантов и субсидий ожидается в H2 2026 — рекомендуется готовить заявки уже сейчас.