Ключевые выводы
- Yandex Cloud дает широкий диапазон GPU-конфигураций до 8 ускорителей. В публичной документации указаны V100 32 ГБ, A100 80 ГБ, T4 16 ГБ, T4i 24 ГБ и GPU PLATFORM V4 с 141 ГБ VRAM на 1 GPU.
- H100 как брендовый ускоритель не назван в публичной GPU-странице Yandex Cloud. Для задач, где нужен именно H100, прозрачнее сравнивать предложения Cloud.ru AI Factory, Selectel ML и других провайдеров с раскрытыми конфигурациями.
- Cloud.ru дает ясный ценовой якорь: 317 ₽ за A100 PCI и 549 ₽ за H100 PCI за GPU-час с НДС. Расчет сделан из опубликованных тарифов на ВМ с 5 GPU.
- Для обучения Llama-7B цена GPU-часа важна меньше, чем наличие NVLink и очереди на квоту. Разница между 5 GPU H100 PCI и 5 GPU H100 NVLink у Cloud.ru составляет 1 525 ₽ за час ВМ с НДС.
- Для Stable Diffusion inference переплата за H100 часто не окупается. При пакетной генерации изображений A100 или T4i могут дать лучший рубль за результат, если модель помещается в VRAM и нет жесткого SLA по задержке.
- Главный FinOps-рычаг — не скидка, а загрузка GPU. При простое 30% эффективная стоимость GPU-часа растет примерно в 1,43 раза, даже если тариф не меняется.
- Для регулируемых индустрий российская юрисдикция данных остается самостоятельным критерием. Экономия на зарубежном spot-рынке теряет смысл, если персональные данные или коммерческая тайна не должны покидать РФ.
Контекст исследования
Запрос «Yandex Cloud GPU тарифы» в 2026 году стал практическим, а не справочным. Компании уже не просто тестируют нейросети в ноутбуках: они считают стоимость дообучения Llama-7B, запуска Stable Diffusion, RAG-поиска, распознавания документов и внутренних ассистентов. На этом этапе разница между «есть A100 в каталоге» и «можно получить 4-8 GPU к нужной дате» становится критичной.
Российский рынок GPU-инфраструктуры остается неоднородным. Yandex Cloud силен интеграцией с Compute Cloud, DataSphere, Object Storage и сетевым контуром. Cloud.ru раскрывает детальные тарифы на крупные GPU-ВМ, включая H100 и A100. Selectel показывает состав доступных GPU-линеек и ориентирован на гибкую инфраструктуру. Beeline Cloud делает акцент на аттестованной инфраструктуре, SLA и корпоративном сопровождении, но публичная детализация GPU-цен ограничена.
В статье тарифы сравниваются как инженерно-финансовые ориентиры. Перед закупкой GPU-мощностей нужно запросить коммерческие условия у провайдера: наличие ускорителей, срок выдачи квоты, обязательный объем потребления, стоимость дисков, трафика, поддержки и резервирования могут изменить итоговую экономику.
Методология
Мы сопоставили публичные документы провайдеров, актуальные страницы документации на апрель-май 2026 года и типовые профили нагрузки для production AI workloads. Для Cloud.ru рассчитана приведенная цена за 1 GPU-час из опубликованной цены всей ВМ. Для Yandex Cloud основной акцент сделан на конфигурациях, потому что публичная страница GPU раскрывает состав платформ, а не все применимые коммерческие условия в удобной таблице по ускорителям.
Что покрывает обзор
- География: российские облачные провайдеры и российские регионы размещения данных; зарубежные GPU-рынки использованы только как внешний ценовой фон.
- Сегмент: GPU-инфраструктура для машинного обучения, генеративного ИИ, инференса, дообучения моделей и пакетных вычислений.
- Период: тарифные и технические условия, опубликованные в марте-апреле 2026 года, с учетом обновлений документации на май 2026 года.
- Исключения: индивидуальные скидки, закрытые корпоративные договоры, гранты, пилотные спецусловия, нероссийские spot-площадки и разовые поставки bare metal вне публичного каталога.
Основные результаты
Что предлагает Yandex Cloud: V100, A100, T4i и GPU PLATFORM V4
В Compute Cloud у Yandex Cloud заявлены GPU-платформы для разных классов задач: V100 для зрелых ML-нагрузок, A100 80 ГБ для обучения и тяжелого инференса, T4/T4i для экономичных inference-сценариев и GPU PLATFORM V4 для более емких конфигураций. Важная инженерная деталь: GPU предоставляются целиком, поэтому дробного деления одной карты между независимыми арендаторами на уровне стандартной ВМ ожидать не стоит.
Максимальная конфигурация A100 в Yandex Cloud — 8 GPU, 640 ГБ VRAM, 224 vCPU и 952 ГБ RAM. Для Gen2 указаны конфигурации до 8 GPU, 640 ГБ VRAM, 180 vCPU и 1 440 ГБ RAM. GPU PLATFORM V4 доходит до 8 GPU и 968 ГБ VRAM на ВМ, что указывает на класс задач, где узким местом становится не только вычислительная мощность, но и объем памяти.
| Платформа Yandex Cloud | GPU | VRAM на 1 GPU | Максимум GPU на ВМ | Типовой сценарий |
|---|---|---|---|---|
| gpu-standard-v2 | NVIDIA Tesla V100 | 32 ГБ | 8 | ML, batch-вычисления, устоявшиеся пайплайны |
| gpu-standard-v3 | NVIDIA A100 | 80 ГБ | 8 | обучение, дообучение, LLM inference |
| standard-v3-t4i | T4i | 24 ГБ | 1 | экономичный inference, CV, тестовые среды |
| gpu-standard-v4 | GPU V4 | 141 ГБ | 8 | модели с высоким требованием к памяти |
Почему H100 в сравнении требует отдельной проверки
В вендорских материалах заявлены A100, H100 и V100, но публичная документация Yandex Cloud по GPU не называет H100 как отдельную доступную карту в Compute Cloud. Это не означает, что у провайдера не может быть закрытых или проектных вариантов для крупных клиентов, но для публичного сравнения корректнее фиксировать: A100 и V100 подтверждены документацией, H100 требует прямой проверки у менеджера или через проектный контур.
У Cloud.ru ситуация прозрачнее: в тарифе Evolution Compute GPU есть строки для H100 PCI без NVLink, H100 NVLink, A100 PCI и V100. Поэтому Cloud.ru удобен как ценовой ориентир для оценки H100-нагрузок, особенно если команда считает TCO до запроса коммерческих предложений.
Сравнение с Cloud.ru AI Factory, Selectel ML и Beeline GPU
Cloud.ru публикует крупные GPU-ВМ: например, 100 vCPU, 550 GB RAM и 5 GPU H100 PCI без NVLink за 2 745 ₽ в час с НДС. Такая конфигурация дает расчетный ориентир 549 ₽ за GPU-час, но покупать ее как «одну карту» нельзя: минимальная единица тарификации в строке — ВМ с 5 GPU. Для A100 PCI аналогичная ВМ с 5 GPU стоит 1 586 ₽ в час с НДС, то есть около 317 ₽ за GPU-час.
Selectel в документации раскрывает доступные GPU: A100 40 ГБ, A100 80 ГБ, A30, A5000, RTX 6000 Ada и T4. Это сильная позиция для команд, которым важны разные классы карт под разные задачи: не каждую модель нужно запускать на A100 80 ГБ. Beeline Cloud в публичном описании подчеркивает аттестованную инфраструктуру УЗ-1 по 152-ФЗ, 6 ЦОД уровня Tier III и SLA 99,95%, что важно для regulated AI, но публичный GPU-прайс требует уточнения через коммерческий запрос.
Провайдер с самой низкой ценой за GPU-час не всегда дешевле в проекте. Если минимальная конфигурация начинается с 5 или 8 GPU, а нагрузка использует только 1-2 карты, фактическая цена результата растет быстрее, чем видно в тарифной таблице.
Training Llama-7B: где дешевле дообучать
Для Llama-7B базовый выбор — A100 80 ГБ или H100, если нужно ускорить обучение и есть бюджет. При LoRA/QLoRA одна A100 80 ГБ часто достаточна для экспериментов, но production-пайплайн с несколькими прогонами, валидацией и подбором гиперпараметров быстро переходит к 2-4 GPU. Здесь важны NVLink, скорость чтения датасета, Docker-образ, локальный диск и отсутствие долгих простоев в очереди.
Если считать только опубликованный Cloud.ru тариф, H100 PCI обходится примерно в 1,73 раза дороже A100 PCI за GPU-час: 549 ₽ против 317 ₽. H100 может окупиться, если дает ускорение больше этого коэффициента на конкретной модели. Для transformer-нагрузок это возможно, но не гарантировано: качество реализации mixed precision, batch size, оптимизатор и коммуникации между GPU могут съесть часть преимущества.
Inference Stable Diffusion: когда A100 избыточна
Stable Diffusion и SDXL в production чаще упираются в задержку, пакетирование запросов, размер VRAM и стоимость простоя. Если сервис генерирует изображения нерегулярно, дорогая постоянно включенная A100 или H100 будет проигрывать более скромной карте с автозапуском или очередью заданий. Если поток стабилен, A100 может быть рациональнее за счет большего batch size и предсказуемой задержки.
Для inference-сценариев Yandex Cloud T4i и Selectel GPU-линейки с A5000/RTX 6000 Ada выглядят важными альтернативами: они закрывают часть задач без перехода к дорогим дата-центровым ускорителям. Внутри компании это лучше считать через стоимость 1 000 изображений, а не через цену часа.
Доступность GPU: квота важнее прайса
Yandex Cloud прямо указывает, что по умолчанию в облаке установлена нулевая квота на создание GPU-ВМ. Это нормальная практика для дефицитного ресурса, но она меняет процесс планирования: GPU нельзя закладывать в production без заранее одобренной квоты и проверки зон доступности. Для A100 в Yandex Cloud документация отдельно указывает зоны ru-central1-a и ru-central1-b для части GPU-платформ.
Для Cloud.ru и Beeline Cloud критичный вопрос аналогичен: есть ли нужные GPU сейчас, сколько времени занимает выдача ресурса, можно ли закрепить емкость и что происходит при аварийном расширении. В AI-проектах срок ожидания GPU instance может стоить дороже, чем разница 50-100 ₽ за GPU-час.
Compliance: данные не покидают РФ
Для банков, медицины, промышленности, госсектора и крупных B2B-платформ цена зарубежного GPU spot почти не имеет значения, если данные, логи или веса моделей не должны выходить из российского контура. В таких проектах нужно проверять не только страну ЦОД, но и договор, режим обработки персональных данных, резервное копирование, доступ инженеров поддержки и трассировку запросов.
Здесь Yandex Cloud, Cloud.ru, Selectel и Beeline Cloud конкурируют не только GPU, а зрелостью российского инфраструктурного периметра. Для regulated AI правильный вопрос звучит так: «Какая минимальная стоимость результата при соблюдении требований безопасности?», а не «Где самый дешевый H100?».
Матрица выбора
| Провайдер | Публично видимые GPU | Ценовой ориентир | Сильная сторона | Ограничение для расчета |
|---|---|---|---|---|
| Yandex Cloud | V100, A100, T4, T4i, GPU PLATFORM V4 | Требует расчета в прайс-листе или калькуляторе | Интеграция с российским облачным стеком и DataSphere | GPU-квота по умолчанию равна 0 |
| Cloud.ru | H100 PCI, H100 NVLink, A100 PCI, V100 | A100 PCI около 317 ₽/GPU-час; H100 PCI около 549 ₽/GPU-час с НДС | Прозрачные опубликованные тарифы на крупные GPU-ВМ | Минимальная единица может быть ВМ на 4-7 GPU |
| Selectel | A100 40/80 ГБ, A30, A5000, RTX 6000 Ada, T4 | Уточняется по выбранной конфигурации | Разнообразие GPU под разные профили нагрузки | Нужно считать полный сервер, диск и сеть |
| Beeline Cloud | GPU-доступность требует коммерческого уточнения | По запросу | 152-ФЗ, УЗ-1, 6 ЦОД Tier III, SLA 99,95% | Нет детального публичного GPU-прайса |
Интерпретация
Yandex Cloud GPU тарифы нельзя оценивать только как строку «рублей за карту». У Yandex Cloud сильная сторона — инфраструктурная связность: сеть, IAM, объектное хранилище, управляемые сервисы, DataSphere и российский контур. Но если задача сводится к чистому обучению на H100, публичные данные Cloud.ru дают более прямой ценовой ориентир.
- Для CTO: сначала проверяйте доступность нужной GPU-квоты и архитектуру пайплайна, затем сравнивайте цену часа.
- Для FinOps: считайте стоимость результата: 1 эпоха обучения, 1 000 изображений, 1 млн токенов инференса, а не только GPU-час.
- Для CISO: фиксируйте, где хранятся данные, веса моделей, логи промптов и резервные копии.
- Для ML Lead: проверяйте профиль модели на A100, H100 и более дешевых inference-картах до закупки постоянной емкости.
Рекомендации
- Начинайте с короткого нагрузочного теста. 4-8 часов реального training или inference дадут точнее ответ, чем теоретическое сравнение TFLOPS.
- Разделяйте обучение и инференс. Llama-7B может требовать A100/H100 на этапе дообучения, но production inference иногда рациональнее держать на T4i, A5000 или RTX 6000 Ada.
- Запрашивайте квоту заранее. В Yandex Cloud нулевая GPU-квота по умолчанию делает предварительное согласование обязательной частью плана запуска.
- Считайте простой как отдельную статью расходов. При 30% простоя реальная цена полезного GPU-часа увеличивается примерно на 43%.
- Сравнивайте минимальную единицу покупки. Тариф на 5 GPU может быть выгодным для кластера и дорогим для одиночного inference-сервиса.
- Для регулируемых данных выбирайте российский контур по требованиям, а не по привычке. Проверяйте договор, аттестацию, роли доступа, журналы и порядок работы поддержки.
Выводы
Yandex Cloud остается сильным вариантом для команд, которым нужна GPU-инфраструктура внутри зрелого российского облака, особенно если проект уже использует сервисы Яндекса. По публичной документации наиболее понятные GPU-линейки — A100, V100, T4/T4i и GPU PLATFORM V4; H100 требует отдельного подтверждения, если он критичен для проекта.
Cloud.ru дает наиболее удобные публичные ценовые ориентиры для H100 и A100 в крупной конфигурации. Selectel интересен шириной GPU-линейки, Beeline Cloud — compliance-профилем. В production AI workloads победитель определяется не одним тарифом, а суммой факторов: доступность, загрузка GPU, тип модели, требования к данным, сеть, диски и поддержка.
Правильная стратегия на 2026 год — держать Yandex Cloud как сильного кандидата для интегрированного российского AI-контура, но H100-нагрузки и массовый inference считать через пилот у 2-3 провайдеров с одинаковым Docker-образом и одинаковыми данными.
- Публичность тарифов. Часть GPU-условий предоставляется по коммерческому запросу, поэтому итоговая цена крупного клиента может отличаться от опубликованной.
- Изменчивость доступности. GPU-емкость меняется быстрее, чем документация; наличие A100 или H100 нужно подтверждать перед запуском.
- Разная единица тарификации. У одних провайдеров считается отдельная GPU, у других — крупная ВМ с несколькими ускорителями.
- Без теста производительности. Расчеты по тарифам не заменяют бенчмарк на конкретной модели, датасете и batch size.
FAQ о Yandex Cloud GPU тарифы
Какие GPU доступны в Yandex Cloud для AI-нагрузок?
В публичной документации Yandex Cloud указаны NVIDIA Tesla V100 32 ГБ, NVIDIA A100 80 ГБ, NVIDIA T4 16 ГБ, T4i 24 ГБ и GPU PLATFORM V4 с конфигурациями до 8 GPU на одну виртуальную машину. Для большинства AI-задач основной интерес представляют A100 для обучения и тяжелого инференса, T4i для более экономичных inference-сценариев и GPU PLATFORM V4 для задач, где требуется большой объем VRAM.
Есть ли H100 в Yandex Cloud GPU тарифах?
На публичной странице Yandex Cloud Compute GPU H100 не назван как отдельный доступный ускоритель. В документации перечислены V100, A100, T4, T4i и GPU PLATFORM V4. Если для проекта принципиально нужен именно NVIDIA H100, это нужно проверять через менеджера Yandex Cloud или проектный запрос. Для публичного ценового сравнения H100 удобнее смотреть у провайдеров, которые раскрывают H100 в тарифных документах, например Cloud.ru.
Что дешевле для Llama-7B: A100 или H100?
Для Llama-7B ответ зависит от режима работы. Если это LoRA/QLoRA, эксперименты и ограниченный датасет, A100 80 ГБ часто дает лучший баланс цены и достаточной памяти. H100 становится выгоднее, когда ускорение на конкретном пайплайне перекрывает ценовую премию. По опубликованным тарифам Cloud.ru H100 PCI примерно в 1,73 раза дороже A100 PCI за GPU-час, поэтому H100 должен ускорять задачу сильнее этого коэффициента или давать другой важный эффект, например сокращение окна обучения.
Как считать стоимость Stable Diffusion в облаке?
Для Stable Diffusion лучше считать не цену GPU-часа, а стоимость 1 000 изображений при заданном разрешении, batch size и SLA по задержке. Постоянно включенная A100 может быть избыточной, если запросы идут нерегулярно. Для стабильного потока она может окупаться за счет пакетирования и высокой утилизации. Если нагрузка переменная, стоит сравнить T4i, A5000, RTX 6000 Ada и A100 на одном Docker-образе и одинаковом наборе промптов.
Как снизить расходы на production AI workloads?
Главное — повысить полезную загрузку GPU. Нужно отключать простаивающие инстансы, разделять training и inference, подбирать карту под модель, использовать mixed precision, кэшировать эмбеддинги, выносить холодные задачи в очередь и мониторить стоимость результата. Для команды полезны два внутренних показателя: стоимость 1 млн токенов инференса и стоимость одного завершенного цикла обучения. Они быстрее показывают перерасход, чем обычный счет за облако.
Почему GPU-квота важна при выборе Yandex Cloud?
В Yandex Cloud по умолчанию установлена нулевая квота на создание виртуальных машин с GPU. Это значит, что перед запуском проекта нужно запросить увеличение квоты и подтвердить доступность нужной конфигурации в подходящей зоне. Для production это критично: можно корректно посчитать бюджет, но не получить GPU к нужному сроку. Поэтому проверка квоты, зоны доступности и возможности резервирования должна идти до финального выбора архитектуры.
*Сравнение опирается на публичные тарифные сетки и техническую документацию. Цены сверять перед закупкой — могут меняться.*