AI-разработка

Vector databases в России 2026 — Qdrant, Weaviate, отечественные альтернативы

vector database: данные, числа, рекомендации для CTO/EM. Открытые источники, методология, ограничения — IT Institute.

Ключевые данные
80%
RAG-проектов команд 10–50 человек закрываются на Postgres + pgvector без отдельной vector database на первом этапе

5 мс
типичная p95 задержка Qdrant self-hosted на наборе 10 млн векторов (768 измерений) при корректной настройке HNSW

1 млрд+
практический масштаб коллекций, где Qdrant и Milvus сохраняют устойчивую производительность при шардировании

0 ₽ vs ~70 $/мес
ориентир бюджета для 1 млн векторов: расширение в существующем Postgres против стартового managed-тарифа


Ключевые выводы:

  • 80% пилотов не требуют отдельного движка. Для баз знаний до 2–5 млн фрагментов и умеренной частоты запросов расширение pgvector часто экономичнее и проще в сопровождении.
  • Порог архитектурного перехода виден на 10–20 млн векторов. После этого у многих команд растут p95 и стоимость обслуживания индексов в Postgres, особенно при параллельной транзакционной нагрузке.
  • Qdrant стабилен в диапазоне 5–15 мс p95 на 10 млн. При корректной памяти под граф HNSW и выделенном диске NVMe задержка обычно предсказуема даже при росте top-K.
  • Weaviate выигрывает там, где критичны встроенные модули. Гибкая модель схемы, гибридный поиск и экосистемные интеграции полезны, но добавляют сложность эксплуатации.
  • Managed-подход снижает операционные риски на 30–40% по времени DevOps. Команды с дефицитом инфраструктурных ресурсов быстрее выходят в прод, но платят премию за сервис.
  • Санкционные ограничения делают on-prem и облака РФ базовым сценарием. Для high-trust доменов приоритет получают self-hosted инсталляции и российские провайдеры с юридически прозрачной моделью доступа.

В 2024–2026 годах архитектура RAG стала стандартом для корпоративных ассистентов, внутреннего поиска по знаниям и систем рекомендаций. Для российских команд ключевая проблема не в том, как получить embeddings, а в выборе хранилища под реальные ограничения: доступность managed-сервисов, требования к размещению данных, ограниченный штат DevOps и бюджет на сопровождение. На практике выбор обычно делается между четырьмя контурами: Postgres + pgvector как старт, Qdrant как специализированное решение, Weaviate как функционально насыщенный вариант и набор отечественных либо локально разворачиваемых альтернатив.

Примечание редакции

Сравнение опирается на публичные тарифные сетки и техническую документацию. Цены сверять перед закупкой — могут меняться.

Оценка построена как практическая decision-модель: сопоставлены официальные документы вендоров, открытые бенчмарки ANN и анонимизированные наблюдения по российским командам 10–100 человек, внедрявшим RAG в 2025–2026 годах. Сравнение выполнялось по четырём классам метрик: производительность (p95, throughput), стоимость владения, зрелость эксплуатации и доступность в контуре РФ.

Источники данных
Документация Qdrant, Weaviate, pgvector, публичные прайс-листы, ANN-Benchmarks, интервью с ML/Platform-лидами и эксплуатационные отчёты команд.

Период исследования
Q1 2025 — Q2 2026, с фиксацией изменений тарифов и доступности managed-сервисов на май 2026 года.

Матрица выбора Qdrant vs Weaviate vs pgvector

Зачем vector database

Vector database — это система хранения и поиска, оптимизированная под операции ближайших соседей в многомерном пространстве embeddings. Если в традиционных реляционных базах основной индексный паттерн — B-tree по точному значению или диапазону, то в векторных системах ключевую роль играют структуры вроде HNSW, IVF или PQ, позволяющие быстро находить «семантически близкие» элементы при допустимой потере точности.

Для RAG это означает, что пользовательский запрос преобразуется моделью в embedding-вектор, затем выполняется top-K поиск по корпусу документов, и найденные фрагменты подаются в LLM как контекст. В recommendations-потоке похожим образом выбираются соседние товары или материалы. В semantic search векторный сигнал часто комбинируется с BM25 и фильтрами метаданных.

Отдельная vector database оправдана, когда объём и частота запросов выводят систему за рамки «приемлемого» реляционного варианта. До определённого масштаба pgvector в существующем Postgres даёт сильный экономический профиль: меньше компонентов, проще резервирование, единый контур мониторинга. Но при росте коллекции и усложнении фильтров специализированные движки обычно дают более предсказуемые задержки.

3 типа задач RAG

RAG-инфраструктура. Главная метрика здесь — баланс релевантности и задержки. Командам важны p95 на retrieval, качество rerank и стабильность при обновлении индекса. Если база знаний обновляется батчами раз в сутки, один набор требований; если ingestion идёт непрерывно, критичны write-path и фоновые перестроения.

Семантический поиск. В этом сценарии почти всегда нужен гибрид: full-text плюс векторное сходство, а также строгие фильтры по атрибутам. Удобство схемы, поддержка фильтрации и ранжирования влияют не меньше, чем «голая» скорость ANN.

Рекомендации. Здесь роль играет throughput и стоимость вычисления соседей для большого каталога. Часто важно хранить несколько embedding-пространств одновременно: поведенческое, контентное, персонализированное. Для команд с частым переобучением модели простота массовой перезаливки данных иногда важнее абсолютного минимума задержки.

Практический ориентир

Если у команды один RAG-сценарий, до 2–5 млн фрагментов и нет строгого SLA ниже 50 мс end-to-end, старт на Postgres + pgvector обычно рациональнее, чем раннее внедрение отдельного векторного стека.

Матрица выбора платформ

Ниже сводная decision-матрица по пяти вариантам, которые чаще всего рассматривают российские команды в 2026 году.

Платформа Практический масштаб Типичная p95 Размещение и доступ Ориентир стоимости
Postgres + pgvector до 50–250 млн векторов в зависимости от схемы 15–60 мс на 1–10 млн on-prem, облака РФ, высокий контроль 0 ₽ сверх текущего контура или доплата за более крупный инстанс
Qdrant 100 млн — 1 млрд+ 5–20 мс на 10–100 млн self-hosted, managed; хороший on-prem профиль self-hosted: инфраструктура; managed: от стартовых тарифов
Weaviate 100 млн+ 8–30 мс self-hosted, managed; сильная экосистема модулей выше при сложной конфигурации и managed-подходе
Milvus 1 млрд+ 6–25 мс чаще self-hosted, высокий порог эксплуатации выигрыш на крупном масштабе, но дороже в сопровождении
Отечественные альтернативы зависит от продукта 10–80 мс юридически удобны в РФ, но разная зрелость часто предсказуемая рублёвая модель, ограниченная функциональность

Ключевой вывод матрицы: выбирать платформу нужно не по бренду, а по фазе продукта. На ранней фазе решает скорость проверки гипотез и минимальный операционный след. На фазе масштабирования решают предсказуемость p95 и стоимость на 10–100 млн объектов. На enterprise-фазе добавляются регуляторика, отказоустойчивость и управляемость обновлений.

Латентность и стоимость на разных объёмах

Сопоставление производилось для трёх размерностей embeddings: 384, 768 и 1536. При увеличении размерности почти линейно растут требования к памяти и индексу, а это напрямую влияет на стоимость железа и задержку p95.

Сценарий Postgres + pgvector Qdrant self-hosted Weaviate self-hosted
1M, 384-dim p95 12–25 мс, минимальные допзатраты p95 4–10 мс, выше порог запуска p95 6–14 мс, хороший запас по функциям
10M, 768-dim p95 35–80 мс при смешанной нагрузке p95 5–15 мс при выделенной памяти p95 8–22 мс
100M, 1536-dim часто требует сложного шардирования p95 12–40 мс при корректной топологии p95 15–45 мс, зависимость от конфигурации кластера

По стоимости для малого объёма разница максимальна: при 1 млн векторов и умеренной частоте запросов расширение pgvector в существующем Postgres нередко укладывается в «0 ₽ дополнительных лицензий», тогда как managed-вариант специализированной базы начинается примерно с уровня 70 $/мес и выше, не считая сетевых и резервных расходов. На 10–100 млн картина меняется: выигрыш в задержке и стабильности специализированных движков часто компенсирует дополнительный бюджет.

Self-hosted vs managed

Self-hosted обычно выбирают команды, которым нужны контроль данных, развёртывание в контуре РФ и предсказуемость юридического доступа. Qdrant и Weaviate в таком режиме работают устойчиво, но требуют зрелой операционной дисциплины: мониторинг, резервирование, тюнинг параметров HNSW, тестирование обновлений и процедуры аварийного восстановления.

Managed-сценарий ускоряет запуск, потому что снимает часть рутинной инфраструктурной нагрузки: обновления, наблюдаемость, базовые механизмы отказоустойчивости. Но здесь появляется зависимость от провайдера и доступности сервиса из России. Для критичных бизнес-процессов это не только технический, но и контрактный риск.

Практика команд 2025–2026 показывает типичный компромисс: пилот и ранний прод запускаются в облаке РФ на Postgres + pgvector, затем при росте переходят к self-hosted Qdrant в Kubernetes. Managed используют, когда DevOps-команда перегружена релизами и важна скорость выхода функциональности.

Операционный критерий выбора

Если в команде меньше 1–2 инженеров платформы на AI-направление, ранний self-hosted кластер может стать узким местом по срокам. В таких условиях managed или pgvector-старт дают более устойчивый темп поставки.

Этапы внедрения

Эффективная стратегия внедрения обычно трёхшаговая. Шаг 1: запуск на Postgres + pgvector для проверки retrieval-качества, выбора чанкинга и метрик ответа ассистента. Шаг 2: при росте корпуса и нагрузки — миграция коллекций в Qdrant или Weaviate с параллельным сравнением качества. Шаг 3: выбор модели эксплуатации: managed при дефиците ресурсов или self-hosted при требованиях к контролю и локализации данных.

Критично заранее определить «триггеры перехода»: p95 retrieval выше целевого, рост стоимости на запрос, нестабильная индексация, сложность поддержки фильтрации и мультитенантности. Если такие пороги не формализованы, миграция обычно затягивается и становится реактивной.

Также важно не разделять архитектурные решения и продуктовые метрики. Выбор vector database должен коррелировать с бизнес-результатом: точность ответов, конверсия поиска, скорость онбординга новых документов. Иначе команда оптимизирует инфраструктуру, не улучшая пользовательскую ценность.

Сравнительный анализ

Критерий Postgres + pgvector Qdrant Weaviate Отечественные решения
Скорость старта высокая Средняя Средняя Средняя
Сложность эксплуатации Низкая–средняя Средняя Средняя–высокая различается
Производительность на 100M+ Ограниченная без сложной архитектуры Высокая Высокая Неоднородная
Подходящесть для RAG MVP высокая Высокая Высокая Средняя
Риск в условиях санкций Низкий в облаках РФ/on-prem Низкий при self-hosted, средний при managed Низкий при self-hosted, средний при managed Низкий

Рекомендации по сценариям

Главный практический сдвиг 2026 года: рынок ушёл от вопроса «какая база технически лучше» к вопросу «какой стек минимизирует риск провала конкретного этапа продукта». Для большинства команд главный риск на старте — не p95 в 5 мс, а неспособность быстро итеративно улучшать retrieval-цепочку и управлять стоимостью экспериментов. Поэтому решение «сначала pgvector, затем точечная миграция» остаётся рациональным по совокупности факторов.

При этом для крупных баз знаний и высокой конкуренции по качеству ответа без специализированной vector database становится сложно удерживать SLA и стоимость. Qdrant чаще оказывается балансным вариантом по инженерной предсказуемости, Weaviate — вариантом с богатой функциональностью, полезной при сложных сценариях поиска и оркестрации данных.

  • Для CTO: фиксируйте пороги перехода между этапами заранее и привязывайте их к бизнес-метрикам, а не только к инфраструктурным графикам.
  • Для Tech Lead: закладывайте двуконтурный план миграции с параллельным тестированием качества retrieval, чтобы избежать резкого переключения в проде.
  • Для ML-инженера: оценивайте базу вместе с pipeline embeddings, rerank и chunking-стратегией — изолированный тест ANN мало что говорит о качестве финального ответа.
  • Для Platform-команды: отдельно считайте эксплуатационную стоимость: мониторинг, бэкапы, обновления и время реакции на инциденты часто определяют итоговый TCO.

Рекомендации

  • Начинайте с простого контура. Для команд до 50 человек и раннего RAG обычно Postgres + pgvector, что снижает time-to-market и не требует немедленного расширения DevOps-штата.
  • Переходите на специализированный движок по метрикам, а не по тренду. Если p95 retrieval стабильно выше целевого диапазона или стоимость запроса растёт быстрее нагрузки, миграция в Qdrant/Weaviate обоснована.
  • Разделяйте продуктовый и инфраструктурный SLA. Отдельно измеряйте latency retrieval и полный ответ ассистента, чтобы не переплачивать за оптимизацию неузкого места.
  • Планируйте санкционный резерв. Для managed-сервисов фиксируйте сценарий аварийного переноса в on-prem или облако РФ, включая тесты восстановления индекса.
  • Формализуйте требования к эксплуатации до выбора платформы. Наличие 24/7 дежурства, политика обновлений и ответственность за инциденты должны быть определены до заключения контракта.
  • Считайте стоимость на горизонт 12 месяцев. Учитывайте не только тариф, но и инженеро-часы, хранение резервных копий, сетевой трафик и потенциальные простои при миграциях.

Выводы

Vector database в российском контуре 2026 года — это прежде всего архитектурное решение под ограничения среды, а не витрина функций. Для большинства RAG-проектов разумный путь начинается с pgvector, где команда быстро проверяет продуктовую гипотезу и собирает метрики качества. Специализированные платформы дают явный выигрыш, когда проект достигает масштаба, на котором важны стабильные p95, предсказуемая индексация и управляемая стоимость на десятках миллионов объектов.

Qdrant чаще выступает как прагматичный выбор для self-hosted и гибридных моделей эксплуатации. Weaviate хорошо подходит командам, которым нужны расширенные возможности и интеграции, но готовым к более сложному сопровождению. На практике выигрывает не «самая мощная» платформа, а та, что соответствует стадии продукта, компетенциям команды и регуляторным требованиям.

Вывод редакции

Сначала докажите ценность retrieval на простом стеке, затем масштабируйте инфраструктуру по заранее заданным порогам — так снижается риск дорогой и преждевременной платформенной миграции.

Ограничения исследования
  • Неединые стенды. Публичные бенчмарки выполнялись на разных конфигурациях CPU, RAM и дисков, что влияет на прямую сопоставимость задержек.
  • Разная структура данных. Тип чанкинга, длина документов и профиль фильтров заметно меняют результаты даже внутри одной платформы.
  • Тарифная волатильность. Стоимость managed-сервисов и облачной инфраструктуры может меняться чаще, чем цикл архитектурного планирования.
  • Санкционный фактор. Доступность зарубежных контуров и сетевых маршрутов может изменяться вне технического контроля команд.
Источники
1Qdrant Benchmarks — Qdrant, 2025. https://qdrant.tech/benchmarks/
2Documentation — Weaviate, 2025–2026. https://weaviate.io/developers/weaviate
3pgvector README and docs — pgvector contributors, 2026. https://github.com/pgvector/pgvector
4Managed Service for PostgreSQL pricing — Yandex Cloud, 2026. https://yandex.cloud/ru/services/managed-postgresql
5ANN-Benchmarks — ANN Benchmarks project, 2025–2026. https://ann-benchmarks.com/
6State of AI Engineering reports — различн. исследовательские группы, 2025. https://www.latent.space/
7Внутренние полевые заметки IT Institute: анонимизированные команды 10–100 человек, 2025–2026.

FAQ о vector database

Что выбрать для RAG в стартапе на 10 человек?

Для большинства стартапов на раннем этапе рационально начать с Postgres + pgvector, если у вас уже есть реляционный контур и нет жёсткого SLA по задержке retrieval. Это снижает число компонентов, упрощает наблюдаемость и ускоряет первые итерации продукта. Отдельную vector database имеет смысл добавлять, когда упрётесь в метрики: p95 растёт, индексация тормозит релизы, или появляются требования к масштабу и фильтрации, которые сложно поддерживать в текущей схеме.

Когда Postgres+pgvector перестаёт хватать?

Типичный сигнал — сочетание трёх факторов: объём коллекции выходит за десятки миллионов векторов, нагрузка становится смешанной (поиск плюс активные транзакции), а p95 retrieval стабильно превышает целевой порог. Дополнительные признаки: сложные обновления индексов, рост стоимости инстанса без пропорционального выигрыша и сложности с мультитенантностью. На этом этапе специализированные движки обычно дают более предсказуемую производительность и лучшее масштабирование.

Доступен ли Qdrant Cloud из России?

Техническая доступность может различаться по провайдерам, регионам и сетевой политике компании. Поэтому рассчитывать только на внешний managed-контур рискованно для критичных сервисов. Практически надёжный подход — проверять доступность на тестовом контуре, фиксировать требования к маршрутизации и одновременно держать план переноса в self-hosted или облако РФ. Для high-trust доменов многие команды сразу выбирают self-hosted, чтобы минимизировать юридические и сетевые неопределённости.

Сколько ресурсов нужно для self-hosted Qdrant на 10M векторов?

Точный объём зависит от размерности embeddings, параметров HNSW и профиля запросов. Для практического старта часто рассматривают узел с 8–16 vCPU, 64–128 ГБ RAM и NVMe-хранилищем, затем проводят нагрузочный тест на своих данных. Если у вас 768-мерные векторы и top-K 10–20, ключевым ограничением становится память под индекс и кэш. Рекомендуется закладывать запас не менее 30% к расчётной ёмкости, чтобы избежать деградации при пиковых запросах и фоновой индексации.

Когда выбирать Weaviate вместо Qdrant?

Weaviate оправдан, когда критичны встроенные функции экосистемы: гибридный поиск, богатая модель схемы, расширяемость модулями и более сложные сценарии интеграции. Если же приоритет — предсказуемый self-hosted контур с фокусом на векторном поиске и прозрачной эксплуатации, Qdrant часто проще в сопровождении. Выбор стоит подтверждать не общими сравнениями, а пилотом на реальном корпусе: качество retrieval, задержки, сложность эксплуатации и скорость внедрения у вашей команды.

Нужна ли отдельная vector database для внутреннего поиска по документам компании?

Не всегда. Если объём данных умеренный, обновления не непрерывные, а целевое время ответа системы укладывается в бизнес-ожидания, связка Postgres + pgvector может закрыть задачу без дополнительной платформенной сложности. Отдельный движок полезен, когда растут объёмы и требования к SLA, особенно при множестве команд и высоком параллелизме. Практика показывает: раннее усложнение стека чаще тормозит продукт, чем ускоряет его.

Сравнение опирается на публичные тарифные сетки и техническую документацию. Цены сверять перед закупкой — могут меняться.

📄
Скачать PDF-версию
Ключевые данные из этого исследования — в одном структурированном PDF. Все цифры с атрибуцией источника.
Получить →

Доступ к библиотеке исследований

PDF-версии исследований, квартальные обновления данных и еженедельный дайджест — всё в одном кабинете.

Доступ к файлам исследований сразу после регистрации
Подписаться в Telegram