Критерии выбора системы хранения данных

Построение ЦОД

20 февраля 2026

Неправильно выбранная СХД приводит к тем же последствиям, что и недостаточное электропитание — остановке сервисов.

Но если отказ питания виден сразу, проблемы хранения проявляются постепенно: сначала — задержки запросов к БД, потом — тайм-ауты приложений, затем — недоступность сервиса. Разбираемся, как выбрать систему хранения до того, как она станет узким местом инфраструктуры.

Главная ошибка при выборе СХД

Типичный сценарий: «Нам предлагают два варианта — модель А или модель B, что посоветуете?» Проблема: сравнение начинается с железа, а не с задач.

Правильная последовательность: Бизнес-требования ↓ Анализ нагрузки ↓ Технические требования ↓ Выбор архитектуры ↓ Сравнение вендоров

Первый вопрос — не «какую СХД купить», а «зачем она нужна».

Типы данных и требования к хранению

Характер данных определяет архитектуру хранения.

Тип данных	Особенность	Требование к СХД
БД (OLTP)	случайный доступ	высокие IOPS, низкая latency
Медиа, архивы	последовательный доступ	высокий throughput
Виртуализация	смешанная нагрузка	баланс IOPS и throughput
VDI	высокая утренняя нагрузка	пиковые IOPS

Сжимаемость данных влияет на эффективность:

Текстовые БД, логи — до 10:1
Офисные документы — 3:1 – 5:1
Медиафайлы, зашифрованные данные — практически не сжимаются

Метрики производительности

Три ключевых параметра определяют производительность СХД.

Метрика	Что измеряет	Критично для
IOPS	операций в секунду	БД, виртуализация
Latency	задержка ответа	OLTP, высоконагруженные системы
Throughput	пропускная способность (МБ/с)	медиа, резервное копирование

Пример:

OLTP-БД: 50 000 IOPS, latency < 1 мс
Файловый сервер: 500 МБ/с throughput, latency не критична

Важно: измерять нагрузку нужно месяц, а не день. Пики могут быть в 5-10 раз выше средних значений.

Требования к доступности

Доступность	Простой в год	Применение
99% (2 девятки)	95 часов	некритичные системы
99.9% (3 девятки)	9.5 часа	стандартные бизнес-приложения
99.99% (4 девятки)	53 минуты	критичные БД, ERP
99.999% (5 девяток)	5 минут	финансовые системы

RPO / RTO — показатели на каждый инцидент

RPO (Recovery Point Objective) — допустимая потеря данных:

Резервное копирование раз в сутки → RPO = 24 часа
Снапшоты каждый час → RPO = 1 час
Синхронная репликация → RPO ≈ 0

RTO (Recovery Time Objective) — время восстановления сервиса:

Восстановление из backup → RTO = несколько часов
Переключение на реплику → RTO = минуты
Метрокластер → RTO < 1 минута

Ключевые технологии СХД

Снапшоты

Моментальный снимок состояния данных без физического копирования.

Применение:

Быстрое восстановление при ошибках
Создание сред VDI
Низкие RPO (снапшоты каждые 15-30 минут)

Важно: снапшоты не заменяют резервное копирование.

Дедупликация

Устранение дублирующихся блоков данных.

Эффективность зависит от типа данных:

VDI — до 20:1
Резервные копии — 10:1 – 15:1
Активные БД — 2:1 – 3:1

Компрессия

Сжатие данных на лету.

Влияние на производительность:

Inline (в момент записи) — дополнительная latency
Post-process (отложенное) — без влияния на запись

Репликация

Синхронная — данные записываются одновременно на обе СХД (применение: метрокластер <100 км, RPO ≈ 0, высокие требования к каналу связи)
Асинхронная — периодическая передача изменений (применение: DR-площадка, RPO = интервал репликации, меньшие требования к каналу)

Thin Provisioning

Выделение дискового пространства по требованию.

Пример: Создан том 10 ТБ → физически выделено 2 ТБ → по мере заполнения выделяется больше. Риск: переподписка (oversubscription) может привести к исчерпанию места.

Метрокластер — географически распределённая отказоустойчивость

Два ЦОД на расстоянии <100 км работают как единая система.

ЦОД 1                ЦОД 2
[Серверы] ─┐       ┌─ [Серверы]
           │       │
    [СХД] ←───→ [СХД] (синхронная репликация)
           │       │
        [Единый датастор]

Преимущества:

Автоматическое переключение при отказе площадки
RTO < 1 минута
RPO ≈ 0
Без остановки виртуальных машин

Ограничение: latency между площадками <5 мс.

Расчёт производительности СХД

Для корректного сайзинга нужны данные за месяц:

Средняя нагрузка (IOPS, throughput)
Пиковая нагрузка
Нагрузка резервного копирования
Размер рабочего набора данных

Инструменты сбора метрик:

Встроенные средства СХД
Системы мониторинга хостов
Специализированные утилиты

Типичные просчёты:

Смотрят текущую нагрузку, а не пиковую
Не учитывают резервное копирование
Игнорируют рост данных на 2-3 года

Правильный подход: пиковая нагрузка + 30% запас + прогноз роста.

All-Flash vs гибридные СХД

Параметр	All-Flash	Гибридные (HDD + SSD)
Производительность	Высокие IOPS	Средние IOPS
Задержки	Низкая latency	Средняя latency
Экономика	Высокая стоимость $/ТБ	Низкая стоимость $/ТБ
Применение	БД, виртуализация	Архивы, файловые сервисы

Тренд: стоимость SSD снижается, граница между All-Flash и гибридными стирается. Для OLTP-БД и виртуализации All-Flash — стандарт.

Сетевая инфраструктура для СХД

Протокол	Скорость	Применение	Особенность
FC	16-32 Гбит/с	SAN	выделенная сеть
iSCSI	10-100 Гбит/с	SAN	поверх Ethernet
NFS/SMB	10-100 Гбит/с	NAS	файловый доступ
NVMe-oF	25-100 Гбит/с	SAN	минимальная latency

Главная ошибка: использование общей сети для iSCSI. Результат: конфликт трафика, задержки БД.

Правило: для блочного доступа — выделенная сеть.

Вендор vs интегратор vs SDS

Модель	Преимущество	Недостаток
Вендорская СХД	готовое решение	привязка к производителю
SDS	гибкость железа	сложность внедрения
Самосбор	низкая стоимость	отсутствие поддержки

Для критичных систем — вендорская СХД с поддержкой. Для некритичных нагрузок — SDS или самосбор.

Выбор системы хранения — инженерная задача, начинающаяся с анализа бизнес-требований.

Последовательность:

Определить RPO/RTO
Измерить текущую нагрузку (месяц)
Рассчитать требуемые IOPS и throughput
Выбрать архитектуру (All-Flash, гибридная, SDS)
Сравнить вендоров по техническим требованиям

Главное: не железо выбирает задачи, а задачи определяют железо.

Частые вопросы

Как измерить текущую нагрузку на хранилище?

Собирать метрики минимум месяц через встроенные средства СХД, системы мониторинга хостов или специализированные утилиты. Важны пиковые значения, а не средние.

В чём разница между RPO и RTO?

RPO — допустимая потеря данных при аварии (часы). RTO — время восстановления сервиса после аварии (минуты/часы). RPO определяет частоту резервного копирования, RTO — архитектуру отказоустойчивости.

All-Flash или гибридная СХД?

Для БД и виртуализации — All-Flash (критична latency). Для архивов и файловых сервисов — гибридная (критична стоимость $/ТБ). Граница стирается с удешевлением SSD.

Комментарии

Загрузка комментариев...

Назад к списку