Перейти к содержанию

Резервное копирование и восстановление. Рекомендации по организации и оптимизации

Введение

Для обеспечения высокой доступности и отказоустойчивости Comindware Platform, включая снижение RTO (время восстановления после сбоя) и RPO (допустимый объём потерянных данных после сбоя) важно надлежащим образом организовать резервное копирование.

Здесь представлены рекомендации по техническим и организационным мерам, позволяющим обеспечить высокую доступность и отказоустойчивость Comindware Platform, непрерывность бизнес-процессов, оптимизировать показатели RPO и RTO и снизить риски потери данных.

Инструкции по настройке резервного копирования встроенными средствами Comindware Platform см. в статье «Резервное копирование. Настройка, запуск и просмотр журнала сеансов».

Общие рекомендации

  • Проведите анализ влияния на бизнес (BIA)
    • Оценка критичности процессов, приложений и данных: определите наиболее важные бизнес-функции, приложения и данные. Оцените потенциальное воздействие их сбоя и установите порядок их восстановления.
    • Приоритизация: классифицируйте процессы, приложения и данные по их важности, чтобы эффективно распределять ресурсы в случае восстановления.
  • Определите целевые показатели RTO и RPO
    • RTO (целевое время восстановления): установите максимально допустимое время простоя после сбоя для каждого критически важного процесса.
    • RPO (допустимый объём потерянных данных): определите максимально допустимый объём потерь данных, чтобы установить частоту резервного копирования.
    • Экономическое обоснование: следует учитывать, что чем меньше RTO и RPO, тем больше затраты на достижение этих показателей. Поэтому целевые показатели необходимо обосновать не только с технической, но и с экономической точки зрения с привлечением бизнес-руководителей.
  • Реализуйте надёжную стратегию резервного копирования и восстановления
    • Регулярное резервное копирование: настройте резервное копирование с частотой, необходимой для достижения целевого показателя RPO.
    • Избыточность хранилищ: используйте комбинацию локальных и удалённых хранилищ для защиты от различных сбоев для достижения целевых показателей RTO и RPO.
    • Многоуровневое восстановление: разработайте подход с многоуровневым восстановлением, начиная с самых важных компонентов.
  • Используйте резервирование и механизмы отказоустойчивости
    • Резервирование: разверните резервные компоненты, чтобы обеспечить непрерывную доступность при их отказе.
    • Автоматическое переключение: реализуйте автоматическое переключение на резервные компоненты для сокращения времени простоя и соблюдения RTO.
    • Использование вспомогательных технологий: при необходимости используйте контейнеризацию и оркестрацию контейнеров (например, Docker и Kubernetes).
  • Автоматизируйте задачи
    • Скрипты процедур: разработайте скрипты для автоматизации задач резервного копирования и восстановления, чтобы минимизировать ошибки и обеспечить целевой показатель RTO.
    • Мониторинг и оповещения: внедрите инструменты мониторинга (например, Zabbix) для отслеживания состояния всех компонентов системы, оперативного выявления сбоев, автоматического реагирования и превентивного уведомления администраторов о возможных проблемах.
  • Регулярно проводите тестирование и проверку плана восстановления
    • Плановые учения: проводите регулярные учения по восстановлению после сбоев, чтобы выявлять слабые места и области для улучшения. В том числе проверяйте целостность резервных копий и возможность восстановления системы из них.
    • Актуализация плана: пересматривайте план восстановления на основе результатов тестов и изменяющихся бизнес-требований.
  • Обеспечьте соответствие отраслевым стандартам
    • Соблюдение требований: согласуйте целевые показатели RTO и RPO с действующими отраслевыми стандартами и нормативами.
    • Документирование: подробно документируйте процессы резервного копирования и восстановления. Это позволит администраторам соблюдать установленные регламенты, а также подтвердить соответствие нормативным требованиям.
  • Улучшайте методологию и инструменты
    • Актуализация подходов: следите за новыми технологиями и рисками и по необходимости обновляйте стратегии резервного копирования и восстановления.
    • Обратная связь: собирайте обратную связь от заинтересованных сторон для выявления возможностей улучшения.

Практики, которых следует избегать

  • Отсутствие регулярного автоматического резервного копирования:
    • Это может привести к к нерегулярному созданию резервных копий и значительным потерям данных в случае сбоя.
  • Хранение резервных копий не в отдельном хранилище:
    • В случае отказа этого носителя все резервные копии будут потеряны.

Состав, частота создания и срок хранения резервных копий

Для обеспечения оперативного и наиболее полного восстановления данных рекомендуется применять следующие способы резервного копирования:

  • Репликация — непрерывно:
    • Репликация данных средствами Apache Ignite, OpenSearch (Elasticsearch), Apache Ignite и файловой системы NFS, развёрнутых в отказоустойчивой конфигурации (с зеркалированием).
    • Это обеспечивает высокую доступность и сводит к минимуму риск простоев системы.
  • Создание снимков виртуальных машин — раз в неделю:
    • Резервное копирование образа всего развёрнутого ПО средствами виртуализации.
    • Рекомендуется сохранять снимок перед любыми изменениями в системе, такими как обновления или изменения конфигурации.
    • Срок хранения резервных копий: не менее трёх месяцев.
    • Это позволяет быстро восстановить систему в случае критического сбоя.
  • Полное резервное копирование экземпляра ПО — не реже двух раз в неделю:
    • Создание полной резервной копии в формате .CDBBZ встроенными средствами ПО.
    • Резервная копия должна содержать базу данных, скрипты, прикреплённые файлы и историю операций.
    • Рекомендуется хранить такие резервные копии во внешнем репозитории или на отдельном диске для дополнительной защиты.
    • Срок хранения резервных копий: не менее двух недель.
    • Это обеспечивает полное восстановление экземпляра ПО.
  • Резервное копирование базы данных — не реже раза в день:
    • Создание резервной копии базы данных в формате .CDBBZ встроенными средствами ПО.
    • Срок хранения резервных копий: не менее недели.
    • Рекомендуется настроить два правила резервного копирования:
      • с интервалом не реже раза в день и сроком хранения не менее 10 рабочих дней (2 недели);
      • с интервалом не реже двух раз в день и сроком хранения не менее 5 рабочих дней (1 неделя).
    • Это позволяет минимизировать потери данных в случае сбоя.
  • Резервное копирование данных OpenSearch (Elasticsearch) — не реже раза в день:
    • Резервное копирование каждого индекса OpenSearch (Elasticsearch) следует выполнять вместе с резервным копированием базы данных.
    • Это обеспечивает актуальность данных в репозитории и позволяет быстро восстановить индексы в случае сбоя.
    • См. «Настройка резервного копирования данных OpenSearch (Elasticsearch)».

Хранение резервных копий

Для повышения надёжности и минимизации потери данных резервные копии следует помещать одновременно в два хранилища:

  • На машине — на выделенном диске:
    • Используйте отдельный диск для хранения резервных копий.
    • Это позволяет избежать потери данных при сбое основного диска.
  • Во внешнем репозитории:
    • Храните копии во внешнем репозитории для дополнительной защиты данных.
    • Это позволяет восстановить систему в случае катастрофического сбоя.

Дополнительные инструкции по резервному копированию и восстановлению данных встроенными и внешними средствами см. в разделе «Резервное копирование и восстановление» базы знаний Comindware.

К началу