Резервное копирование и восстановление. Рекомендации по организации и оптимизации
Введение
Для обеспечения высокой доступности и отказоустойчивости Comindware Platform, включая снижение RTO (время восстановления после сбоя) и RPO (допустимый объём потерянных данных после сбоя) важно надлежащим образом организовать резервное копирование.
Здесь представлены рекомендации по техническим и организационным мерам, позволяющим обеспечить высокую доступность и отказоустойчивость Comindware Platform, непрерывность бизнес-процессов, оптимизировать показатели RPO и RTO и снизить риски потери данных.
Инструкции по настройке резервного копирования встроенными средствами Comindware Platform см. в статье «Резервное копирование. Настройка, запуск и просмотр журнала сеансов».
Общие рекомендации
- Проведите анализ влияния на бизнес (BIA)
- Оценка критичности процессов, приложений и данных: определите наиболее важные бизнес-функции, приложения и данные. Оцените потенциальное воздействие их сбоя и установите порядок их восстановления.
- Приоритизация: классифицируйте процессы, приложения и данные по их важности, чтобы эффективно распределять ресурсы в случае восстановления.
- Определите целевые показатели RTO и RPO
- RTO (целевое время восстановления): установите максимально допустимое время простоя после сбоя для каждого критически важного процесса.
- RPO (допустимый объём потерянных данных): определите максимально допустимый объём потерь данных, чтобы установить частоту резервного копирования.
- Экономическое обоснование: следует учитывать, что чем меньше RTO и RPO, тем больше затраты на достижение этих показателей. Поэтому целевые показатели необходимо обосновать не только с технической, но и с экономической точки зрения с привлечением бизнес-руководителей.
- Реализуйте надёжную стратегию резервного копирования и восстановления
- Регулярное резервное копирование: настройте резервное копирование с частотой, необходимой для достижения целевого показателя RPO.
- Избыточность хранилищ: используйте комбинацию локальных и удалённых хранилищ для защиты от различных сбоев для достижения целевых показателей RTO и RPO.
- Многоуровневое восстановление: разработайте подход с многоуровневым восстановлением, начиная с самых важных компонентов.
- Используйте резервирование и механизмы отказоустойчивости
- Резервирование: разверните резервные компоненты, чтобы обеспечить непрерывную доступность при их отказе.
- Автоматическое переключение: реализуйте автоматическое переключение на резервные компоненты для сокращения времени простоя и соблюдения RTO.
- Использование вспомогательных технологий: при необходимости используйте контейнеризацию и оркестрацию контейнеров (например, Docker и Kubernetes).
- Автоматизируйте задачи
- Скрипты процедур: разработайте скрипты для автоматизации задач резервного копирования и восстановления, чтобы минимизировать ошибки и обеспечить целевой показатель RTO.
- Мониторинг и оповещения: внедрите инструменты мониторинга (например, Zabbix) для отслеживания состояния всех компонентов системы, оперативного выявления сбоев, автоматического реагирования и превентивного уведомления администраторов о возможных проблемах.
- Регулярно проводите тестирование и проверку плана восстановления
- Плановые учения: проводите регулярные учения по восстановлению после сбоев, чтобы выявлять слабые места и области для улучшения. В том числе проверяйте целостность резервных копий и возможность восстановления системы из них.
- Актуализация плана: пересматривайте план восстановления на основе результатов тестов и изменяющихся бизнес-требований.
- Обеспечьте соответствие отраслевым стандартам
- Соблюдение требований: согласуйте целевые показатели RTO и RPO с действующими отраслевыми стандартами и нормативами.
- Документирование: подробно документируйте процессы резервного копирования и восстановления. Это позволит администраторам соблюдать установленные регламенты, а также подтвердить соответствие нормативным требованиям.
- Улучшайте методологию и инструменты
- Актуализация подходов: следите за новыми технологиями и рисками и по необходимости обновляйте стратегии резервного копирования и восстановления.
- Обратная связь: собирайте обратную связь от заинтересованных сторон для выявления возможностей улучшения.
Практики, которых следует избегать
- Отсутствие регулярного автоматического резервного копирования:
- Это может привести к к нерегулярному созданию резервных копий и значительным потерям данных в случае сбоя.
- Хранение резервных копий не в отдельном хранилище:
- В случае отказа этого носителя все резервные копии будут потеряны.
Состав, частота создания и срок хранения резервных копий
Для обеспечения оперативного и наиболее полного восстановления данных рекомендуется применять следующие способы резервного копирования:
- Репликация — непрерывно:
- Репликация данных средствами Apache Ignite, OpenSearch (Elasticsearch), Apache Ignite и файловой системы NFS, развёрнутых в отказоустойчивой конфигурации (с зеркалированием).
- Это обеспечивает высокую доступность и сводит к минимуму риск простоев системы.
- Создание снимков виртуальных машин — раз в неделю:
- Резервное копирование образа всего развёрнутого ПО средствами виртуализации.
- Рекомендуется сохранять снимок перед любыми изменениями в системе, такими как обновления или изменения конфигурации.
- Срок хранения резервных копий: не менее трёх месяцев.
- Это позволяет быстро восстановить систему в случае критического сбоя.
- Полное резервное копирование экземпляра ПО — не реже двух раз в неделю:
- Создание полной резервной копии в формате
.CDBBZ
встроенными средствами ПО. - Резервная копия должна содержать базу данных, скрипты, прикреплённые файлы и историю операций.
- Рекомендуется хранить такие резервные копии во внешнем репозитории или на отдельном диске для дополнительной защиты.
- Срок хранения резервных копий: не менее двух недель.
- Это обеспечивает полное восстановление экземпляра ПО.
- Создание полной резервной копии в формате
- Резервное копирование базы данных — не реже раза в день:
- Создание резервной копии базы данных в формате
.CDBBZ
встроенными средствами ПО. - Срок хранения резервных копий: не менее недели.
- Рекомендуется настроить два правила резервного копирования:
- с интервалом не реже раза в день и сроком хранения не менее 10 рабочих дней (2 недели);
- с интервалом не реже двух раз в день и сроком хранения не менее 5 рабочих дней (1 неделя).
- Это позволяет минимизировать потери данных в случае сбоя.
- Создание резервной копии базы данных в формате
- Резервное копирование данных OpenSearch (Elasticsearch) — не реже раза в день:
- Резервное копирование каждого индекса OpenSearch (Elasticsearch) следует выполнять вместе с резервным копированием базы данных.
- Это обеспечивает актуальность данных в репозитории и позволяет быстро восстановить индексы в случае сбоя.
- См. «Настройка резервного копирования данных OpenSearch (Elasticsearch)».
Хранение резервных копий
Для повышения надёжности и минимизации потери данных резервные копии следует помещать одновременно в два хранилища:
- На машине — на выделенном диске:
- Используйте отдельный диск для хранения резервных копий.
- Это позволяет избежать потери данных при сбое основного диска.
- Во внешнем репозитории:
- Храните копии во внешнем репозитории для дополнительной защиты данных.
- Это позволяет восстановить систему в случае катастрофического сбоя.
Дополнительные инструкции по резервному копированию и восстановлению данных встроенными и внешними средствами см. в разделе «Резервное копирование и восстановление» базы знаний Comindware.
Эта статья была полезна 1 чел.