1. Введение
• Классификация ЦОД по Uptime Institute (Tier I – Tier iV)
2. Основные подсистемы ЦОД
• Инженерное оборудование (электроснабжение, кондиционирование), ИТ-оборудование (сервера, СХД, СКС, сети), каналы связи, вспомогательные системы (ОПС, СОТС, СКУД, видеонаблюдение, пожаротушение), SCADA.
3. Услуги ЦОД. Модели организации сервиса.
• Аренда стоек, HaaS, IaaS, PaaS, SaaS
4. Эксплуатация серверного парка
• Сроки эксплуатации, ротация, ОВИЗ (Оборудование взамен изношенного), снижение расходов
• Организация контуров эксплуатации, архитектурные решения
• Классификация ИС по типам критичности, создание избыточности
5. Эксплуатация ЦОД
• Инженерное оборудование (виды обслуживания, периодичность, резервирование)
• ИТ-оборудование (виды обслуживания, периодичность)
• СКС и каналы связи (организация резервирования, кабель-менеджмент, правила размещения)
• Физическая защита ЦОД (периметр, допуски, защита от утечек информации)
• Сертификация ЦОД как объекта критической инфраструктуры
• Организация работы SCADA и дежурной смены
6. Организационные мероприятия
• Модель обслуживания ЦОД (собственный персонал, аутсорсинг, гибрид)
• Управление персоналом
• Поддержание документации в актуальном состоянии
• Управление договорами
• Организация технического обслуживания
• Управление ЗИП, техжидкости и т.п.
• Организация работы единой диспетчерской службы (мониторинг, анализ трендов, управление инцидентами, управление проблемами, управление мощностями, оповещение персонала и клиентов, и т.п.)
7. Восстановление работы ЦОД
• Общие понятия.
• Разработка DRP (Disaster Recovery Plan) — заранее разработанный и документально оформленный набор действий и процедур, которые организация должна выполнить для восстановления критически важных IT-систем и инфраструктуры в случае чрезвычайной ситуации. Например, аварии в дата-центре, на котором расположены основные сервисы компании.
• Разработка BCP (Business Continuity Plan) - план обеспечения непрерывности бизнеса. Комплексный стратегический документ, который описывает шаги, которые предпримет предприятие в случае непредвиденных событий или чрезвычайных ситуаций, чтобы обеспечить продолжение функционирования или быстрое возобновление критически важных операций.