Управление ЦОД
RadiusVip.ru

Источники бесперебойного питания (UPS/ИБП):
AEG Power Solutions, Eaton (Powerware), Liebert (Vertiv), Riello
Системы прецизионного кондиционироввания воздуха:
RC Group, Munters, Montair, Clint

RadiusVip.Ru

101000, Москва, Колпачный переулок, д. 6 стр. 2

Тел.: (495) 6-410-410

E-mail: welcome@rvip.ru

Написать письмо
>>>

Главная страница  |  Центры обработки данных  |  Управление ЦОД

Управление ЦОД

Вернуться в раздел «Энциклопедия ЦОД


Требуемый уровень надежности ЦОД невозможно обеспечить только за счет построения ЦОД из качественных элементов. Поэтому все больше организаций начинают понимать необходимость внедрения единой системы мониторинга и управления инженерной инфраструктурой ЦОД, которая позволит достичь желаемого.


Автоматизированная система управления ЦОД

Обычно каждая инженерная система имеет законченную самодостаточную архитектуру и не предусматривает алгоритмы взаимодействия с прочими инженерными системами. Таким образом, сведение оперативной информации о состоянии инфраструктуры в единый центр управления штатными средствами подсистем невозможно.


Автоматизированная система мониторинга и управления (АСМУ) позволяет за счет установки дополнительных контроллеров, конвертеров сигналов и системы сбора данных (Supervisory Control and Data Acquisition, SCADА) соединить в цельную логическую структуру все инженерные подсистемы ЦОД. В результате формируется единая среда мониторинга и управления, а события, происходящие в одной из подсистем, могут воздействовать на другие подсистемы.


Если у той или иной инженерной системы имеются штатные системы управления, тогда информационное взаимодействие с системой мониторинга и управления организуется посредством шлюзов или преобразователей протоколов. При отсутствии встроенных систем управления устанавливаются необходимые датчики, преобразователи сигналов, приводы и управляющие устройства. Оборудование объединяется в единую информационную среду посредством одного или нескольких протоколов передачи данных, а его физическое соединение обеспечивает выделенная кабельная система. Вся информация, получаемая от периферийных устройств и инженерных систем, поступает на систему SCADА.


Компания APC объявляет о создании новых программных решений для управления инженерной инфраструктурой ЦОДа — Capacity Manager и Change Manager


ЦОД на аутсорсинге: «за» и «против»

Как с практической, так и с экономической точек зрения управление проектами создания и модернизации ЦОД целесообразно передавать на аутсорсинг независимой консалтинговой компании, несущей ответственность за результат проекта только перед заказчиками и способной наилучшим образом скоординировать работу всех участников проекта. Это подтверждает и международная практика и опыт наиболее прогрессивных отечественных компаний, работающих в разных сегментах экономики.


Представьте себе два сценария.

Сценарий 1:

Построили ЦОД. Но:

  • сроки превысили на несколько месяцев
  • в бюджет не уложились
  • построенный ЦОД не отвечает даже базовым требованиям (достаточность площади, адекватность защиты от пожаров и сигнализации, достаточность питания и охлаждения…)

Сценарий 2:

Построили ЦОД, который:

  • отлично спланирован
  • отлично спроектирован
  • отвечает всем требованиям.

При этом уложились в сроки и в бюджет.


В чем секрет?


Во втором сценарии привлекли эксперта, который:

  • понимает, какие препятствия могут помешать полноценной работе ЦОДа
  • понимает, как требования бизнеса к ИТ могут сказаться на критических нагрузках,
  • заранее правильно оценивает издержки на вспомогательную инфраструктуру.

Что мешает эффективному управлению ЦОД

ИТ-отделы пытаются бороться с растущей сложностью управления центрами обработки данных, при этом испытывая жесткие бюджетные ограничения и нехватку квалифицированного персонала. В число наиболее актуальных мер, предпринимаемых ими, входят внедрение методологии ITIL, использование виртуализации и управление объемом хранилищ данных.


Главным „врагом“ эффективного управления ЦОД признано растущее количество серверов и приложений — так ответило 85% опрошенных компанией Symantec ИТ-сотрудников. На втором месте оказалось число применяемых для управления инфраструктурой средств, его упомянули 80% респондентов. 72% во всем винят рост числа операционных систем. Половина опрошенных в качестве основной причины возникновения чрезвычайных происшествий в ЦОД называет „человеческий фактор“.


Неграмотные действия сотрудников имеют место чаще, чем технологические факторы — отказ оборудования и ошибки приложений. Пытаясь стандартизовать ИТ-процессы, 99% внедряют процедуры ITIL. Более половины с целью упрощения ИТ-инфраструктуры используют или планируют использовать серверную виртуализацию.


Организация управления распределенными ЦОД

ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫЙ БИЗНЕС ТРЕБУЕТ РАСПРЕДЕЛЕННЫХ ЦОД

Для крупного бизнеса, подразделения которого распределены по обширной территории России, в случае централизованного ЦОД возникает необходимость поддержки пользователей 19 часов в сутки при 8−часовом рабочем дне, что сложно реализовать силами персонала центрального ИТ-подразделения. На первый взгляд, напрашивается решение по организации локальных ЦОД в каждом из удаленных филиалов. Однако это решение менее экономично, чем создание нескольких крупных ЦОД, распределенных по территории, на которой расположены отделения компании.


ОРГАНИЗАЦИОННАЯ И ТЕХНОЛОГИЧЕСКАЯ СПЕЦИФИКА СОЗДАНИЯ РАСПРЕДЕЛЕННЫХ ЦОД

Технологическая специфика распределенных ЦОД заключается в необходимости организации отказоустойчивых каналов связи между площадками, репликации данных между хранилищами, обеспечения «прозрачного» доступа пользователей к информационным системам. Организационная специфика распределенных ЦОД – в необходимости налаживания поддержки систем и пользователей, планирования мероприятий по резервному копированию и восстановлению систем.


ОСОБЕНОСТИ ЕДИНОЙ КОРПОРАТИВНОЙ СЕТИ РАСПРЕДЕЛЕННЫХ ЦОД

При создании единой корпоративной сети распределенных ЦОД необходимо обратить внимание на требования, предъявляемые продуктивными системами к пропускной способности каналов. Еще одним важнейшим критическим параметром является задержка передачи данных. Необходимо также учесть, как будет изменяться нагрузка в ближайшие 2−3 года.


ОСОБЕННОСТИ ПРОГРАММНОЙ ЧАСТИ РАСПРЕДЕЛЕННОГО ЦОД

Возможны две основных стратегии использования распределенных ЦОД:

  • инфраструктурные сервисы и бизнес-приложения равномерно распределены между площадками; пользователи работают с ближайшим ЦОД
  • бизнес-приложения централизованы, и пользователи работают с центральным узлом. В случае отказа системы, нагрузка автоматически переключается на резервные ЦОД.

Выбор стратегии зависит от архитектуры бизнес-приложения. Например, трехуровневая клиент-серверная система позволит при единой СУБД разнести серверы приложений по разным ЦОД, и тем самым снизить нагрузку на каналы передачи данных и сократить задержки при работе.


ОСОБЕНОСТИ ПОДДЕРЖКИ РАСПРЕДЕЛЕННЫХ ЦОД

Необходимо разработать регламент поддержки распределенного ЦОД, который должен содержать положения о распределении зон ответственности между администраторами, о распределении пользователей между площадками, описание методики резервного копирования и восстановления данных.


Для повышения эффективности эксплуатации ЦОД целесообразно формирование в компании автоматизированной диспетчерской службы и создание системы мониторинга ИТ-инфраструктуры. Автоматизированная диспетчерская служба позволит организовать прием заявок от пользователей в интерактивном режиме и автоматически назначать их специалисту службы поддержки (в зависимости от времени и места возникновения инцидента). Централизация этой системы обеспечит сбор статистической информации о работе информационных систем, которая необходима для оптимизации и планирования дальнейшего развития ИТ-ресурсов. Система мониторинга, в свою очередь, обеспечивает информационную поддержку работы ИТ-службы и дает возможность проактивного управления. Основная ее задача – своевременно оповещать ИТ-службу о сбоях и авариях. В идеальном случае такая система должна помочь предотвратить инцидент.


Как обеспечить непрерывность функционирования ЦОД

Архитектура современных ЦОД изначально проектируется в расчете на возможные отказы оборудования.


НЕПРЕРЫВНОСТЬ ФУНКЦИОНИОВАНИЯ В СЛУЧАЯХ АППАРАТНЫХ СБОЕВ


РАСПАРАЛЛЕЛИВАНИЕ ПРОЦЕССОВ

Современные бизнес-приложения допускают распараллеливание процессов сбора, обработки, хранения и предоставления данных пользователям и предусматривают механизмы защиты от аппаратных сбоев (контроль завершения транзакций, проверка кода CRC).


КЛАСТЕРНЫЕ РЕШЕНИЯ И БАЛАНСИРОВКА НАГРУЗКИ

Кластерные решения и балансировка нагрузки еще больше повышают надежность и доступность сервисов ЦОД. В результате сбой на уровне приложений и аппаратной инфраструктуры воздействует на предоставление сервисов пользователям в низкой или средней степени.


МЕХАНИЗМЫ САМОКОРРЕКЦИИ

Механизмы самокоррекции, а также развитые механизмы мониторинга состояния позволяют уменьшить влияние отказа отдельных элементов на систему в целом.


НЕПРЕРЫВНОСТЬ ФУНКЦИОНИОВАНИЯ В СЛУЧАЯХ СБОЕВ НА УРОВНЕ ИНЖЕНЕРНОЙ ИНФРАСТРУКТУРЫ


Отказ системы электроснабжения, перегрузка линий электропитания, утечка тока, короткие замыкания в оборудовании способны вызвать срабатывание автоматических выключателей и устройств контроля дифференциального тока. В результате происходит обесточивание той или иной части оборудования, а поиск неисправности затрудняется вследствие разветвленной структуры системы и отсутствия информации о состоянии распределительных устройств. Такие аварийные ситуации, как утечка воды из дренажных систем кондиционеров под фальшпол, отключение приточно-вытяжной вентиляции, нештатное положение люков вентиляции и дымогазоудаления, могут приводить к неконтролируемым процессам. Сбои на уровне инженерной инфраструктуры носят более масштабный характер, чем на уровне приложений и оборудования, и влекут за собой сбои в иных элементах архитектуры ЦОД.


РЕЗЕРВИРОВАНИЕ N+1 И СИСТЕМЫ ДИАГНОСТИКИ НЕИСПРАВНОСТЕЙ

Между тем в современных ЦОД инженерная инфраструктура зачастую предусматривает лишь резервирование N+1 или реализована вообще без резервирования (когда резерв N+1 вследствие потребности в дополнительных мощностях трансформируется в оборудование без резерва, так сказать «встает под нагрузку») и не обладает развитыми системами самодиагностики и раннего обнаружения возникающих неисправностей (аналогичным SMART, например). Сбой на уровне инженерной инфраструктуры приводит к изменению динамического баланса параметров окружающей среды с их выходом за допустимые пределы, в результате возможен отказ серверов и иного оборудования ЦОД. Выход из строя элементов инженерной инфраструктуры ЦОД может вызвать как локальный отказ оборудования (перегрев оборудования в одном шкафу), так и отказ значительной части ЦОД (отказ в ГРЩ или отключение всей системы кондиционирования).


ПОДДЕРЖАНИЕ РЕЖИМА ВЛАЖНОСТИ

Большинство аппаратных средств рассчитано на работу при температуре воздуха +22+/−2°С и относительной влажности 50+/−10%. Отклонение температуры от указанных параметров приводит к сокращению срока службы оборудования (например, аккумуляторных батарей), ухудшению его характеристик, снижению надежности, сбоям в работе или даже полной остановке (перегрев из-за высокой температуры окружающей среды). Низкая влажность в помещении ведет к накоплению статического электричества, разряд которого способен вывести из строя электронные элементы. Вследствие высокой влажности образуется конденсат, вызывающий коррозию, из-за чего может даже произойти короткое замыкание печатных проводников и возникнуть неисправность узлов аппаратуры.


Как обеспечить безопасность функционирования ЦОД

ЦОД всегда является стратегически важным объектом, к оснащению и безопасности которого предъявляются особые требования. Эти требования зафиксированы международном стандарте TIA 942, на который сегодня ориентируются специалисты, работающие в России.

АНОНСЫ

+7 (495) 6-410-410

welcome@rvip.ru