Мониторинг сети и оборудования ЦОД
RadiusVip.ru

Источники бесперебойного питания (UPS/ИБП):
AEG Power Solutions, Eaton (Powerware), Liebert (Vertiv), Riello
Системы прецизионного кондиционироввания воздуха:
RC Group, Munters, Montair, Clint

RadiusVip.Ru

101000, Москва, Колпачный переулок, д. 6 стр. 2

Тел.: (495) 6-410-410

E-mail: welcome@rvip.ru

Написать письмо
>>>

Главная страница  |  Центры обработки данных  |  Мониторинг сети и оборудования ЦОД

Мониторинг сети и оборудования ЦОД

Вернуться в раздел «Энциклопедия ЦОД


Диспетчерский центр

Автоматизированная система диспетчеризации и управления в центрах обработки данных

Автор: Андрей Бусаров


Обзор автоматизированной системы диспетчеризации и управления (АСДУ) в применении к современным центрам обработки данных: архитектура решения, возможности, преимущества и особенности эксплуатации.


Современный мир все больше зависит от информационных систем. Не секрет, что для успеха в бизнесе необходимы высокоэффективные ИТ-решения, которые, с одной стороны, в полной мере удовлетворяли бы потребности бизнеса, а с другой — не становились бы для компаний тяжким грузом в виде увеличивающихся расходов на ИТ и их поддержку. Современные центры обработки данных (ЦОД) — это экономически оправданные решения, консолидирующие ИТ-ресурсы организации и способные значительно сократить общие расходы на ИТ за счет внедрения централизованной модели вычислений. Однако постоянное усложнение ИТ-инфраструктуры, увеличение энергопотребления и тепловыделения в ЦОД накладывают на работу обслуживающих инженерных подсистем ряд дополнительных требований: очень высокая надежность, управляемость, безопасность, адаптивность к изменениям бизнеса.


Надежности подобных систем и упреждению будущих проблем сегодня уделяется очень большое внимание. Круглосуточный мониторинг, комплексный анализ параметров оборудования, предупреждение отказов и минимальное время реакции — это важнейшие требования к диспетчерским службам, контролирующим инженерные подсистемы ЦОД, а работа персонала в подобных службах становится все более ответственной. Стоит отметить, что для повседневного контроля инженерных подсистем нужны специалисты в разных областях, таких, как электрика, вентиляция и кондиционирование, обслуживание различного специального оборудования.


Автоматизированная система диспетчериз ации и управления (АСДУ) представляет собой целостную платформу для управления всеми инженерными подсистемами и создается как многоуровневая автоматическая система, обеспечивающая контроль состояния и управление технологическим оборудованием ЦОД с выводом данных на экраны автоматизированных рабочих мест операторов. АСДУ ведет непрерывный мониторинг инженерных систем с регистрацией основных параметров и обеспечивает контроль и управление инженерным комплексом из единого диспетчерского центра.


Организация диспетчерского центра на основе решения АСДУ позволяет внедрить новые стандарты качества в управление эксплутационно-обеспечивающим оборудованием, повысить эксплуатационную готовность ЦОД, снизить текущие затраты на управление инженерными системами, обеспечить документирование и протоколирование сбоев, создать базу для оперативного устранения аварийных ситуаций.


Архитектура решения

Современная АСДУ имеет трехуровневую архитектуру (рис. 1). Нижний уровень образуют периферийные устройства и инженерное оборудование, формирующие первичные данные. Второй уровень — контроллеры, принимающие и обрабатывающие информацию, и сеть передачи данных. Верхний уровень — это ПО, предоставляющее средства визуализации, архивации, публикации поступающих данных. На рабочие места диспетчеров (АРМ) поступает структурированная консолидированная информация в нужном формате. Аналитический модуль постоянно отслеживает рабочие параметры систем на предмет отклонения от нормы и способен автоматически запускать процедуры согласно заложенным инструкциям, например, подать сигнал тревоги или запустить аварийный дизель-генератор. Важная задача аналитического модуля — заблаговременные предупреждения о грядущих отказах.


Рис. 1. Трехуровневая архитектура АСДУ.


Собранные данные можно:

  • передать операторам и представить их в легко читаемом виде;
  • сохранить в базе данных;
  • проанализировать и представить в виде статистических отчетов;
  • использовать как управляющий сигнал при реакции на определенные события для запуска систем в автоматическом режиме.

В состав решения может входить система видеонаблюдения, одновременно с сигналом тревоги выводящая картинку с аварийной подсистемой на монитор оператора. Как правило, в системе предусмотрен Web-интерфейс, кроме того, ее можно интегрировать с системами мониторинга ИТ-инфраструктуры ЦОД.


При использовании в ЦОД комплексных систем управления, например IBM Tivoli или HP OpenView, администраторы получают контроль над информационными бизнес-сервисами и связанными с ними программными и аппаратными ресурсами ЦОД. АСДУ может быть интегрирована с подобными решениями, и тогда инженерные подсистемы будут иметь непосредственную связь с системами более высокого уровня, что повысит эксплуатационную готовность ЦОД.


Регистрация и обработка событий

Инженерные системы ЦОД состоят из множества взаимоувязанного оборудования, поэтому при наступлении какого-либо тревожного события бывает трудно определить, где конкретно возникла проблема. Для примера возьмем проблему в контуре питания, между распределительным щитом и активным сетевым оборудованием (рис. 2). Система локализует проблему, определяет уровень возможных последствий и отображает информацию о конкретной системе в окне тревог. Экранная форма со схемой системы показывает отношения между взаимосвязанным оборудованием и возможными последствиями неполадок в отдельных компонентах.


АСДУ централизованно фиксирует событие в базе данных и оповещает диспетчера о возникновении проблемы и необходимости ее разрешения. Далее система определяет уровень серьезности происшествия и присваивает событию определенный приоритет. Приоритет необходим, чтобы повысить эффективность реакции персонала на происшествие. Например, если сработавшая сигнализация говорит о необходимости замены фильтра системы кондиционирования воздуха, оператор должен понимать, в какие сроки и с каким приоритетом разрешить сложившуюся ситуацию.


Рис. 2. Щит бесперебойного питания. Связь оборудования и автоматических выключателей.


Система выводит сообщения о выходе отслеживаемых параметров за установленные ранее пределы, а также сообщения о критическом времени наработки эксплуатируемого инженерного оборудования. Например, это могут быть данные о состоянии аккумуляторных батарей, температуре и влажности в стойках. Информация представляется в доступном для администраторов и диспетчеров и легко читаемом виде.


Одна из важнейших функций АСДУ — своевременное оповещение о возникших ситуациях всех ответственных лиц, обслуживающих подсистемы ЦОД. Система имеет функции оперативного оповещения диспетчеров, администраторов и руководящих лиц объекта по электронной почте или посредством сообщений SMS, а также интегрируется с другими доступными способами сигнализации в соответствии с установленным регламентом.


Эксплуатационная готовность и безопасность

Алгоритмы и регламенты ответных действий на произошедшее событие программируются в АСДУ, и от правильности настройки подобных регламентов напрямую зависит эксплуатационная готовность. Следует определить и конкретных лиц, выполняющих то или иное действие (управление оборудованием, подтверждение тревожного сообщения и т. д.). Для разграничения ответственности за обслуживание разных систем АСДУ имеет возможность управлять полномочиями диспетчеров. Автоматизированная система предоставляет функции разграничения доступа различных групп диспетчеров с привязкой к определенным задачам или контролируемым системам. В противном случае, если тревожные сигналы и сообщения доставляются абстрактному «диспетчеру» без привязки к конкретному человеку, сложно определить ответственного за реакцию на ту или иную нештатную ситуацию.


Ниже мы кратко охарактеризуем основные контролируемые подсистемы и параметры мониторинга АСДУ.


Мониторинг и фиксация критических изменений параметров окружающей среды ЦОД. Отказ оборудования может быть следствием не только слишком высокой температуры, но и быстрого ее изменения. Система отслеживает температуру и влажность на уровне стоек с оборудованием и оповещает диспетчера о том, что зафиксированы потенциально опасные значения температуры и влажности. Хронологические данные и параметры окружающей среды могут выводиться в виде легко читаемых графиков (рис. 3).


Рис. 3. График изменения температуры и влажности во времени для выбранного шкафа.


Мониторинг и фиксация изменений в потреблении электропитания активным оборудованием. По мере появления в ЦОД нового оборудования потребности в электропитании и охлаждении могут превзойти имеющиеся ресурсы, результатом чего станут перебои в работе. В частности, инженерные системы ЦОД требуют дополнительного внимания по мере старения батарей ИБП. Уровень старения батарей зависит от интенсивности их использования и температуры. АСДУ отслеживает потребление тока для каждой ветви цепи или стойки и оповещает ответственных лиц о ситуациях, грозящих возникновением перегрузки. Она также информирует их обо всех ИБП, у которых время автономной работы оказывается меньше минимума или у которых превышается пороговое значение нагрузки.


Отслеживание электропитания оборудования. Неисправность оборудования или линий подачи электропитания, а также некорректные действия обслуживающего персонала могут привести к обесточиванию оборудования. АСДУ оперативно оповещает диспетчера о наличии или отсутствии питающего напряжения на потребителях.


Отслеживание качественных и количественных характеристик электропитания. Некачественное электропитание приводит к выходу из строя или преждевременному износу оборудования. Изменение нагрузки на систему электропитания (включение/выключение климатического оборудования, добавление оборудования ЦОД и т. д.) может повлечь за собой ситуацию, когда система бесперебойного электропитания не в состоянии обеспечить резервирование. АСДУ предоставляет обслуживающему персоналу централизованную информацию о качестве электропитания и распределении нагрузки по ЦОД в режиме реального времени, а также сохраняет эту информацию в базе данных для дальнейшего выяснения причин отказа оборудования.


Определение надежности электропитания. Оперативное отслеживание состояния оборудования, которое обеспечивает гарантированное и бесперебойное электропитание (ИБП, ДГУ), невозможно без централизованного сбора и отображения информации с этих устройств. АСДУ предоставляет диспетчеру централизованную информацию о состоянии обеспечивающего оборудования.


Обеспечение температурного режима работы оборудования. Климатический режим ЦОД может нарушаться из-за неправильных режимов работы климатического оборудования. Из-за неравномерного распределения оборудования в ЦОД иногда возникают зоны локального перегрева, что может потребовать изменений в режимах работы климатического оборудования. Обслуживающий персонал не всегда замечает временный выход температуры или влажности за пределы нормы, что приведет к проблемам при определении причин сбоев в работе активного оборудования. Кроме того, климатический режим ЦОД может нарушаться из-за неправильных режимов работы или аварий на климатическом оборудовании. АСДУ отслеживает температуру и влажность в телекоммуникационных стойках (рис. 4) и оповещает диспетчера о том, что они достигли потенциально опасных значений, а также сохраняет эту информацию в БД и выдает ее в удобном для последующего анализа виде. Система предоставляет диспетчеру интерфейс для изменения режимов работы климатического оборудования и оперативно оповещает ответственных о сбоях в его работе (рис. 5).

Рис. 4. Контроль температурно-влажностного режима в телекоммуникационных шкафах.

Рис. 5. Система кондиционирования: сигнализация об утечке жидкости.


На АСДУ также возложены функции минимизации последствий пожара в ЦОД. При возникновении пожара несвоевременное оповещение персонала, а также работа кондиционеров и несогласованность работы других подсистем в ЦОД может осложнить работу системы пожаротушения и снизить ее эффективность. АСДУ оповещает диспетчера о срабатывании пожарной сигнализации и станции пожаротушения, а также имеет возможность автоматически отключить кондиционеры и вентиляцию. После срабатывания системы пожаротушения необходимо определять качество воздуха в помещениях и выводить эту информацию на АРМ диспетчера.


* * *

Определение и отслеживание показателей готовности ЦОД — сложная и неоднозначная задача. АСДУ выступает здесь как средство интеграции всех инженерных и технологических подсистем ЦОД в целостную и управляемую систему. Аналитическая часть АСДУ предоставляет инструментарий для определения причин простоев и планирования уровня избыточности инженерных систем.


Источник: Byte


Мониторинг сети и управление услугами


Контроль доступа


Мониторинг вспомогательной инфраструктуры

APC-MGE представляет программно-аппаратные средства для мониторинга ЦОД

Компания APC-MGE представляет программно-аппаратные средства для мониторинга не только источников бесперебойного питания, но и состояния всей инженерной инфраструктуры центров обработки данных. В числе пользователей ее решений – операторы «большой тройки» (МТС, «ВымпелКом», «МегаФон»), «Скай Линк», Tele2, «Связьинвест» и «Ростелеком». А. КОНЯЕВ, руководитель направления по работе с корпоративными заказчиками APC, убежден, что внедрение архитектуры InfraStruXure, обладающей развитыми средствами мониторинга, существенно облегчает поддержку ИT-инфраструктуры операторов.


Автор: Алексей КОНЯЕВ, руководитель направления по работе с корпоративными заказчиками


– Алексей, стало ли использование систем мониторинга в центрах обработки данных у операторов стандартом де-факто или еще нет?

– Тут многое зависит от внутренней организации компании-заказчика. Не у всех операторов есть дежурная смена, отвечающая именно за бесперебойную работу ЦОД. Часто задача постоянно отслеживать состояние всех инженерных систем центра возлагается на менеджера ИТ-подразделения. И мы заметили, что такие сотрудники ИТ-служб при выборе ИБП и другого оборудования прежде всего интересуются его интеллектуальным компонентом. Возможность быть в курсе всех проблем, возникающих в инженерной инфраструктуре, и при необходимости удаленно их решать для них очень важна

Главные энергетики, как правило далекие от сферы ИT, при выборе оборудования больше внимания уделяют физическим характеристикам устройств и реже спрашивают о том, как их можно контролировать. Вместе с тем, я думаю, что сегодня большинство ответственных специалистов все-таки понимают, насколько может облегчить их жизнь внедрение системы мониторинга.


– А какова средняя доля затрат на систему мониторинга APC InfraStruXure Central в общем объеме расходов на построение инженерной инфраструктуры центра обработки данных?

– Наша инженерная инфраструктура состоит из стандартных компонентов, в каждый из которых встроены средства управления. Наличие, например, в источниках бесперебойного питания UPS Network Management Card w/Enviromental Monitoring позволяет их подключать в сеть по SNMP-протоколу и управлять ими.

Для того чтобы объединить все компоненты InfraStruXure в комплексное решение, не требуется начинать отдельный проект, нанимать персонал, разрабатывать (и впоследствии поддерживать) уникальный программный продукт. Достаточно поставить один контроллер InfraStruXure Manager: он организует собственную сеть внутри инженерной инфраструктуры и позволит следить за работой каждого из устройств в отдельности и всего комплекса в целом практически из любой точки мира.

Благодаря такому подходу наша система мониторинга – бюджетное решение, стоимость которого может составлять всего несколько процентов стоимости всего комплекса инженерной инфраструктуры.


– Как APC обеспечивает информационную безопасность при использовании каналов передачи данных в целях мониторинга состояния оборудования?

– Каждая компания устанавливает свои меры безопасности. Разумеется, если оборудование подключено во внутреннюю сеть и не имеет выхода во внешние сети, оно более защищено. В нашей системе мониторинга предусмотрена защита несколькими уровнями паролей, есть возможность ввода сложных паролей. Права на мониторинг отдельных компонентов и систем выдаются администратором.

Кроме того, входящая в состав InfraStruXure система бесперебойного питания APC Symmetra не имеет опции удаленного отключения. Так что, даже если злоумышленнику удастся взломать пароль и зайти в систему, он все равно не сможет ее выключить. Удаленно включать и выключать можно только розетки блоков распределения питания в стойках. Это, кстати, освобождает администраторов распределенной в масштабах города сети устройств от необходимости мчаться в другой район ради нажатия кнопки Reset.

В качестве дополнительной меры безопасности можно закрыть для контроллера доступ во внешнюю сеть. Необходимые обновления ПО в этом случае придется подкачивать с сайта www.apc.com в ручном режиме.


– В центрах обработки данных могут использоваться и ИБП других производителей. Позволяет ли система мониторинга APC следить за их состоянием?

– Для мониторинга оборудования сторонних производителей в InfraStruXure предусмотрена возможность подключения внешних датчиков к его так называемым сухим контактам. При этом наш программный продукт UPS Dry-Contact Management обеспечивает не только получение информации о сработавшем вследствие сбоя датчике, но и ее перевод на «понятный» язык.


– По какой схеме организуется мониторинг в системе APC – централизованной, распределенной или смешанной?

– Данные, поступающие от устройств, можно объединить и представить в одной большой системе в центре, а можно работать с ними на уровне города или региона. Все зависит от политики оператора. Например, «ВымпелКом» не осуществляет централизованного мониторинга всех наших комплексов, а их в центрах обработки данных в российских регионах развернуто немало. В каждом таком регионе есть ИТ-менеджер, который через систему NetBotz следит за состоянием оборудования электропитания и охлаждения в ЦОД, получает SMS-оповещение об авариях и при необходимости обращается к нам за помощью.

Если же в будущем у оператора появится желание организовать мониторинг по централизованной схеме, то оно легко может быть исполнено путем установки сервера, в котором прописываются адреса всех контроллеров.


– Какое направление развития программно-аппаратных решений для мониторинга в APC-MGE считается перспективным?

– Вектор эволюции направлен от мониторинга параметров, характеризующих состояние оборудования (источников бесперебойного питания, систем охлаждения), к контролю физического окружения критически важного ИТ-оборудования. Такойпродукт в нашем портфеле уже есть – система APC NetBotz Environmental.

К этой системе можно подключать массу всевозможных датчиков, в том числе и сторонних производителей: для измерения в ЦОД температуры, влажности, определения скорости потока воздуха, что очень важно для наблюдения за работой систем кондиционирования.

В состав системы входят средства, обеспечивающие сохранность дорогостоящего ИТ-оборудования – предлагается специальный контроллер для записи видеоизображения и звука с возможностью визуализации по объектам, а также сервер для хранения этих материалов и средства контроля доступа, вплоть до замков, панелей, датчиков движения и др.


– В чем специфика продвижения этого и подобного ПО для управления инженерной инфраструктурой ЦОД?

– Компания APC и до вывода на рынок архитектуры InfraStruXure предлагала и источники бесперебойного питания, и блоки распределения питания, и шкафы, однако только объединение этих разнородных устройств системой мониторинга позволило по-новому взглянуть на организацию всей инженерной инфраструктуры ЦОД в целом. Так что система мониторинга инженерной инфраструктуры и управления ею – это сердце InfraStruXure, то, ради чего она и разрабатывалась.

Естественно, все программные решения продвигаются нами в комплексе с другими компонентами инженерной инфраструктуры, чтобы потенциальный заказчик мог, еще находясь в нашем демонстрационном зале, представить свой центр обработки данных целиком.


Источник: ИКС-НАВИГАТОР

АНОНСЫ

+7 (495) 6-410-410

welcome@rvip.ru