Автоматизированная система мониторинга ИТ-инфраструктуры

r
Группа ГАЗ

«Группа ГАЗ» выпускает легкие и среднетоннажные коммерческие автомобили, автобусы, тяжелые грузовики, легковые автомобили, силовые агрегаты и автокомпоненты. Компания объединяет 13 предприятий в восьми регионах России. Является лидером рынка коммерческого транспорта России, занимая около 50% сегмента легких коммерческих автомобилей и около 75% сегмента автобусов. Флагманский продукт компании – легкий коммерческий автомобиль нового поколения «ГАЗель NEXT».

Предпосылки проекта

Профиль деятельности КЦ «Группа ГАЗ» – оказание высококачественных услуг предприятиям Группы ГАЗ в области бухгалтерского‚ правового‚ информационного обеспечения‚ защиты ресурсов‚ ведения архивной деятельности‚ управления собственностью и реализации социальных программ. Являясь основным оператором ИТ-услуг для предприятий Группы ГАЗ, компания обеспечивает стабильность функционирования обширной ИТ-инфраструктуры предприятий Группы. Географическая распределенность, гетерогенность и значительный масштаб ИТ-инфраструктуры создают дополнительную сложность для своевременной идентификации и устранения возникающих сбоев. Обеспечение круглосуточной поддержки комплексной инфраструктуры в условиях дефицита высококвалифицированных ресурсов и постоянного роста количества критичных для бизнеса информационных систем невозможно без использования специальных автоматизированных инструментов мониторинга.

Специалисты КЦ «Группа ГАЗ» активно использовали различные инструменты мониторинга разнотипных компонентов ИТ-инфраструктуры. Анализ потока информации в различных форматах без предварительной корреляции и унифицированного описания событий требовал наличия специальных знаний по каждой системе, что не позволяло эффективно использовать ресурсы круглосуточной поддержки. Время идентификации сути инцидентов (точки отказа и причины сбоя) и сроки восстановления штатного режима функционирования корпоративных систем оставались неудовлетворительными. До принятия решения о внедрении комплексной системы мониторинга использовались различные средства, которые не позволяли собирать оперативные данные со всех объектов ИТ-инфраструктуры.

Задачи проекта

В 2011 году в компании был инициирован проект по внедрению системы мониторинга на платформе IBM Tivoli с целью: 

  • Повысить качество предоставляемого сервиса по обслуживанию ИТ-инфраструктуры за счет обеспечения круглосуточной поддержки и проактивного мониторинга критичных для бизнеса систем.
  • Снизить трудозатраты персонала на обслуживание корпоративных ИТ-систем и сервисов за счет снижения требований к квалификации персонала, унификации процедур по обеспечению мониторинга.
  • Обеспечить накопление исторических данных о функционировании информационных систем для выявления негативных трендов и планирования развития ИТ-инфраструктуры.

Для достижения поставленных целей было необходимо решить следующие задачи: 

  • Включить в контур системы мониторинга все существующие типы объектов ИТ-инфраструктуры.
  • Обеспечить сбор информации о фактических параметрах функционирования компонентов ИТ-инфраструктуры по каждому типу объектов.
  • Разработать правила обработки событийной информации для приоритезации и корреляции событий на основе взаимосвязей объектов.
  • Разработать удобные информационные панели для различных групп пользователей системы мониторинга (предоставить службе поддержки информацию по событиям ИТ-инфраструктуры).
  • Передать администраторам системы мониторинга знания по масштабированию системы.

Описание решения

Этап 1. Обследование

На первом этапе проекта был проведен ряд встреч с представителями Заказчика, в ходе которых был составлен перечень поддерживаемых информационных систем. Все информационные системы были разделены на 3 типа объектов мониторинга:

1476199a48020efdca85391b3e11ce20.png

Для каждого типа объектов был сформирован перечень наиболее критичных параметров функционирования. Специалисты CSM согласовывали сотни параметров мониторинга совместно с ответственными администраторами системы по каждому типу объектов.

Для возможности оценки состояния ИТ-инфраструктуры был согласован подход к отображению состояния ИТ-инфраструктуры в интерфейсе комплексной системы мониторинга для руководства.

Этап 2. Проектирование

На втором этапе специалисты Исполнителя спроектировали и согласовали с представителями КЦ «Группа ГАЗ» основные технические решения: 

  • архитектуру комплексной системы мониторинга;
  • набор агентов и технологию сбора данных с объектов мониторинга;
  • правила событийной обработки для корреляции событий;
  • набор ключевых индикаторов, отражающих общее состояние ИТ-инфраструктуры.

Система построена по модульному принципу и включает в себя следующие компоненты: 

  • Подсистема мониторинга серверов и приложений (IBM Tivoli Monitoring).
  • Подсистема сетевого мониторинга (IBM Tivoli Network Manager).
  • Подсистема событийной обработки (IBM Tivoli Netcool/OMNIbus).
  • Модуль построения отчетности (IBM Tivoli Common Reporting).

Общая структура системы представлена на схеме ниже:

851c31b343a926784dd4adf4b03b297c.jpg


Подсистема мониторинга серверов и приложений предназначена для отслеживания превышения пороговых значений важных параметров функционирования ОС серверов, СУБД, корпоративных приложений и устройств хранения данных, а также для сбора, хранения и предоставления исторических данных мониторинга за различные отчетные периоды.

Подсистема сетевого мониторинга предназначена для отслеживания доступности и производительности активного сетевого оборудования, построения карты сетевой топологии, сбора, хранения и предоставления исторических данных мониторинга за различные отчетные периоды.

Подсистема событийной обработки предназначена для приема сообщений о сбоях в информационной инфраструктуре от подсистем мониторинга серверов и приложений и сетевого мониторинга, обработки принятых сообщений (фильтрация, корреляция, запуск автоматической реакции), представления событийной информации в удобном для оператора виде, оповещения ответственного персонала.

Модуль построения отчетности предназначен для построения отчетов по историческим данным, собираемым подсистемами мониторинга серверов и приложений и сетевого мониторинга.

Для всех типов объектов были разработаны специализированные агенты, обеспечивающие сбор оперативных данных о функционировании объектов. Для обеспечения всестороннего мониторинга был организован сбор параметров с некоторых объектов по разным протоколам (SNMP, WMI и т.д.). В ходе проектирования было сформировано более 300 правил событийной обработки, а также учтено более 1000 параметров мониторинга. Разработанные правила событийной обработки позволили реализовать систему автоматических оповещений ответственных лиц в зависимости от критичности событий.

Для анализа собранной системой мониторинга информации были спроектированы ключевые индикаторы, отражающие состояние ИТ-инфраструктуры.

В рамках сжатых сроков было принято решение о подготовке инструкций по тиражированию спроектированных решений и совместному внедрению агентов мониторинга силами проектных команд со стороны Исполнителя и Заказчика.

Этап 3. Пуско-наладочные работы и ввод в эксплуатацию

На третьем этапе было проведено обучение администраторов системы со стороны Заказчика. Специалисты проектной команды смогли совместными усилиями включить в контур системы мониторинга все требуемые объекты ИТ-инфраструктуры. Хорошая организация работ с обеих сторон позволила в короткие сроки завершить работы и передать систему в эксплуатацию.

Результаты

По итогам проекта были достигнуты следующие результаты:

  • Операторы круглосуточной технической поддержки получили инструмент, позволяющий оперативно реагировать на возникающие сбои. Все сообщения о сбоях содержат информацию с контактными данными ответственных администраторов, описания на русском языке и категорию критичности.
  • Администраторы ИТ-систем уделяют больше времени развитию ИТ-инфраструктуры, осуществляя мониторинг из единой консоли, настроенной под каждого администратора.
  • Руководство в любой момент времени может обзорно с необходимой степенью детализации оценить состояние ИТ-инфраструктуры.
  • В целом, система мониторинга позволила повысить качество предоставляемого сервиса по обслуживанию ИТ-инфраструктуры за счет сокращения времени реакции на сбои и снизить издержки ИТ-персонала на выполнение рутинных операций.
  • По завершению проекта проектная команда со стороны Заказчика получила опыт самостоятельного тиражирования разработанных решений и включения новых объектов в контур мониторинга.