Автоматизированная система мониторинга ИТ-инфраструктуры

«Группа ГАЗ» выпускает легкие и среднетоннажные коммерческие автомобили, автобусы, тяжелые грузовики, легковые автомобили, силовые агрегаты и автокомпоненты. Компания объединяет 13 предприятий в восьми регионах России. Является лидером рынка коммерческого транспорта России, занимая около 50% сегмента легких коммерческих автомобилей и около 75% сегмента автобусов. Флагманский продукт компании – легкий коммерческий автомобиль нового поколения «ГАЗель NEXT».
Предпосылки проекта
Профиль деятельности КЦ «Группа ГАЗ» – оказание высококачественных услуг предприятиям Группы ГАЗ в области бухгалтерского‚ правового‚ информационного обеспечения‚ защиты ресурсов‚ ведения архивной деятельности‚ управления собственностью и реализации социальных программ. Являясь основным оператором ИТ-услуг для предприятий Группы ГАЗ, компания обеспечивает стабильность функционирования обширной ИТ-инфраструктуры предприятий Группы. Географическая распределенность, гетерогенность и значительный масштаб ИТ-инфраструктуры создают дополнительную сложность для своевременной идентификации и устранения возникающих сбоев. Обеспечение круглосуточной поддержки комплексной инфраструктуры в условиях дефицита высококвалифицированных ресурсов и постоянного роста количества критичных для бизнеса информационных систем невозможно без использования специальных автоматизированных инструментов мониторинга.
Специалисты КЦ «Группа ГАЗ» активно использовали различные инструменты мониторинга разнотипных компонентов ИТ-инфраструктуры. Анализ потока информации в различных форматах без предварительной корреляции и унифицированного описания событий требовал наличия специальных знаний по каждой системе, что не позволяло эффективно использовать ресурсы круглосуточной поддержки. Время идентификации сути инцидентов (точки отказа и причины сбоя) и сроки восстановления штатного режима функционирования корпоративных систем оставались неудовлетворительными. До принятия решения о внедрении комплексной системы мониторинга использовались различные средства, которые не позволяли собирать оперативные данные со всех объектов ИТ-инфраструктуры.
Задачи проекта
В 2011 году в компании был инициирован проект по внедрению системы мониторинга на платформе IBM Tivoli с целью:
- Повысить качество предоставляемого сервиса по обслуживанию ИТ-инфраструктуры за счет обеспечения круглосуточной поддержки и проактивного мониторинга критичных для бизнеса систем.
- Снизить трудозатраты персонала на обслуживание корпоративных ИТ-систем и сервисов за счет снижения требований к квалификации персонала, унификации процедур по обеспечению мониторинга.
- Обеспечить накопление исторических данных о функционировании информационных систем для выявления негативных трендов и планирования развития ИТ-инфраструктуры.
Для достижения поставленных целей было необходимо решить следующие задачи:
- Включить в контур системы мониторинга все существующие типы объектов ИТ-инфраструктуры.
- Обеспечить сбор информации о фактических параметрах функционирования компонентов ИТ-инфраструктуры по каждому типу объектов.
- Разработать правила обработки событийной информации для приоритезации и корреляции событий на основе взаимосвязей объектов.
- Разработать удобные информационные панели для различных групп пользователей системы мониторинга (предоставить службе поддержки информацию по событиям ИТ-инфраструктуры).
- Передать администраторам системы мониторинга знания по масштабированию системы.
Описание решения
Этап 1. Обследование
На первом этапе проекта был проведен ряд встреч с представителями Заказчика, в ходе которых был составлен перечень поддерживаемых информационных систем. Все информационные системы были разделены на 3 типа объектов мониторинга:

Для каждого типа объектов был сформирован перечень наиболее критичных параметров функционирования. Специалисты CSM согласовывали сотни параметров мониторинга совместно с ответственными администраторами системы по каждому типу объектов.
Для возможности оценки состояния ИТ-инфраструктуры был согласован подход к отображению состояния ИТ-инфраструктуры в интерфейсе комплексной системы мониторинга для руководства.
Этап 2. Проектирование
На втором этапе специалисты Исполнителя спроектировали и согласовали с представителями КЦ «Группа ГАЗ» основные технические решения:
- архитектуру комплексной системы мониторинга;
- набор агентов и технологию сбора данных с объектов мониторинга;
- правила событийной обработки для корреляции событий;
- набор ключевых индикаторов, отражающих общее состояние ИТ-инфраструктуры.
Система построена по модульному принципу и включает в себя следующие компоненты:
- Подсистема мониторинга серверов и приложений (IBM Tivoli Monitoring).
- Подсистема сетевого мониторинга (IBM Tivoli Network Manager).
- Подсистема событийной обработки (IBM Tivoli Netcool/OMNIbus).
- Модуль построения отчетности (IBM Tivoli Common Reporting).
Общая структура системы представлена на схеме ниже:

Подсистема мониторинга серверов и приложений предназначена для отслеживания превышения пороговых значений важных параметров функционирования ОС серверов, СУБД, корпоративных приложений и устройств хранения данных, а также для сбора, хранения и предоставления исторических данных мониторинга за различные отчетные периоды.
Подсистема сетевого мониторинга предназначена для отслеживания доступности и производительности активного сетевого оборудования, построения карты сетевой топологии, сбора, хранения и предоставления исторических данных мониторинга за различные отчетные периоды.
Подсистема событийной обработки предназначена для приема сообщений о сбоях в информационной инфраструктуре от подсистем мониторинга серверов и приложений и сетевого мониторинга, обработки принятых сообщений (фильтрация, корреляция, запуск автоматической реакции), представления событийной информации в удобном для оператора виде, оповещения ответственного персонала.
Модуль построения отчетности предназначен для построения отчетов по историческим данным, собираемым подсистемами мониторинга серверов и приложений и сетевого мониторинга.
Для всех типов объектов были разработаны специализированные агенты, обеспечивающие сбор оперативных данных о функционировании объектов. Для обеспечения всестороннего мониторинга был организован сбор параметров с некоторых объектов по разным протоколам (SNMP, WMI и т.д.). В ходе проектирования было сформировано более 300 правил событийной обработки, а также учтено более 1000 параметров мониторинга. Разработанные правила событийной обработки позволили реализовать систему автоматических оповещений ответственных лиц в зависимости от критичности событий.
Для анализа собранной системой мониторинга информации были спроектированы ключевые индикаторы, отражающие состояние ИТ-инфраструктуры.
В рамках сжатых сроков было принято решение о подготовке инструкций по тиражированию спроектированных решений и совместному внедрению агентов мониторинга силами проектных команд со стороны Исполнителя и Заказчика.
Этап 3. Пуско-наладочные работы и ввод в эксплуатацию
На третьем этапе было проведено обучение администраторов системы со стороны Заказчика. Специалисты проектной команды смогли совместными усилиями включить в контур системы мониторинга все требуемые объекты ИТ-инфраструктуры. Хорошая организация работ с обеих сторон позволила в короткие сроки завершить работы и передать систему в эксплуатацию.
Результаты
По итогам проекта были достигнуты следующие результаты:
- Операторы круглосуточной технической поддержки получили инструмент, позволяющий оперативно реагировать на возникающие сбои. Все сообщения о сбоях содержат информацию с контактными данными ответственных администраторов, описания на русском языке и категорию критичности.
- Администраторы ИТ-систем уделяют больше времени развитию ИТ-инфраструктуры, осуществляя мониторинг из единой консоли, настроенной под каждого администратора.
- Руководство в любой момент времени может обзорно с необходимой степенью детализации оценить состояние ИТ-инфраструктуры.
- В целом, система мониторинга позволила повысить качество предоставляемого сервиса по обслуживанию ИТ-инфраструктуры за счет сокращения времени реакции на сбои и снизить издержки ИТ-персонала на выполнение рутинных операций.
- По завершению проекта проектная команда со стороны Заказчика получила опыт самостоятельного тиражирования разработанных решений и включения новых объектов в контур мониторинга.