Горбушка
Ищу её...
- Регистрация
- 2 Май 2008
- Сообщения
- 3.444
- Реакции
- 2.524
- Автор темы
- #1
Столкнулся со следующей задачей, которую пока решить не получается...
Хостинг-компания имеет множество серверов, часть из которых в кластерах (отдельно обработчики, хранилища и база), часть отдельные (всё на 1 машине), а часть облачные (полноценное облако с авто-переездом с машины на машину и т.д.)...
Так вот, требуется всё это добро поставить на мониторинг, но не просто серверов, а именно услуг. Объясню:
У нас есть услуга "Хостинг сайтов", эта услуга размещена на кластере, в составе которого 2 обработчика, 2 хранилища и 2 базы. Кластер работает в режиме мастер-мастер.
Так вот, мне нужно мониторить не сами сервера, а услугу. То есть, если упал сервер базы данных - да, окрасить его в красный, а услугу в жёлтый. И инженеры понимают, что умер один из дублируемых узлов, критичность средняя, делают рассылку оповещения об ограничении и продолжают, к примеру, плановые работы, а к этому вернуться потом. А вот если упали оба сервера базы - то мы красим услугу уже в красный цвет и инженеры бросают все дела и бегут поднимать сервера баз данных, ибо услуга не оказывается. В идеале красить даже не услугу "Хостинг", а "MySQL", т.к. сайты на голом html продолжат работу...
К сожалению, из таких мониторингов знаю только HP BSM, но это дорогое и бесполезное ПО, сложное в обучении сотрудников и т.д. Кроме того, развернуть его в пределах хостинг-компании почти не реально ввиду количество серверов под мониторинг.
Увы, ни в nagios, ни в zabbix такого функционала не знаю... Сейчас мониторинг идёт на базе The dude, который свою задачу выполняет на ура, но красит сразу весь кластер, если падает хотя бы 1 сервер. А падение сервиса определяется по его падении на 1 из серверов... Что мягко говоря не устраивает...
Почему нужно мониторить именно услугу? Честно говоря, уже надоела паника и перебежки в попытках понять что случилось, что не работает и т.д. По текущему состоянию мониторинга крайне сложно поставить приоритет проблеме и решить - направлять ли инженеров на устранение срочно или же это может и подождать...
Согласитесь, если отвалился один из серверов баз данных, а есть дублирующий, бросать на половину сваренную оптику не есть хорошо или отбирать инженера у клиента, которого он консультировал или помогал поднять сервер... А вот если сдохло всё хранилище в ДЦ - то VDS прыщавого подростка с сервером Minecraft спокойно может подождать - коровки на ферме у них за полчаса не передохнут...
Хостинг-компания имеет множество серверов, часть из которых в кластерах (отдельно обработчики, хранилища и база), часть отдельные (всё на 1 машине), а часть облачные (полноценное облако с авто-переездом с машины на машину и т.д.)...
Так вот, требуется всё это добро поставить на мониторинг, но не просто серверов, а именно услуг. Объясню:
У нас есть услуга "Хостинг сайтов", эта услуга размещена на кластере, в составе которого 2 обработчика, 2 хранилища и 2 базы. Кластер работает в режиме мастер-мастер.
Так вот, мне нужно мониторить не сами сервера, а услугу. То есть, если упал сервер базы данных - да, окрасить его в красный, а услугу в жёлтый. И инженеры понимают, что умер один из дублируемых узлов, критичность средняя, делают рассылку оповещения об ограничении и продолжают, к примеру, плановые работы, а к этому вернуться потом. А вот если упали оба сервера базы - то мы красим услугу уже в красный цвет и инженеры бросают все дела и бегут поднимать сервера баз данных, ибо услуга не оказывается. В идеале красить даже не услугу "Хостинг", а "MySQL", т.к. сайты на голом html продолжат работу...
К сожалению, из таких мониторингов знаю только HP BSM, но это дорогое и бесполезное ПО, сложное в обучении сотрудников и т.д. Кроме того, развернуть его в пределах хостинг-компании почти не реально ввиду количество серверов под мониторинг.
Увы, ни в nagios, ни в zabbix такого функционала не знаю... Сейчас мониторинг идёт на базе The dude, который свою задачу выполняет на ура, но красит сразу весь кластер, если падает хотя бы 1 сервер. А падение сервиса определяется по его падении на 1 из серверов... Что мягко говоря не устраивает...
Почему нужно мониторить именно услугу? Честно говоря, уже надоела паника и перебежки в попытках понять что случилось, что не работает и т.д. По текущему состоянию мониторинга крайне сложно поставить приоритет проблеме и решить - направлять ли инженеров на устранение срочно или же это может и подождать...
Согласитесь, если отвалился один из серверов баз данных, а есть дублирующий, бросать на половину сваренную оптику не есть хорошо или отбирать инженера у клиента, которого он консультировал или помогал поднять сервер... А вот если сдохло всё хранилище в ДЦ - то VDS прыщавого подростка с сервером Minecraft спокойно может подождать - коровки на ферме у них за полчаса не передохнут...