Monitoring IT infraštruktúry

Jednoduchý spôsob ako mať všetko pod kontrolou.

Monitoring infraštruktúry a prečo je dobré monitorovať?

Predstavte si, že ste manažér a máte pod sebou napríklad 100 ľudí. Oni robia svoje úlohy a zatial ste spokojný lebo všetko ide ako má. Ale jedného dňa sa všetko zastaví. Pýtate sa prečo. Dôvod zlyhania môže byť pritom úplne jednoduchý a pritom častokrá podceňovaný.

Prečo je monitoring infraštruktúry taký dôležitý?

Ako dôvod zlyhania načrtnutom príklade možeme považovať fakt, že vám jednoducho chýbal prehľad o tom čo sa u vás deje. Tak ako manažérskom tak aj v IT prístupe je dôležitá spätná väzba. Neustáli dohľad zabezpečí to, že o potencionálnych problémoch budete informovaný skôr ako k ním príde a máte dostatok času na ich vyriešenie. Tím zabezpečíte kontinuitu vašej infraštruktúry s nulovým downtime-om. A to predsa ide.

Ako mať prehľad o desiatkách až stovkách zariadení, ktoré vo svojej infraštruktúre mám?

Jednoducho. Našťastie existuje veľa kvalitných monitorovacích nástrojov. My sme si vybrali spoľahlivé a flexibilné riešenie, ktoré dokáže monitorovať:

jednotlivé pc
fyzické servre
sieťové komponenty
virtuálne servre
služby bežiace na serveroch
operačné systémy windows, linux, mac
health statusy z manažment konzoly tzv. IPMI
vlastné definované parametre

Ako to funguje?

Celý systém monitorovania pozostáva pricipiálne z dvoch prvkov.

Prvým je monitorovací server, umiestnený ideálne nezávisle na monitorovanom prostredí, ktorý ma za úlohu zbierať dáta, ukladať a vyhodnocovať ich a v prípade potreby odoslať notifikáciu, že niečo nie je v poriadku.

Ďalej tu máme klienta , ktorý je nainštalovaný na operačnom systéme a ktorého úlohou je zbierať dáta a posielať ich na server.

Vyskytnú sa však aj situácie, kde klienta nevieme použiť. To sú napríklad: switche, routre, mgmt konzoly a podobne. V takýchto prípadoch vieme použiť tzv. SNMP rozhranie,ktoré posktytuje takmer každé zariadenie a pomocou ktorého vieme monitorovať aj zariadenia bez nainštalovaného klienta.

Zber informácií prebieha v zadaných časových intervaloch. Vo väčšine prípadov je to každých 30 sekúnd.

Ako funguje systém vyhodnotenia problému a notifikácií?

Máme zozbierané dáta, ale čo s nimi? Potrebujeme ich nejakým spôsobom vyhodnotiť. Na to väčšinou používame matematické funckie alebo, v prípade textových hodnôt, regulárne výrazy.

Podľa toho ako sa nameraná hodnota líši od požadovanej, vyhodnotíme závažnosť (severitu) problému. Následne túto hodnotu kategorizujeme od stupnice Information až po Disaster.

Po vyhodnotení dát a ich závažnosti systém posiela notifikácie predvoleným užívateľom, ktorý by mali daný problém riešiť. Ak je daný problém vyriešený, trigery sa vrátia do pôvodných hodnôt.

Ako vám vieme pomôcť?

Popri našej práci pri správe infraštruktúry sme nadobudli nespočetné a veľmi cenné skúsenosti aj v oblasti Monitoringu, o ktoré by sme sa s vami radi podelili. Ak vás náše riešenie zaujalo, tak vám veľmi radi pomôžeme s jeho realizáciou.