450 likes | 640 Views
Intelligens rendszerfelügyelet. Incidens-, probléma-, változáskezelés. Szombath István szombath @ mit.bme.hu. Tartalomjegyzék. Probléma / motiváció Eseménykezelés ( ism .) Incidenskezelés Problémakezelés Konfigurációmenedzsment ( ism ) Hatásanalízis / diagnosztika Változáskezelés Demo.
E N D
Intelligens rendszerfelügyelet Incidens-, probléma-, változáskezelés Szombath István szombath@mit.bme.hu
Tartalomjegyzék • Probléma / motiváció • Eseménykezelés (ism.) • Incidenskezelés • Problémakezelés • Konfigurációmenedzsment (ism) • Hatásanalízis / diagnosztika • Változáskezelés • Demo
Bevezető Ma már az n. ügyfél fordul hozzám fura panaszokkal. Továbbítom a problémát a nagykutyáknak. • Hiba esetén értesítendő • Józsi a rendszergazda • IT support • HelpDesk • Telefonon • E-mailben • Keretrendszer segítségével Kapcsolja ki a gépet, majd be. Oh, újra működik, csodás! Nem megy a vindóz, nem tudok dolgozni! Most mondtam, nem megy! Értem uram, mik a tünetek? ?!#@? A múlt heti frissítésben valószínű maradt egy bug. Ezt azonnal orvosolni kell!
Gartner felmérés • Milyen szintű integráció van az eseménykezelés (mgmt) és a Service Desk között? • 10% semmilyen • 46% „analóg” manuális (telefon, …) • 20% félig automatizált („digitális manuális”) • 24% teljesen automatizált • Ki felelős a kritikus problémákért? • … • 17% nem formalizált
ITIL • IT menedzsmentfolyamatokhoz • keretrendszer • technikák • eszközök • „bestpractices” • Jobbat • Olcsóbban
Terminológia • Monitorozás != eseménykezelés • Miért is? • Ticket • TroubleTicket, RFC Ticket, … • Azonosító • Visszahívási cím (CallbackNumber) • Jól strukturált információ • RFC • RequestforChange • Ticket ha változtatni szeretnénk valamin
Terminológia • Baseline – alapbeállítás • KnownError (Ticket) • Ismert hiba (GyIK, FAQ, RTFM, …) • Miért is lesz ez hasznos? • Reaktivitás, proaktivitás • Példa az eseményekre: • Új bejegyzés egy naplófájlban • Script üzenetet küld (e-mail, …) • Ágens jelentést küld • …
Eseménykezelés (ism) • ITIL: Event Management • „Event Management is the process of raising significant infrastructure events and responding to those events.” • Fogalmak: • Szűrés (filtering) • Továbbítás (forwarding) • „Lassítás” (throttling) • Duplikátumok detektálása (duplicatedetection) • Korreláció • Elévültetés • Metrikák (példa?)
Eseménykezelés ism. • Generálás • Detektálás • Szűrés • Akció • Automatikus / humán • Loggolás • Eszkalálás • Incidenskezelés • Problémakezelés • Változáskezelés • Felülvizsgálás • Lezárás
Service Desk • Felület a felhasználók felé • Ide fordulnak zavar esetén • Ticket nyitása, kitöltése, lezárása • Kísérlet a probléma megoldására • Eszkalálás • Aliasok(?) • Call Center, HelpDesk, …
ITIL – Incidenskezelés • Incidens: • Nem tervezett leállás, hiba vagy anomália egy szolgáltatásban (vagy komponensben) • Formalizált incidenskezelés előnye: • Kevesebb leállás • Priorizálás, jobb erőforrás kihasználás • Szolgáltatási szint javítása • Folyamatok, szerepkörök, felelősségek definiálása
Incidenskezelés – Alfolyamatok • Azonosítás • Milyen forrásokból jöhet? • EventMgmt • Web Service Interface • Telefonhívás kívülről • Belülről • Naplózás (mit is?) • ID, Időbélyeg • Probléma leírás • Érintettek száma, súlyosság, prioritás • Kontakt (visszahívási szám) • Vonatkozó CI adatok (!) • Status (?) Incidentidentification Logging
Incidenskezelés – Alfolyamatok (2) • Kategorizálás • HW / SW … • Granularitás változó • Priorizálás • Impacton Business • Hány ember érintett? • Anyagi, személyi, erkölcsi (?) kár • (Initial) Diagnózis • Kísérlet a hibaok feltárására Categorization Prioritization InitialDiagnosis
Incidenskezelés – Alfolyamatok (3) • Eszkalálás • Updateljük a ticketet • Továbbítjuk felsőbb szintekre • 2-level, 3-level • Diagnózis felállítása • Mi romlott el? • Mi vezetett ide? • Okok, eseménysorok megértése • KnownErrorTicket(ek) frissítése Escalation? Diagnosis
Incidenskezelés – Alfolyamatok (4) • Helyreállítás • Tesztelés • Végrehajtás (hol?) • Incidens lezárása • Ticket útjának ellenőrzése • Visszajelzés • Dokumentálni • Újra előfordulhat Resolution &Recovery IncidentClosure
Incideskezelés – Ticket állapotai • Opened • Assigned • Resolved • Closed Opened Assigned Resolved Closed
Prioritás • Prioritás = sürgősség x hatás • Ökölszabály: Impact = érintettek száma (?) • Példák: • Backup elromlott (nem sürgős, nagy „impact”) • Logo nem szép (sürgős, közvetlen hatás nincs)
Gondolkodtatók • Milyen metrikákat mérhetünk? • Ticket/óra, Ticket hossz, … • Milyen más folyamatokkal van együttműködés? • Esemény, probléma, változáskezelés • Konfigurációkezelés • … • Kritikus pontok • KnownErrorTicketek kezelése • Incidensek észlelése • Képzett csapat • Elkötelezettség a felhasználók részéről (!)
ITIL – Problémakezelés • Probléma: • Incidens(ek) oka • Problémák életciklusát kezeli • Szisztematikusan • Incidensek számát / hatását minimalizálja • Hibaok feltárása • Megoldás keresése, tesztelése, implementálása • Szoros integráció az incidenskezeléssel és a változáskezeléssel
Problémakezelés • Folyamat incidenskezeléshez hasonló: • Detektálás • Hogyan (itt kezd érdekes lenni)? • Loggolás • Kategorizálás • Priorizálás • Diagnózis • Workaroundok, megoldás tesztelése, implementálása • KnownErrorTicket létrehozása, dokumentálás • Lezárás
Demo Trac, Munin • Ticketek • Mit tartalmaz? • Terminológia • Ticket állapotváltás • Jelzés (e-mail) • Munin • Ticketek számának változása • Open / Closed / All
Tartalomjegyzék – kis kitérő • Probléma / motiváció • Eseménykezelés (ism.) • Incidenskezelés • Problémakezelés • Konfigurációmenedzsment (ism) • Hatásanalízis / diagnosztika • Változáskezelés • Demo
CMDB architektúra séma (ism) • Klasszikusconsumer – provider • CMDB központi adatház • Szabványos Interfészek • Konf. mgmt. körülöleli • Cserélhető eszközök Data Consumer Data Consumer Interface CMDB Interface Data Provider Data Provider
CMDB architektúra (ism) * Menedzsment Egyéb eszközök Vizuali-záció Konfigurációkezelés CMDB Monitorozás Queryinterface Beépített szenzorok IT infra-struktúra Másik DB Külső szenzorok
Modell (példány) sicily 10.10.10.1 DHCP, AD Server chicago 10.10.10.2 Belső web don DHCP 10.10.10.10 255.255.255.0 rome 152.66.252.250 10.10.10.254 florence DHCP vegas 10.10.10.3 Külső web naples DHCP
Modell vezérelt analízis és visszacsatolás (ism) Mérnöki Modell Matematikai analízis Automatizáltmodell generálás CMDB MatematikaiModell Middle- ware Modell Analízis
Hatásanalízis (ImpactAnalysis) • Inf. térkép a CMDB-ből: • Elemek és kapcsolataik • Pl. A függ B től • Komponens hiba kihat-e aszolgáltatásra? • Hány embert érint? • Szolgáltatás leállását melykomponens hibák okozhatják? • Tfh. ismert egyes komponensek állapota
Változás • Nem megtervezett változás következményei: • Szinkron megszűnik a valóság és a CMDB között • Nem tervezett leállások • Bevezetés nem sikeres • Késések • HotFixek
Változáskezelés • Változások életciklusát kezeli (meglepő) • Változások káros hatásainak kiküszöbölése • Folytonos(abb) üzletmenet biztosítása • Erőforrások hatékony kihasználása • Szisztematikus, folyamatvezérelt • CMDB szinkronban tartása • Business impact meghatározása • Scope behatárolása (érintettek értesítése, bevonása) • Incidensek elkerülése (változás miatti ~)
Változáskezelés – kulcsfaktorok (minden ITIL folyamatra igaz, különösen a erre) • Vállalati kultúra • Prioritások figyelembevétele • Jogosultságok, felelősségek tisztázása • Kockázatok kézben tartása
Változáskezelés RequestForChange Go / Nogo Implementálás koordinálása Értékelés (nem)változtatás hatása, rizikó, ütemezés Változáskezelés Lezárás Sanyi dolgozik Konfiguráció Menedzsment
Változáskezelés – összefoglalás • Világosan látni kell: • Ki kezdeményezte a változást? • Miért? • Mi a profit? • Rizikó? • Erőforrásigénye? • Felelősök (teszt, implementálás)? • Van kapcsolat más „objektumokkal”(?)?
Összefoglalás • Esemény-, incidens-, probléma-, változáskezelés • Szisztematikus folyamat • Jórészt automatizált • Service Desk által támogatott • Szakértői csapat bevonásával • CMDB-t igénybe vevő • Hatásanalízis • Diagnosztika • … • Reaktív / Proaktív