540 likes | 677 Views
Intelligens rendszerfelügyelet. Intelligens rendszerfelügyelet. Kocsis Imre, Micskei Zoltán, Tóth Dániel. Tartalom. Ipari és akadémiai kezdeményezések IBM Autonomic Computing , Microsoft DSI Modellvezérelt tervezés és felügyelet Diagnosztika Rekonfiguráció Merre tovább?.
E N D
Intelligens rendszerfelügyelet Intelligens rendszerfelügyelet Kocsis Imre, Micskei Zoltán, Tóth Dániel
Tartalom • Ipari és akadémiai kezdeményezések • IBM AutonomicComputing, Microsoft DSI • Modellvezérelt tervezés és felügyelet • Diagnosztika • Rekonfiguráció • Merre tovább?
IBM AutonomicComputing • IBM Research kezdeményezés 2001-ből (visionforthefuture, grand challenge) • Minta: autonóm idegrendszer • „A computing environment with the ability to manage itself anddynamically adapt to change in accordance with business policies andobjectives.”
Self-managing rendszer • Self-configure: To adapt to dynamically changing environments. • Self-heal: To discover, diagnose, and act to prevent disruptions. • Self-optimize: To tune resources and balance workloads to maximize the use ofinformationtechnologyresources. • Self-protect: To anticipate, detect, identify, and protect against threats.
A vízió aprópénzre váltása • AC jellegű funkciók beépítése termékekbe • AutonomicComputingToolkit • Solutioninstallation and deploymenttechnologies • Problemdetermination • Provisioning and orchestration • Policy-based management • … • Folyamatosan változó, fejlődő technológiák • Web ServicesDistributed Management (WSDM), BuildtoManageToolkit, SDD, Eclipse COSMOS…
MS Dynamic Systems Initiative (DSI) • ~2003: bejelentés, sajtóközlemény… • ~2005: • Üzemeltetésre készítettszoftver • Visual Studio támogatás • SDM modellezési nyelv
MS Dynamic Systems Initiative (DSI) • ~2006: • Tudás, modell beépítése a Management Packekbe • Vitualizáció megjelent • SDM -> SML
Service Modeling Language • Service Modeling Language, Version 1.1 • W3C Proposed Recommendation 12 February 2009 • http://www.w3.org/TR/sml/ • Models represent a powerful mechanism for validating changesbefore applying the changes to a service/system. • The actual service/system and its model together enable a self-healing service/system ― the ultimate objective.
CommonModelLibrary • 2008: Ipari összefogás (11 partner cég) • SML-re épül • Sajtóközlemény, whitepaper, szép ábra • De: ma már a weboldal se él
MS Dynamic Systems Initiative (DSI) • ~2009: • ??? • Ami megy tovább: • Design forOperations, KnowledgeDrivenMgmgt, VirtualizedInfrastructure • Példa: • PRO – Performance and ResourceOptimization • Virtuális gép átmozgatása a monitorozó rendszer mérése alapján
Tartalom • Ipari és akadémiai kezdeményezések • IBM AutonomicComputing, Microsoft DSI • Modellvezérelt tervezés és felügyelet • Rekonfiguráció • Diagnosztika • Merre tovább?
Modellvezérelt… Modell transzformáció Felderítés,követés CMDB Valóság Mérnöki/üzemeltetőimodell Matematikai,analízis modell Mi idáig főleg ilyenekkel találkoztunk. A valóságot viszonylag konkrétan ábrázolja. Valamilyen vizsgálat elvégzéséhez használt matematikai reprezentáció. Általában absztrakt. Pl. gráf, hálózati elérhetőségi vizsgálathoz
Statikus architektúrák A Rendszer CentOS Apache Tomcat DB2 Ha egyszer végre áll csak akkor nyúlunk hozzá, ha tényleg kell (akkor is megfontoltan) HW elemek
Dinamikus architektúrák • Fő ösztönző faktor: erőforráshatékonyság • Kapacitástervezés: szolgáltatásonként „worstcase”? • Hibatűrés: szolgáltatásonként dedikált redundancia? • Energiagazdálkodás? • Hűtés! • Különböző helyzetekben különböző konfigurációk optimálisak. Példák: • Virtuális gépek erőforrás-allokációja • Gépek megosztása fürtök között • „utilitycomputing” szolgáltatások bevonása • … Strukturális konfiguráció – de mi az a „struktúra”? Parametrikus konfiguráció
Dinamikus architektúrák • A szükséges technológiák megvannak • Virtualizáció (számítási kapacitás, tárhely, hálózat) • Nagysebességű hálózatok • „utilitycomputing” • Menet közben átkonfigurálható terhelésmegosztó fürtök • Ha már itt tartunk: menet közben átkonfigurálható kiszolgáló-rendszerek • … „Apróbb problémák”: Konfiguráció nem megfelelőségének meghatározása Optimális célkonfiguráció meghatározása Újrakonfiguráció folyamatának meghatározása
Rekonfiguráció • Aktív reagálás a belső és külső környezeti változásokra • Meghibásodás • Terhelés változása (QoS vs. energiatakarékosság) • Támadások stb. • Kétféle alapeset: • Parametrikus rekonfiguráció • Strukturális rekonfiguráció
Parametrikus Rekonfiguráció • Valamilyen skalár érték beállítás megváltoztatása • Pl. CPU idő allokáció virtuális gépek között • Autonóm megoldása: szabályozástechnikai probléma • A szolgáltatásoknak adott QoS értéke, mint célérték • Külső terhelés, mint zavaró bemenő jel • Valamilyen (zűrös) összefüggés az alkalmazásnak allokált erőforrások mennyisége és a szolgáltatási szint értékek között (rendszer identifikáció)
Parametrikus Rekonfiguráció Beavatkozás Megfigyelés (monitoring) Mért QoS érték Szabályozott rendszer QoS célérték Szabályozási döntés • Nehézségek: • Sokféle szabályozható jellemző • Nehezen identifikálható rendszer Szabályozott rendszer modellje
Strukturális Rekonfiguráció • A szolgáltatásban résztvevő erőforrások és szolgáltató elemek kapcsolatainak átrendezése • virtuális gépek mozgatása hostok között • feladat-átvételi fürtök • Autonóm megoldási lehetőségek • Statikus rekonfiguráció: előredefiniált konfigurációs alapesetek (a fürtök tipikusan ilyenek) • Dinamikus rekonfiguráció: találja ki a gép a konfigurációt • klasszikus mesterséges intelligencia problémák: optimalizálás, keresések, játékelmélet
Strukturális Rekonfiguráció • Miért kell dinamikus rekonfiguráció? • A statikus módszerek pazarlóan bánnak az erőforrásokkal (minden duplázott, stb.) • A statikus módszerek bizonyos hibákkal nem tudnak mit kezdeni • Megosztott redundancia kívánatos lenne • Mit csinálna a rendszergazda, ha kiesik egy szolgáltatás? • Keresne épen maradt részeket az infrastruktúrában és arra telepítené a szolgáltatást • Megpróbálná megjavítani az elromlott részeket • Hova tenne redundanciát? • Oda, ahol „el szokott romlani”
Strukturális Rekonfiguráció Beavatkozás Megfigyelés, Felderítés Mért QoS érték • Nehézségek: • Sokkal bonyolultabb modell kell • Egy teljesen más konfiguráció teljesítménye nehezen előrejelezhető • Átkonfigurálási tranziensjelenségek modellezése Futó konfiguráció CMDB QoS célérték Keresés Lehetséges rendszer konfigurációk modelljei What-if analízis, hibadiagnosztika
Gondolatébresztő: egyszerű kiszolgáló vezérlése • Egyszerű HTTP szolgáltatás • Változó terhelés • Adott válaszidőt szeretnénk biztosítani… • … de nem jobbat • Beavatkozás: CPU frekvencia állítása • Elég-e valamelyik Linux CPU governor? • Elég-e: f(terhelés) frekvencia? • N.B. általában nem túl sok diszkrét érték van • Elővettük a szabályozástechnika könyvet. Ez elég?
Gondolatébresztő: egyszerű kiszolgáló vezérlése • Tfh. A kiszolgálónk M/M/1-ként modellezhető • Legtöbbször persze nem Feldolgozási ráta (exponenciális eloszlást feltételezve) Érkezési ráta (Poisson folyamatot feltételezve) Sha, Liu, Lu, Abdelzaher: „QueueingModelBased Network Server Performance Control”, RTSS02, 2002.
Gondolatébresztő: egyszerű kiszolgáló vezérlése Az egyensúlyi késleltetés kis paraméterváltozásokra jól(?) linearizálható Kis perturbációk: visszacsatolt szabályozás Nagyok: „feedforward” vezérlés
Gondolatébresztő: egyszerű kiszolgáló vezérlése • Egyszerű szabályozás? • Reflex: P/I/D… • ... amit lehet empirikusan is (Ziegler-Nichols) paraméterezni, • meg szakasz-modell alapján. • A lehető legegyszerűbb (P): • u(t) = Kp * e(t) • f(t) = Kp * edelay(t)
Gondolatébresztő: egyszerű kiszolgáló vezérlése • Szakaszmodell (elsőrendű ARX): • Vezérlés célja: • Ezért: Figyelem: gyakorlati alkalmazásra nem mindenképp elég finom ez a modell. (pl. csak egy feldolgozóegység). Az érintő meredeksége Ez még persze nem a frekvencia.
IT rendszerek diagnosztikája • A szolgáltatási szintű hibákat (failure) tudni kell… • Detektálni • Az okokat meghatározni • Javításokat eszközölni • Előre jelezni? • Alkalmas eszközök • Megfelelő folyamatok • Beépített intelligencia?
IT rendszerek diagnosztikája ITIL folyamatok CMDB Eseményfeldolgozás Monitorozás Historikus adatgyűjtés
IT rendszerek diagnosztikája A támogató folyamatoknak is van „konfigurációja”… …? ITIL folyamatok CMDB Eseményfeldolgozás Monitorozás Historikus adatgyűjtés Mit mérjünk? Határértékek? Mit gyűjtsünk? Mit kezdjünk vele?
Rendszerszintű diagnosztika • Több évtizedes terület • Repülő eszközök, katonai eszközök, repülő katonai eszközök… • Simpson, Sheppard: System Test and Diagnosis • Alapfogalom: teszt • Ütemezett • „activeprobing” • Diagnosztika stratégiák céljai: • Hibadetektálás • Hibalokalizálás • Hibaizolálás • …optimális javító akció kiválasztása
Rendszerszintű diagnosztika • Diagnosztika: a javító akciók granularitásáig • Klasszikusan: komponens csere / újraindítás • Modern IT: + parametrikus/strukturális rekonfiguráció • Általánosan jellemző: a diagnosztikai probléma formális kezelése • Diagnosztikai stratégia megfelelőségének vizsgálata • Diagnosztikai/javítási logika szintézise
Statikus hibaterjedés-analízis • Függőségek • erőforráshasználat • adatcsere • Hibaterjedés: • erőforrás-állapot • adat • … vagy hiánya
Statikus hibaterjedés-analízis v1, v0, v4, v2, v0, … actual E1, E0, E2, E0, E0, … • Kapcsolatok: protokoll-automata saját abc-vel • Adathiba: egy olyan érték egy adott pillanatban egy kapcsolaton, mely a referencia-rendszerben nem megengedett • Klasszifikáció: „mérnöki tapasztalat” Inputs and outputs: behavior v0, v0, v3, v2, v0, … reference
Error-sorozatok időbeli absztrakciója Ami számít: Ha egyáltalán nincs válasz, akkor OS_DOWN (Diagnózis) Hasonlóan: Ha OS_DOWN, akkor egyáltalán nincs válasz (Hatásanalízis)
Error-sorozatok időbeli absztrakciója • Ami számít: • Ha egyáltalán nincs válasz, akkor OS_DOWN (Diagnózis) Hasonlóan: Ha OS_DOWN, akkor egyáltalán nincs válasz (Hatásanalízis) Bármely bemeneti error-szekvencia (Véges prefix után) no_rsperror-szekvencia Belső hibamód állapotsorozat: {OK}*.OS_DOWN Ez egy reláció (input, fault_mode, output)! {„any_input”, „OS_DOWN”, „no_answer”} {„good_requests”, „OK”, „good_answers”} {„any_request”, „PR_DOWN”, „TCP_deny”} …
Statikus hibaterjedés-analízis • Rendszerfutás: hibák sorozatai a kapcsolatokon • „no error” error • Lehetséges hiba-futások halmazának particionálása: szindrómák • Időbeli absztrakció • Példa: vegyük a legsúlyosabbat ( „súlyossági” reláció!) • Aszinkron és szinkron rendszerekre ugyanaz E1, E0, E2, E2, E0, … S5
Analízis statikus hibaterjedési leírásokkal FiniteDomain ConstraintSatisfactionProblem (CSP) • Analízis: mik a lehetséges, a leírásokkal és a megfigyelésekkel konzisztens változólekötések? • A diagnózis és a hatásanalízis ugyanaz a probléma!
Tartalom • Ipari és akadémiai kezdeményezések • IBM AutonomicComputing, Microsoft DSI • Modellvezérelt tervezés és felügyelet • Diagnosztika • Rekonfiguráció • Merre tovább?
CloudComputing • Cloudcomputing az új „buzzword” • Alapötlet: számítástechnikai erőforrások szolgáltatásként való eladása • Megfontolás: a legtöbb cég valójában nem akar IT-vel foglalkozni, de mégis szüksége van rá • Piaci lehetőség: ne hardvert/szoftvert adjunk el az ügyfeleknek, hanem szolgáltatást • Hagyományos megoldás: teljes IT infrastruktúra telepítési/üzemeltetési szerződés külső céggel • CloudComputing: Interneten keresztül bérbevehető szolgáltatások
CloudComputing - Platform virtualizáció, mint szolgáltatás - GridComputing • Jellegzetes 6-os besorolás: • Mobil eszközök • Böngészőbe épülő szolgáltatások • Keresés • Térinformatika • Pénzügyek… Sok modern, divatos üzleti modellt húztak be a „cloud” fogalomkör alá… • Alkalmazás futtatókörnyezet (.net) • Web hosting • Web alkalmazások • Online irodai szoftverek… • Hálózati tárhelyek
CloudComputing • Mi kerüljön alá? • Nyilvánvaló, hogy az erőforrás szolgáltató cégeknek… • … hatalmas hardverparkra van szüksége • Komoly költség és energia-hatékonysági megfontolások! • … nagyon jó menedzsment megoldásokat kell alkalmazniuk • Szisztematikus eljárásrend minden esetre • Automatizálás ahol csak lehet
Hardver a „Cloud” alá • Hatalmas hardverpark rendel: • Érdekes új termékfajta: ModularDatacenterpl. Sun S20 (aka. Black Box) • Specifikáció: • Kívül: szabvány méretű konténer (8-15 t tömeg) • Belül: 8 db szabványos 42 egység magas rack • Áramellátás: 200kW • Hűtés vízzel (25kW/rack kapacitással) • teljes beépített hálózat • földrengésbiztos kivitel mag. 6,5-ig • Forrás: http://www.sun.com/products/sunmd/s20/
Hardver a „Cloud” alá A Microsoft datacenter víziója:
Hardver a „Cloud” alá • Google saját szerver építőeleme: • Gigabyte GA-9IVDP alaplap (saját rendelésre készült, kereskedelmi forgalomban nem kapható) • Csak egyetlen 12V-os tápellátás • És egy jó nagy akkumulátor… UPS helyett
Autonóm menedzsment megoldások • Trend: inkább olcsó hardverből sokat, mint drágából keveset • A hibatűrést szoftverből kell megoldani • Ember számára kezelhetetlen méretű rendszer, automatizálni kell (emberi munkaerő túl drága) • Energiatakarékosság, költségkímélés: • Csak annyi redundancia legyen, amennyi feltétlen kell • Okosan kell kihasználni ezt a redundanciát • Takarékoskodni az energiával, amikor csak lehet