260 likes | 432 Views
Feilretting. SIF8076 Planlegging og drift av IT-systemer Anders Christensen, IDI. Feilsøking krever: Kreativitet Verktøykunnskap Systemoversikt Teknisk innsikt Generell erfaring. Feilretting krever: Nøyaktighet Systemforståelse Historisk kunnskap Lokal spesialkunnskap.
E N D
Feilretting SIF8076 Planlegging og drift av IT-systemer Anders Christensen, IDI SIF8076 Planl/drift av IT-syst
Feilsøking krever: Kreativitet Verktøykunnskap Systemoversikt Teknisk innsikt Generell erfaring Feilretting krever: Nøyaktighet Systemforståelse Historisk kunnskap Lokal spesialkunnskap Feilsøking og -retting SIF8076 Planl/drift av IT-syst
Feilhåndtering og linjedelt drift (Prosjekter) 3.linje Retting Testing (”Drift”) Tilpassing 2.linje Feil- isolering Verifisering Dokument- asjon Reprodu- serbarhet Deploy- ment (Rutiner og brukerstøtte) 1.linje Feil- melding Tilbake- melding SIF8076 Planl/drift av IT-syst
Hovedkategorier av feil • Brukerfeil eller misforståelse hos brukeren • Rutineoppgaver, f.eks brukeradm og restore og andre forutsigelige oppgaver • Feilsituasjon som skal rettes, der systemet har fått en feil • Konseptuell feil med systemet, der det må gis ny funksjonalitet for å håndtere oppgavene. SIF8076 Planl/drift av IT-syst
Retting av feil 1.linje 2.linje 3.linje Veiledes Brukerfeil Rutineoppgave Utføres Feilsituasjon Verifiseres Rettes Konseptuell feil Verifiseres Feilsøkes Redesignes SIF8076 Planl/drift av IT-syst
Retting og testing • Retting. Gjør rettingen permanent, og distribuer den til alle maskiner. • Testing. Test på mer enn en måte, fokuser fra mer enn en vinkel. Dobbelttest og trippeltest. • Dokumentasjon. Dokumenter hva du har gjort, og gi tilbakemelding til bruker SIF8076 Planl/drift av IT-syst
Fire strategier for feilretting • Korrigere før feilen oppstår • Automatisk korrigere idet feilen oppstår • Manuell korrigering når de første symptomene melder seg • Opprydding når problemet er blitt merkbart SIF8076 Planl/drift av IT-syst
Kostnader 4 Nede tid 3 2 1 Initielle driftsutgifter SIF8076 Planl/drift av IT-syst
Akkumulative feil En kritisk feilsituasjon har sjelden bare ett enkelt problem som årsak. Dersom problemer korrigeres ASAP, kan man hindre at de blir delårsaker i komplekse feilsituasjoner. SIF8076 Planl/drift av IT-syst
Spissformulering om testing! Noe du har gjort fungerer ikke fordi du har gjort det, men fordi du har testet det, dobbelttestet det, og trippeltestet det. SIF8076 Planl/drift av IT-syst
Automatisering Automatisering vil si å generalisere en løsning for et sett av problemer på en slik måte at de kan løses senere, uten manuell inngripen for hverken oppstart eller utførelse. SIF8076 Planl/drift av IT-syst
Spissformulering: Ingenting er så permanent som en temporær løsning som ser ut til å virke. SIF8076 Planl/drift av IT-syst
Tre regler for automatisering • Ordne problemet for permanent! • Ikke finn opp hjulet på ny, gjenbruk! • Ordne problemet for alle maskiner på en gang! SIF8076 Planl/drift av IT-syst
Hvorfor automatisere? • Forenkler skalerbarhet • Sikrer konsistens mellom maskiner • Bedre ressursutnyttelse • Gir repeterbare prosesser • Gir sporbare prosesser SIF8076 Planl/drift av IT-syst
Scripting Kobler flere enkelthandlinger. Proceduralt ”Programmeringsspråk” Utfører et program Tilstandsbasert Regelbasert Komplekst Sammenlikner tilstander Dimensjon 1Metoder SIF8076 Planl/drift av IT-syst
Defensivt Kvalitet i fokus Kontrollerer avvik Sjekker assumptions Sjekker resultatene Avbryter hvis uklart Spesialbehandling av farlige operasjoner Aggressivt Oppgavemål i fokus Få/ingen sjekker Vanligvis midlertidig Ignorerer spesialtilfeller Forventes brukt manuelt Ignorerer feilkoder Dimensjon 2Holdning SIF8076 Planl/drift av IT-syst
Symptom For å få bort bieffekter Hvis midlertidig bruk Hvis ufarlig/uskadelig Hvis man ikke forstår hva som skjer Årsak For å løse problemer Permanent løsning Sikkerhetsrelatert Dimensjon 3Målskive SIF8076 Planl/drift av IT-syst
De fire veiene • Reboot (brute force) • Manuelt (hele folket i arbeid) • Kontroll (Stasi-metoden) • Automatisering (’selvreparasjon’, eller immunologi) SIF8076 Planl/drift av IT-syst
Enkel Krever lite kompetanse Rask å utføre Oftest lav TTR Lite proaktivitet Skalerer dårlig (lineært) Dårlig for klassefeil Gir ikke systeminnsikt Dårlig for tjenere Reboot-metoden Dersom noe ikke virker, hopp over all feilsøking, og gå rett på restart/reboot/reinstall. SIF8076 Planl/drift av IT-syst
Ypperlig i små systemer Kan virke godt for små subsystemer Stor frihet Kan fungere: nærdrift Probl med nyansatte Gir personlige uvaner ”Partisjonerer” systemet Vanskelig å styre Vanskelig å linjedele Manuell drift Ansett ’tilstrekkelig’ med folk, la dem ta hver sin del av systemet (eller samarbeide om det). Gi dem nærmest full frihet i arbeidssituasjonen. SIF8076 Planl/drift av IT-syst
Enkelt å kjøpe Gir felles rammeverk Skalerer brukbart Kan linjedeles Enkelt å få nye folk Ufleksibelt rammeverk Skjuler kompleksitet ”Information overflow” Binder til teknologivalg Begrenset funksjonaltet Kontrollmetoden Kjøp et verktøy for å drive maskinene. La verktøyet overvåke alt som skjer, og si ifra hva som må gjøres. Konfigurer systemet gjennom verktøyet, SIF8076 Planl/drift av IT-syst
Automatisering Systemet skal settes opp inkrementelt av sysadm til å fikse problemer som måtte oppstå. Når et nytt problem oppstår, så fikses det generelt, og løsningen gjøres gjeldende for alle maskiner til all tid. Sysadm jobber bare med de ’nye’ problemene. SIF8076 Planl/drift av IT-syst
Gjenbruk av løsninger Kort TTR Bare ’interessante’ jobber Sterk sublineær skalering Uten manuell intervensjon etter at det er satt opp Rette feil ’en gang for alle’ Krever mye lokal konfigurering Skaper nye komplekse systemer Begrenser endringstakten Brute-force løsning på en del problemer (selv om den er automatisert) Vanskelig å fase inn nye folk Krever høy kompetanse Automatisering – for og mot SIF8076 Planl/drift av IT-syst
De fire driftsmetodene Manuell detektering Manuell drift Reboot- metoden Kontroll- metoden Automatisk detektering Automatisering Manuelt fikset Automatisk fikset SIF8076 Planl/drift av IT-syst
Kvalitetbedring av automatisering • Test, dobbelttest og trippeltest • Gjennomgang med peer review • Tvungen dokumentasjon i forkant • Tvungen overføring til driftspersonell • Full verifisering av kapasitet SIF8076 Planl/drift av IT-syst
Fordeler Bra ved feilsøking For midlertidige feil Løsning frem til et vedlikeholdsvindu Løsning frem til en permanent løsning Ulemper Blir lett permanent Inkrementent økende Vanedannende Tar fokus fra viktige oppgaver Skaper større behov for historisk kunnskap Temporær fiksing SIF8076 Planl/drift av IT-syst