470 likes | 651 Views
XINFO . Das IT - Informationssystem. TWS Performanceanalyse mit XINFO IT-Charts. H O RIZONT Software für Rechenzentren. Garmischer Str. 8 D- 80339 München Tel ++49(0)89 / 540 162 - 0 www.horizont-it.com. Gründe für TWS Performance Analyse.
E N D
XINFO Das IT - Informationssystem TWS Performanceanalyse mit XINFO IT-Charts HORIZONT Software für Rechenzentren Garmischer Str. 8 D- 80339 München Tel ++49(0)89 / 540 162 - 0www.horizont-it.com
Gründe für TWS Performance Analyse • TWS ist ein Schlüssel-Subsystem in einer z/OS-Umgebung • Job-Scheduler müssen effizient arbeiten, um insgesamt eine gute Leistung zu erzielen • Gerade kleine “Verschwender” im Scheduling können tiefgreifende Ergebnisse erzeugen: • Zum Beispiel: Auf einem System mit 50.000 Jobs pro Tag, wenn 2.000 von diesen Jobs auf dem kritischem Pfad statt einer Sekunde der Submit 2 Sekunden dauert, gehen über 33 Minuten pro Tag im Batchfenster verloren • Tatsächlich kann weitaus mehr verloren gehen, wenn die TWS Performance schlecht ist.
Weitere Gründe für eine Analyse • Erreichung von SLAs • Zusammenführung verschiedener Systeme/Sysplexe und deren Scheduler (TWS Controller) • Hohes Volumen an ETT-Jobs mit der Anforderung abgearbeitet zu werden wie eine Transaktion ‘in real time’ • Eine Überprüfung der Performance von TWS und dem “Tuning” für effizienteres Arbeiten, kann eventuell Investitionen in Hardware vermeiden
Komponenten mit Einfluß auf TWS • JES und der Workload Manager (WLM) • Wechselwirkungen zwischen den TWS Subtasks • z/OS Performance insgesamt • TWS I/O Aktivitäten, Plazierung von TWS Dateien, das DASD Subsystem, etc. • TWS Processor Speicher (50% des CP ist in LSR Buffers gespeichert) • TWS Dispatching Priorität und Prozessor Nutzung • VTAM und/oder XCF-Performance
TWS Subtask Wechselwirkungen User JES/WLM Tracker Tracker PIF Tracker submit EM Event Manager GS General Service WSA Workstation Analyser [LOCK] CP Current Plan JS JCL Repository Events, ETT Ready Performance ist OK wenn alle Systeme gut zusammenarbeiten [LOCK] Backup NMM Normal Mode Manager
IBM Tuning Empfehlungen • Eine sehr gute Veröffentlichung: SC32-1265-03 IBM Tivoli Workload Scheduler for z/OS Customization and Tuning, Kapitel 13, 14 und 15, Analyzing performance, Tuning Controller & Tracker • Erläutert Einflußfaktoren auf Performance relevante Probleme: • Grosse Queue von Computer Operationen mit Status ‘R’ • Verzögerungen zwischen Job Endezeiten und erfolgreicher Rückmeldung ans TWS. • …
IBM Tuning Empfehlung • Viele Ready-Operationen: Setzen eines hohen QUEUELEN Wertes • Reduzierung der Anzahl ‘Suspended’ Events: Filter unrelevanter Information mit Exit EQQUX004 • Beleuchtung der JES-Performance • Nutzung von EQQUX002 Exit zur Lokalisierung und Bereitstellung der JCL • …
Performance Fragestellungen • Alle diese Empfehlungen sollten dieser Sichtweise folgen: • Ist die TWS Queue Lengths ausreichend? • Sind zu viele “ready”-Operations in der Queue? • Gibt es lange Wartezeiten beim Submit von Jobs? • Taucht eine hohe Anzahl von “unrelevanten” (suspended) Events auf? • Ist die Antwortzeit noch akzeptabel? • …
Performancedaten • Performancedaten sind in einigen Quellen verfügbar ( RMF, SMF, VTAM GTF und TWS selbst) • Detailierte TWS-Performancedaten können erstellt werden durch die Aktivierung des Parameters STATMSG im Initialization-Statement JTOPTS am Controller: • CPLOCK (Current Plan locking) • EVENTS (Event Prozessing) • WSATASK (Workstation Analyser Task) • GENSERV (General Service Subtask)
Auswertung von Performance-Daten • Eine Auswertung der Performancedaten gestaltet sich etwas schwierig: • MLOG: Sehr viele Meldungen und Werte • TRACKLOG: Sehr viele Daten mehr oder weniger ‘unlesbar’ • Aus den Daten müssen relevante Werte summiert werden • Hier ist ein hoher manueller Zeitaufwand erforderlich dies selbst mit z.B. Excel auszuwerten
Auswertung Performancedaten mit XINFO XINFO bereitet Performancedaten automatisch auf und visualisiert das Ergebnis graphisch
Was ist XINFO? XINFO ist ein Informationssystem für Rechenzentren. Es ermöglicht den Zugriff auf alle relevanten Informationen: • XINFO analysiert: • z/OS: JCL, DB2, IMS, SMF, Cobol, PL1, etc. • Scheduler: UC4, TWS, Control-M, CA-7, etc. • C/S: Space, Inventory, Process und SAP • Ergebnis der Analyse wird in eine Datenbank geladen • Dialogprogramme (Windows oder ISPF) • Abfrageergebnisse werden tabellarisch oder grafisch dargestellt
XINFO Technischer Überblick Main input data Additional input data. Unix, Windows JCL Scheduler Etc. SMF Cobol Etc. Catalog SpaceScanner Other Scanners JCL Scanner SMF Scanner Scheduler Scanner Source Scanner Distributed Scanners zOS, UNIX or Windows XINFO Database(DB2, ORACLE or MS-SQL) PC Client
IT-Charts • Jobs pro Jahr / Monat / Tag • Abbrüche pro Jahr / Monat / Tag • Plattenplatz • Anzahl der Dateien • Trend-Analyse • … “XINFO IT-Charts” ist ein XINFO Modul zum schnellen und einfachen Erstellen von Diagrammen aus vorhandenen XINFO-Daten: Offen für alle Daten
Fehlerhafte Jobs Anzahl von fehlerhaften Jobs je Abend-Art
Anzahl aller Jobs im Vergleich Aktuelles Jahr Vorjahr
SLA (Service Level Agreement) Ziel nicht erreicht, job endet nach 09:00 Ausgangssituation: Ein bestimmer Job muss vor 09:00 fertig sein Ziel erreicht: Job endet vor 09:00
Bereitstellung TWS Daten EQQPARM STATMSG(…) STATIM(60) EQQMLOG Controller JT JT Notwendige Optionen JT JARC TWS Activity-Report Extend/Replan CP EQQAUDIT EQQTROUT Durchführung von EQQBATCH/EQQAUDIT
Analyse EQQMLOG und EQQAUDIT EQQE006I EVENT MANAGER EVENT TYPE STATISTICS FOLLOW: EQQE006I TYPE NTOT NNEW TTOT TNEW TAVG NAVG NSUS EQQE007I ALL 213 213 1.0 1.0 0.00 0.00 14 EQQE007I 1 8 8 0.1 0.1 0.02 0.02 0 EQQE007I 2 15 15 0.0 0.0 0.00 0.00 0 EQQE007I 3S 8 8 0.0 0.0 0.00 0.00 0 EQQE007I 3J 45 45 0.2 0.2 0.00 0.00 4 EQQE007I 3P 48 48 0.3 0.3 0.00 0.00 4 EQQE007I 4 0 0 0.0 0.0 0.00 0.00 0 EQQE007I 5 39 39 0.0 0.0 0.00 0.00 6 EQQE007I USER 0 0 0.0 0.0 0.00 0.00 0 EQQE007I CATM 0 0 0.0 0.0 0.00 0.00 0 EQQE007I OTHR 43 43 0.1 0.1 0.00 0.00 0 EQQE004I CP ENQ LOCK STATISTICS SINCE PREVIOUS MESSAGE FOLLOW: EQQE004I NAME NEXCL NSHRD THELD TWAIT AHELD AWAIT EQQE005I NORMAL MODE MGR 1 0 0.0 0.1 0.00 0.11 EQQE005I WS ANALYZER 2 0 1.3 1.0 0.69 0.54 EQQE005I EVENT MANAGER 2 0 1.1 1.3 0.57 0.69 EQQN017I THE JCL REPOSITORY DATA SET WILL BE COPIED EQQN016I DDNAME OF CURRENT JCL REPOSITORY DATA SET IS EQQJS1DS EQQG013I QUEUE SIZE 687 687 0 0 0 0 0 0 EQQG013I QUEUE DELAY 687 687 0 0 0 0 0 0 EQQG010I GENERAL SERVICE REQUEST STATISTICS FOLLOW: EQQG010I TYPE TOTAL NEWRQS TOTTIME NEWTIME TOTAVG NEWAVG EQQG011I ALL 687 687 758.9 758.9 1.10 1.10 EQQG011I RL 4 4 0.0 0.0 0.02 0.02 EQQG011I OPER 214 214 235.4 235.4 1.10 1.10 EQQG011I OPRL 1 1 0.0 0.0 0.00 0.00 EQQG011I PREP 1 1 0.0 0.0 0.00 0.00 EQQG011I JCL 19 19 19.2 19.2 1.01 1.01 EQQG011I MCP 17 17 26.8 26.8 1.57 1.57 EQQG011I DEPC 38 38 6.6 6.6 0.17 0.17 EQQG011I R3P 11 11 0.0 0.0 0.00 0.00 EQQG011I C3C 86 86 188.1 188.1 2.18 2.18 EQQG011I AD 13 13 0.1 0.1 0.01 0.01 EQQG011I WS 126 126 76.1 76.1 0.60 0.60 EQQG011I WSRL 1 1 0.0 0.0 0.00 0.00 EQQG011I CP_G 106 106 203.3 203.3 1.91 1.91 XINFO IT-Charts Tabelle XINFO Scanner OP.CPDB_030 IN RZ01XX#TWS#CPBKUP IS SET TO S JOBNAME: R01TWS01 PROCESSED IJ-SUBMIT JCL AD/IA: RZ01XX#TWS#CPBKUP0511100600 PROCESSED A1-JOB CARD READ R01TWS01(JOB52600) AT: 02.17.43.87 PROCESSED A2-JOB START R01TWX01(JOB52600) AT: 02.17.46.35
Anzahl Jobs je Stunde Anzahl Jobs Eine hohe Anzahl an Jobs tagsüber (Normalen Online-Zeit) Stunden
Anzahl Jobs je Workstation Hauptlast auf Workstation CPU3 Legende
Submit-/Startzeiten je Workstation 30 Sekunden und mehr Zeit einen Job zu submitten ist inaktzeptabel Sekunden Was könnte der Grund sein? Auch im Mittel 10 Sekunden sind schlecht Kleiner 1 Sekunde ist OK Zeitachseeines Tages
Zeitdifferenz von Status S IJ-Event In diesem Falle brauchte TWSz zu lange beim Lesen der JCL (auf CPU1/2-Sysplex) Alle anderen Zeiten sind ok
Zeitdifferenz von IJ A1-Event Submit der JCL an INTRDR: Zeiten unter einer Sekunde sind ok
Zeitdifferenz von A1 A2-Event Initiierung der Jobs im JES: Auf CPU3, Jobs benötigen zeitweise zu lange im JES (WLM) Grund war: Niedrige (WLM) Priorität für TWS-Batch-Jobs, gegenüber höher priorisierten Paralleljobs Auf den anderen Workstations sind die Zeiten ok
XINFO‘s TWS Displays Current Plan Enqueues Event Manager Ready Queue General Service Task CP & JS Backup Zeiten Anzahl Jobs Submit-Prozeß Zeiten
EQQMLOG, Event Manager Statistik 01/29 13.27.32 EQQE000I TOTAL NUMBER OF EVENTS PROCESSED BY THE EVENT MANAGER TASK IS: 2301 01/29 13.27.32 EQQE000I NUMBER OF EVENTS SINCE THE PREVIOUS MESSAGE IS: 2259 01/29 13.27.32 EQQE000I EVENT MANAGER QUEUE LENGTH STATISTICS FOLLOW: 01/29 13.27.32 EQQE000I TOTAL Q1 Q2 Q5 Q10 Q20 Q50 Q100 >100 01/29 13.27.32 EQQE000I 2209 2207 1 0 0 0 1 0 0 01/29 13.27.32 EQQE006I EVENT MANAGER EVENT TYPE STATISTICS FOLLOW: 01/29 13.27.32 EQQE006I TYPE NTOT NNEW TTOT TNEW TAVG NAVG NSUS 01/29 13.27.32 EQQE007I ALL 2301 2259 0.3 0.1 0.00 0.00 0 01/29 13.27.32 EQQE007I 1 11 11 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 2 9 9 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 3S 29 23 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 3J 11 9 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 3P 13 11 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 4 0 0 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I 5 1 1 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I USER 0 0 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I CATM 0 0 0.0 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I OTHR 2227 2195 0.1 0.0 0.00 0.00 0 01/29 13.27.32 EQQE007I E2E 0 0 0.0 0.0 0.00 0.00 0…
Event Manager: Queue Length Hohe Anzahl an Events Events werden sofort verarbeitet, Queue ist selten größer 1
Event Manager: Event Types Hohe Anzahl an Events Gleichmäßige Verteilung der Eventtypen (dies ist ok)
Event Manager: Suspended Events Hohe Anzahl suspended A3P events Grund:Events kommen von einem anderen parallelen TWS Installation Lösung: Event filter exit
EQQMLOG, Ready Queue Statistik 01/29 13.27.32 EQQE008I READY OPERATIONS QUEUE LENGTH STATISTICS FOLLOW: 01/29 13.27.32 EQQE008I Q10 Q100 Q1000 Q5000 Q10000 >10000 01/29 13.27.32 EQQE008I 32 0 0 0 0 0 01/29 13.27.32 EQQE008I OPERATIONS READ AND FOUND WAITING FOR SPECIAL RESOURCES: 01/29 13.27.32 EQQE008I Q10 Q100 Q1000 Q5000 Q10000 >10000 01/29 13.27.32 EQQE008I 32 0 0 0 0 0 01/29 13.27.32 EQQE008I OPERATIONS READ TO SELECT A WINNER: 01/29 13.27.32 EQQE008I Q10 Q100 Q1000 Q5000 Q10000 >10000 01/29 13.27.32 EQQE008I 32 0 0 0 0 0 01/29 13.27.32 EQQE009I READY QUEUE LAST VALUE 2 01/29 13.27.32 EQQE009I NEW READY OPERATIONS 1 01/29 13.27.32 EQQE009I NEW STARTED OPERATIONS 0 01/29 13.27.32 EQQE009I NEW COMPLETED OPERATIONS 1 01/29 13.27.32 EQQE009I SELECT WINNER CALLS 32
Ready Queue: Queue Length Hohe Anzahl an Operationen im Ready Status
Ready Queue: Waiting Special Resource Eine hohe Anzahl von Operationen warten auf SR (zw. 1000 und 5000)
Ready Queue: Select a Winner Zu hohe Anzahl an Jobs aus dem der nächste ermittelt werden muß TWS braucht Zeit zur Überprüfung grosser Queues, oftmals sind viele Operationen mit SR oder Zeitabhängigkeiten der Grund
Ready Queue Usage Hoher Workload Grosse Anzahl von Operationen sind permanent in der Queue (seit letztem Check) Zuviele Operationen permanent in der Ready Queue, bedeutet lange Zeiten den nächsten Job zum Submit zu finden
EQQMLOG, General Service Statistik 01/29 17.01.29 EQQG012I GENERAL SERVICE QUEUE STATISTICS FOLLOW: 01/29 17.01.29 EQQG012I TYPE TOTAL Q1 Q2 Q5 Q10 Q20 Q50 Q100 01/29 17.01.29 EQQG013I QUEUE SIZE 312 312 0 0 0 0 0 0 01/29 17.01.29 EQQG013I QUEUE DELAY 311 312 0 0 0 0 0 0 01/29 17.01.29 EQQG010I GENERAL SERVICE REQUEST STATISTICS FOLLOW: 01/29 17.01.29 EQQG010I TYPE TOTAL NEWRQS TOTTIME NEWTIME TOTAVG NEWAVG 01/29 17.01.29 EQQG011I ALL 311 311 2.4 2.4 0.00 0.00 01/29 17.01.29 EQQG011I AD 75 75 0.8 0.8 0.01 0.01 01/29 17.01.29 EQQG011I OI 5 5 0.0 0.0 0.00 0.00 01/29 17.01.29 EQQG011I WSD 93 93 0.7 0.7 0.00 0.00 01/29 17.01.29 EQQG011I CALE 5 5 0.0 0.0 0.00 0.00 01/29 17.01.29 EQQG011I PERI 25 25 0.2 0.2 0.00 0.00 01/29 17.01.29 EQQG011I RACF 14 14 0.0 0.0 0.00 0.00 01/29 17.01.29 EQQG011I RD 84 84 0.4 0.4 0.00 0.00 01/29 17.01.29 EQQG011I ETT 5 5 0.0 0.0 0.00 0.00 01/29 17.01.29 EQQG011I JV 5 5 0.0 0.0 0.00 0.00
General Service: Queue Size Teilweise Wartezeiten (Q>1) für User- und PIF- Anforderungen
General Service: Queue Delay Hohe Anzahl von Delays Queue-Größe und Delays sind Indikatoren für schlechte Anwortzeit bei TWS-Usern
Detailed General Service Requests Die Anzahl der Ready-List-Anforderungen ist ungewöhnlich hoch
General Service Times Hohe Servicezeiten tagsüber lassen eine schlechte Antwortzeit vermuten
EQQMLOG, CP ENQ Lock Statistik 01/29 17.00.42 EQQE004I CP ENQ LOCK STATISTICS SINCE PREVIOUS MESSAGE FOLLOW: 01/29 17.00.42 EQQE004I NAME NEXCL NSHRD THELD TWAIT AHELD AWAIT 01/29 17.00.42 EQQE005I NORMAL MODE MGR 43 0 0.0 0.0 0.00 0.00 01/29 17.00.42 EQQE005I WS ANALYZER 16 0 0.1 0.0 0.00 0.00 01/29 17.00.42 EQQE005I EVENT MANAGER 1527 0 0.4 0.2 0.00 0.00 01/29 17.00.42 EQQE005I GENERAL SERVICE 0 5 0.0 0.0 0.00 0.00
CP ENQ Lock: Event Manager CP update Zeit des EM EM muss warten Grund: CP locked durch users, PIF, backup …?
CP ENQ Lock: General Services User/PIF Anforderungen warten Grund: EM blockiert den CP
CP ENQ Lock: Normal Mode Manager Hoher Workload CP blokiert Grund: CP-Backup oder Switch vom NCP ?
Backup Copy Times Finde eine besssere Zeit zur Durchführung von CP- und JS-Backup (keine Event getriebenen Backup) Startzeit und Laufzeit eines CP Backups
Zusammenfassung der Performance Analyse durch XINFO IT-Charts • XINFO sammelt und akkumuliert automatisch die Daten aus EQQMLOG und Tracklog • XINFO hält historische Daten vor und hilft diese im Vergleich zu sehen z.B. mit dem gleichen Zeitraum des Vorjahres • XINFO ermöglicht Zwachstellen und Problemzonen aufzuzeigen
XINFO Das IT - Informationssystem Vielen Dank für Ihre Aufmerksamkeit! HORIZONT Software für Rechenzentren Garmischer Str. 8 D- 80339 München Tel ++49(0)89 / 540 162 - 0www.horizont-it.com