310 likes | 446 Views
Exchange Server 2013 Managed Availability. Konrad Sagała Architekt systemów IT APN Promise S.A. Agenda. Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniu Usprawnienia monitowania w Exchange Server 2013. Stan dostępności usług Exchange.
E N D
Exchange Server 2013 Managed Availability Konrad Sagała Architekt systemów IT APN Promise S.A.
Agenda Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniu Usprawnienia monitowania wExchange Server 2013
Stan dostępności usług Exchange • Architektura Exchange 2013 • Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawsze udostępniany przez serwer, na którym jest aktywna kopia bazy danych • Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania • Rozbudowana automatyzacja • Monitorowanie User Layer 4LB CAS DAG1 MBX-A MBX-A MBX-B MBX-B
Exchange 2013 Managed Availability Sprawdzone w chmurze Recovery Oriented User Focused Doświadczenia zebrane przez grupę wsparcia Office365 Monitorowanie oparte na doświadczeniach użytkowników Optymalizacja Exchange pod kątem odtwarzania funkcjonalności
Sprawdzone w chmurze Ponad 6 lat działania usługi Exchange Engineering Team od 2007 roku obsługuje Exchange Online, zbierając doświadczenia i budując na ich podstawie kolejne wersje produktu Inżynierowie obsługują zgłoszenia serwisowe Wdrażane są odpowiednie mechanizmy reakcji na problemy z motywacją zespołu w celu automatyzacji wykrywania i naprawy problemów Skalowalność, automatyzacja, wysoka dostępność jako kluczowe aspekty Rozproszone przetwarzanie informacji i zbieranie doświadczeń
Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać Dostępność Czy usługa jest dostępna? Opóźnienie Jakie jest moje doświadczenie? Błędy Czy jestem w stanie uzyskać to co chcę? Customer Touch Points Dostępność Błędy Opóźnienie
Recovery Oriented “stuff breaks and the Experience does not” DAG CAS-1 • OWA send • OWA failure • OWA fast recovery • OWA verified as healthy • OWA send • OWA failure • OWA fast recovery • Failover server’s databases • OWA verified as healthy • Server becomes “good” failover target (again) LB MBX-1 DB2 DB1 DB1 OWA OWA OWA OWA MBX-2 DB1 DB2 DB1 OWA CAS-2 MBX-3 DB2 DB1 OWA
Jak działa Managed Availability Managed Availability Escalate “take human driven action” Exchange 2013 Server Probe Managed Availability Monitor “state of the world” Recover “restore service or prevent failure” Check SCOM Notify
Monitoring Layers 20min 5min 20s PROACTIVE REACTIVE PROTOCOL PROXY CAS System Level Checks Mailbox Self Test (e.g. OWA MST) [detection 5m] Protocol Self Test (e.g. OWA PST) [detection 20 secs] Proxy Self Test (e.g. OWA PrST) [detection 20 secs] End User Experience Level Checks Customer Touch Point – CTP (e.g. OWA CTP) [detection 20m] 3 4 PROTOCOL MBX 2 1 STORE
Próbniki Probes Kluczowym celem jest mierzenie postrzegania usług przez użytkowników Przeważnie wykorzystuje syntetyczne transakcje end to end Checks Kluczowym celem jest mierzenie bierzącego ruchu klientów i reagowanie na ewentualne problemy Przeważnie realizowane jako liczniki wydajności, w których ustawiane są warunki wykrywające awarie Notify Kluczowym celem jest natychmiastowa reakcja na krytyczny problem Typowo są to wyjątki i warunki, które mogą być wykryte w prosty sposób Probe Check Notify
Monitory Escalate “take human driven action” Monitorysprawdzają dane zebrane przez próbniki i określają, czy trzeba podjąć akcję naprawczą na podstawie zbioru zasad Definiowany jest czas od wystąpienia awarii, po którym uruchamiany jest responder W zależności od reguły, monitor może uruchomić responder lub eskalować akcję Monitor “state of the world”
Respondery Escalate “take human driven action” Wykonuje akcję w odpowiedzi na alert wygenerowany przezmonitor Jest kilka typów responderów Restart Responder – Zatrzymuje i restartujeusługę Reset AppPool Responder – Uruchamia recycle dla puli aplikacyjnej IIS Failover Responder – Wyłącza serwer MBX z pracy w DAG Bugcheck Responder – Inicjuje kontrolę błędów na serwerze Offline Responder- Przełączaprotokół na serwerze w trybout of service Online Responder – Udostępnia serwer do działania Escalate Responder – eskaluje przypadek Inne specjalizowane Respondery komponentów Wbudowany mechanizm sekwencyjnej kontroli działania Recover “restore service or prevent failure”
Managed Availability Pipeline Próbkowanie Wykrywanie Odtwarzanie Probe Results (Samples) Monitor Results (Alerts) Responder Results (Responses) Probe Definition Monitor Definition Responder Definition Probe Monitor Responder Monitor States Healthy Restart Responder Reset AppPool Responder Notification Item 00:00:00 T1 Failover responder Bugcheck responder Offline Responder T2 00:00:10 Przykład potoku sekwencyjnego respondera HA T3 00:00:30 Escalate Responder Named Times
Zweryfikowane w chmurze Doświadczenia z obsługi Office365 wbudowane wExchange Server 2013 Wdrożenie w dużej skali ma duże wymagania na monitorowanie Chmura pozwala udowodnić zalety monitoringu Proste testy protokołowe wykrywają podstawowe problemy Restart protokołu jest w większości wypadków zalecanym pierwszym krokiem naprawczym Testowanie skrzynek zarówno per serwer jak i per baza danych
Responder Throttling Throttling ma gwarantować, że nie wyłączymy wszystkiego Wszystkie respondery mają ustawiony throttlingw pewnym zakresie Niektóre minimalizują ilość serwerów w grupie Niektóre ograniczają czas działania Niektóre ograniczają ilość wystąpień Niektóre łączą wszystkie powyższe ograniczenia W zależności od respondera, throttling powoduje, że akcja może być opóźniona a nawet pominięta Np. gdy dla Bugcheck Respondera uruchomi się throttling, akcja jest pominięta
Responder Throttling in CU2 W wersjach RTM i CU1, responderymiały włączany throttling per server WCU2, niektóre responderymają włączony throttling per group
Crimson Channel Cała funkcjonalność ManagedAvailability wykorzystuje osobny zestaw logów serwerowych, tzw. Crimson channel
Health Groups Raporty są podzielone na 4health groupy: Customer Touch Points – komponenty, mające wpływ na bieżącą pracę użytkowników(protocols) Service Components – komponenty bez bezpośredniego wpływu na użytkowników(MRS, OABGen) Server Components – fizyczne zasoby serwera(disk space, memory, network) Dependency Availability – zależność od zewnętrznych komponentów(AD, DNS, etc.) Health groups – widoczne w SCOM
Health Sets Health Set to grupa monitorów, próbników i responderów, które wskazują, czy dany komponent jest zdrowy Stan „zdrowia” jest określony przez najgorszy stan monitorów whealth secie Rysunek pokazuje zależność health setów dla OWA. ProxyHealth Set PROTOCOLPROXY CAS CTPHealth Set 3 OWA.Proxy 4 ProtocolHealth Set OWA MBX PROTOCOL 2 1 STORE OWA.Protocol
Użycie Management Shella Get-ServerHealthpokazuje szczegółowe informacje o „stanie zdrowia”serwera lub grupy serwerów Get-HealthReportoperuje na tych samych danych pokazując zwięzły raport Jak sprawdzić, którepróbniki, monitoryi respondery są powiązane z danym Healt Setem? Get-MonitoringItemIdentity –Identity <HealthSet> -Server <ServerName> | ftidentity,itemtype,healthsetname,name -auto
Użycie Management Shella c.d. Bardziej szczegółowe wyniki – tylko „niezdrowe” komponenty get-healthreport -server srv-ex1 | where {$_.alertvalue -ne “healthy”} | ft –auto
Użycie Management Shella c.d. Informacja o restartach realizowanych przez respondery: $RecoveryActionResultsEvents = Get-WinEvent –ComputerNamesrv-ex1-LogName Microsoft-Exchange-ManagedAvailability/RecoveryActionResults $RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object -Process {[XML]$_.toXml()}).event.userData.eventXml $RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt
Override Management View Overrides Get-ServerMonitoringOverride –Server <Server> Get-GlobalMonitoringOverride Create Override Add-ServerMonitoringOverride <HealthSet>\<Name> -Server <Server> -ItemType<Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName<Property> -PropertyValue <Value> Add-GlobalMonitoringOverride<HealthSet>\<Name> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue<Value> Remove Override Remove-ServerMonitoringOverride Remove-GlobalMonitoringOverride
SCOM Portal SCOM jest używany jako portal dla sprawdzenia informacji o stanie zdrowiakomponentówśrodowiska Exchange Eskalacje responderów zapisują zdarzenia w event logu, co jest obsługiwane przez monitor w SCOM Alert wyeksponowany w konsoliSCOM, niekoniecznie wskazuje sumę wszystkich problemów w danym momencie Dashboard jest podzielony na trzy obszary Active Alerts Organization Health Server Health Management Pack działa w systemach: SCOM 2007 R2, SCOM 2012
WidokHealth wSCOM Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lubUnavailable
Zauważone problemy i rozwiązania http://pepugmaster.blogspot.com/2013/12/nadpisywanie-ustawien-managed.html -> PublicFoldershealth set is "Unhealthy" after you install Exchange Server 2013 Cumulative Update 3 - http://support.microsoft.com/kb/2911802/pl Opis troubleshootinguExchange 2013 Management Pack Health Sets - http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspx Problem z restartem usługi RPC Client Access przez MA http://pepugmaster.blogspot.com/2013/11/poprawki-aspnet-dla-exchange-2013.html
Dodatkowe informacje Blog zespółu produktowego: http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx http://blogs.technet.com/b/exchange/archive/2013/06/13/what-did-managed-availability-just-do-to-this-service.aspx http://blogs.technet.com/b/exchange/archive/2013/08/13/customizing-managed-availability.aspx Mój bloghttp://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html