660 likes | 834 Views
e-mail: meyer@man.poznan.pl http://www.man.poznan.pl/. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Plan wykładow / Laboratoria. IO. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Plan wykładow / Laboratoria. IO. POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER. Wprowadzenie.
E N D
e-mail: meyer@man.poznan.pl http://www.man.poznan.pl/
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Plan wykładow / Laboratoria • IO
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Plan wykładow / Laboratoria • IO
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Wprowadzenie • Środowisko: homogeniczne, heterogeniczne • Zasoby • Klastry, metakomputer, GRID • Systemy kolejkowe • Globus, Legion
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Homogeniczne i heterogeniczne środowiska • Środowisko homogeniczne: • jednorodne • elementy składowe charakteryzują się tymi samymi • wartościami, cechami • skalowalne • Środowisko heterogeniczne: • różnorodność elementów składowych • zróżnicowany zbiór parametrów, cech • skalowalne • trudne w zarządzaniu • Różne systemy • operacyjne • Różne architektury • Różni producenci
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zasoby • procesor (cpu, rodzaj) • częstotliwość (zróżnicowane płyty CPU), • typ, np. skalarny, wektorowy , graficzny • RAM (typ, wielkość) • we/wy • interfejsy sieciowe, • dyski, • ‘graphics engines’ • pamięć masowa • pojedyncze systemy (węzły w sieci) • specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Poziomy zarządzania zasobami GRID Zarządzanie w środowisku homogenicznym ‹ ‹ Specjalizowane moduły zarządzania zasobami (moduły powyżej systemu operacyjnego Poziom systemu operacyjnego
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zapotrzebowanie na zasoby 1/2 Compute Data Visualize • BIG Compute Problems • Computing • Visualization • Data Handling • BIG Visualization Problems • Computing • Visualization • Data Handling • BIG Data Problems • Computing • Visualization • Data Handling
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Weather simulation Traditional big supercomputer Repository / archive Signal processing Web serving Media streaming Zapotrzebowanie na zasoby 2/2 CPU Storage I/O Scale in Any and All Dimensions
Stopień złożoności C-brickCPU Module R-brick Router Interconnect I-brick Base I/O Module P-brick PCI Expansion X-brick XIO Expansion D-brick Disk Storage G-brick Graphics Expansion
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Elementy zarządzania • jeden lub wielu użytkowników ZŁOŻONOŚĆ • Partycjonowanie • strojenie na poziomie systemu operacyjnego • systemy wielozadaniowe • systemy kolejkowe
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Klastry homogeniczne • GigaRing, SuperCluster • PowerChallengeArray • Zarządzanie dużymi ilościami danych • Systemy archiwizacji
Poznań Supercomputing and Networking Center GigaRing Channel • The GigaRing channel architecture is a modification of Scalable Coherent Interface (SCI) specification and is designed to be the common channel that carries information between Input/Output Nodes (ION) • This channel consists of a pair of 500 MB/s. channels configured as counter-rotating rings • The two rings form a single logical channel with a maximum bandwidth of 1.0 GB/s. Protocol overhead lowers the channel rate to 920 MB/s. • A client connects to the GigaRing channel through the ION via a 64-bit full-duplex interface • Detection of lost packets and cyclic redundancy checksums
Poznań Supercomputing and Networking Center GigaRing Channel The counter rotating rings provide two forms of system resiliency: • Ring folding • Ring masking GigaRing Node Interface
Poznań Supercomputing and Networking Center GigaRing Channel Ring Folding • The GigaRing channel can be software configured to map out one or more IONs from the system. Ring folding converts the counter-rotating rings to form a single ring • The maximum channel bandwith for a folded ring is approximately 500 MB/s
Poznań Supercomputing and Networking Center GigaRing Channel Ring Masking • Ring masking removes one of the counter-rotating rings from the system, which results in one fully connected, uniderectional ring • The maximum channel bandwidth = 500 MB/s GigaRing Channel
Poznań Supercomputing and Networking Center GigaRing Channel Input/Output Nodes (ION) • All devices that connect directly to the GigaRing channel are considered to be IONs • There are three types of IONs : Single-purpose Node (SPN) Multipurpose node (MPN) Mainframe node • Available mainframe nodes : Cray T90 Cray T3E Cray J90se
Poznań Supercomputing and Networking Center GigaRing Channel
Poznań Supercomputing and Networking Center Massively Parallel Processing (MPP) • Massively parallel approaches achieve high processing rates by assembling large numbers of relatively slow processors • Traditional approaches focus on improving the speed of individual processors and assembly only a few of these powerfull processors for a complete machine • Improving network speed and communication overheads • Examples : • Thinking Machines (CM-2, CM-5) • Intel Paragon • Kendall Square (KS-1) • SGI Origin 2000 • Cray T3D, T3E
Poznań Supercomputing and Networking Center MPP’s network topologies Topology Connectivity Some commonly used network topologies
Poznań Supercomputing and Networking Center Cray T3E, T3D • The Cray MPP system contains four types of components: processing element nodes, the interconnect network, I/O gateways and a clock • Network topology: 3D Mesh Interconnect Network Processing Element Node I/O Gateway Cray T3D System Components
Poznań Supercomputing and Networking Center Cray T3E Processing Element Nodes (PE) • Each PE contains a microprocessor, local memory and support circuitry • 64-bit DEC Alpha RISC processor • Very high scalability (8 ... 2048 CPUs)
Poznań Supercomputing and Networking Center Cray T3E Interconnect Network • The interconnect network provides communication paths between PEs • There is formed a three dimensional matrix of paths that connect the nodes in X, Y and Z dimensions • A communication link transfers data and control information between two network routers, connects two nodes in one dimension. A communication link is actually two unidirectional channels. Each channel in the link contains data, control and acknowledge signals. • Dimension order routing (predefined methods of information traveling) • Fault tolerance
Poznań Supercomputing and Networking Center Cray T3E Distributed operating system (Unicos/microkernel) • Unicos/mk does not require a common memory architecture. Unlike Unicos, the functions of Unicos/mk are devided between a microkernel and numerous servers. For this reason, Unicos/mk is referred to as a serverized operating system. • Serverized operating systems offer a distinct advantage for the Cray T3E system because of its distributed memory architecture. Within these systems, the local memory of each PE is not required to hold the entire set of OS code • The operating system can be distributed across the PEs in the whole system • Under Unicos/mk, traditional UNICOS processes are implemented as actors. Actors represents a resource allocation entity. The microkernel views all user processes, servers and daemons as actors • A multiple PE application has one actor per PE. User and daemon actors reside in user address space; server actors reside in supervisory (kernel address) space.
Poznań Supercomputing and Networking Center Cray T3E Distributed operating system (Unicos/mk) In the CRAY T3E systems, the local memory of each PE must contain a copy of the microkernel and one or more servers. Under Unicos/mk each PE is configured as one of the following types of PEs: • Support PEs The local memory of support PEs contains a copy of the microkernel and servers. The exact number and type of servers vary depending on configuration tuning. • User PEs The local memory of user PEs contains a copy of the microkernel and a minimum number of servers. Because it contains a limited amount of operating system code, most of a user PE’s local memory is available to the user. User PEs include command and application PEs • Redundant PE A redundant PE is not configured into the system until an active PE fails.
Poznań Supercomputing and Networking Center SuperCluster Environment Heterogenous Workstation Servers HIPPI
Poznań Supercomputing and Networking Center SuperCluster Software Components • Job distribution and load balancing Cray NQX (NQE for Unicos) • Open systems remote file access: NFS • Standard, secured distributed file system: DCE DFS Server • Client/server based distributed computing: DCE Client Services • Cray Message Passing Toolkit (MPT): PVM, MPI • High performance, resilient file sharing: opt. Shared File System (SFS) • Client/server hierarchical storage management: opt. Data Migration Facility (DMF)
Poznań Supercomputing and Networking Center SuperCluster Software Components Network Queuing Environment (NQE) • NQE consists of four components : Network Queuing System (NQS), Network Load Balancer (NLB) File Transfer Agent (FTA), Network Qeuing Environment clients • NQE is a batch queuing system that automatically load balances jobs across heterogenous systems on a network. It runs each job submitted to the network as efficiently as possible on the ressources available. • This provides faster turnaround for users and automatic load balancing to ensure that all systems on the network are used effectively.
Poznań Supercomputing and Networking Center Requirements
Poznań Supercomputing and Networking Center POWER CHALLENGEarray • Consists of up to eight Power Challenge or Power Onyx (POWERnode) supercomputing systems connected by a high performance HIPPI interconnect • Two level communication hierarchy, whereas CPUs within a POWERnode communicate via a fast shared bus interconnect and CPUs across POWERnode communicate via HIPPI interconnect
Poznań Supercomputing and Networking Center POWER CHALLENGEarray Parallel programming models supported: • Shared memory with n processes inside a POWERnode • Message passing with n processes inside a POWERnode • Hybrid model with n processes inside a POWERnode, using a combination of shared memory and message passing • Message passing with n processes over p POWERnodes • Hybrid model with n processes over p POWERnodes, using a combination of shared memory within a POWERnode system and message passing between POWERnodes
Poznań Supercomputing and Networking Center Message Passing MPI Model Multiparallel Memory Sharing
Poznań Supercomputing and Networking Center POWER CHALLENGEarray Software: • Native POWERnode tools IRIX 6.x, XFS, NFS, MIPSpro compilers, scientific and math libraries, development environment • Array services Allows to manage and administer the array as a single system • Distributed program development tools HPF, MPI and PVM libraries, tools for distributed program visualization and debugging (Upshot, XPVM) • Distributed batch processing tools LSF, CODINE • Distributed system management tools IRIXPro, Performance Co-Pilot (PCP)
Poznań Supercomputing and Networking Center An array session is a set of processes, possibly running across several POWERnodes, that are related to another by a single, unique identifier called the Array Session Handle (ASH). A local ASH is assigned by the kernel and is guaranteed to be unique within a single POWERnode, whereas a global ASH is assigned by the array services daemon and is unique across the entire POWER CHALLENGEarray.
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zarządzanie dużymi ilościami danych • Główne problemy: • duże ilości danych • czas odpowiedzi • przepustowość istniejących sieci • opóźnienia • odnalezienie źródła danych • kompatybilność formatów • spójność danych
Konfiguracja Archiwizatora • Pojemność 5,2 TB bez kompresji • Serwer Sun Enterprise 450 • 2 proc., 512 MB RAM, 100 GB dysków • interfejsy - ATM, FDDI, Ethernet 10/100 • oprogramowanie UniTree • Robot ATL - 198 taśm (10/20 i 35/70 GB) • Roboty dysków magneto-optycznych HP • 660ex - 128 płytek po 5,2 GB • 165st - 128 płytek po 1,3 GB
Hierarchiczny system pamięci masowej • Poziom 1 - pamięć dyskowa (cache) • szybki dostęp, drogi nośnik • Poziom 2 - dyski magneto-optyczne • dostęp w kilkanaście sekund, tańszy nośnik • Poziom 3 - taśmy • dostęp do kilku minut, najtańszy nośnik(taśma CompactTape IV 35/70 GB - 100USD) Czas dostępu Cena nośnika
Zarządzanie UniTree • Dostęp (ftp, nfs) • Widoczny normalny system plików • Cache • „dolny i górny wysoki znacznik poziomu wody” • wirtualny cache - aktualnie ponad 80 GB • Polityka migracji (wielkość, wiek) • Repakowanie (defragmentacja) nośników (zapis sekwencyjny także na płytkach M-O) • Backup baz systemu archiwizacji na taśmy
Ustalenie polityki migracji • Analiza rozkładu danych, ilości plików o ustalonej wielkości • Równomierne obciążenie dostępnych mediów wszystkich poziomów (nie licząc pamięci dyskowej) • Pliki zapisywane są na poszczególne media w zależności od wielkości • Zdefiniowanie polityki równoległego zapisu dalszych kopii; ważne, aby kopia znajdowała się w innej bibliotece • Analiza dynamiki przyrostu ilości i wielkości plików • Definiowanie czasu po jakim nieużywane pliki przenoszone są na tańsze media
Problemy i ograniczenia • Przepustowość - liczba napędów (robotów) • Występowanie kolejki taśm • „nieograniczony rozmiar pliku” – praktycznie zależy od wielkości cache • duże zasoby dyskowe PCSS • okna czasowe dla backupów • równoległy dostęp użytkowników
Zarządzanie rozproszonymi systemami archiwizacji • Wszystkie systemy widoczne jako jeden wielki system pamięci masowej • Wybór najszybciej dostępnego systemu – analiza obciążenia i przepustowości sieci • Replika wybranych danych pomiędzy systemami – problem spójności danych • Polityka rozliczania użytkowników z rozproszonymi danymi
Rozproszony system pamięci masowej mirror DistributedStorage Data recovery Data backup - Even data distribution - Fast backup - Geographical mirror - Fast recovery
System Automatycznej Archiwizacji - główne cele • Łatwy, zdalny dostęp do archiwizatora przez WWW • Automatyczny i okresowy backup systemów • Bezpieczna transmisja • Zwiększona odporność na błędy • Kontrola stanu systemu archiwizacji • Dedykowany serwer i klient ftp • Zdefiniowane okno czasowe
single or periodic backups single or periodic backups WWWbrowser WWW ManagerServer ManagerServer DistributedArchive DistributedStorage Data base Data base e-mail System Automatycznej Archiwizacji - działanie Secure transmission
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Środowisko heterogeniczne - przykłady
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Metacomputer at PSNC POZMAN POL-34
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER National Computing Grid GDAŃSK ŁÓDŹ KRAKÓW POZNAŃ WROCŁAW
WROCŁAW POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER National Computing Grid - PLATFORMS • Cray systems • SGI systems (Origin2000, • Onyx2, Pchallenge) • other platforms (i.e. SUN) POZNAŃ GDAŃSK ŁÓDŹ KRAKÓW SILESIA
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Systemy kolejkowe Systemy zarządzania zadaniami w trybie wsadowym. • Jest to system zarządzania zadaniami umożliwiający: • wykonanie większej ilości zadań w mniejszym czasie poprzez • dopasowanie ich wymagań obliczeniowych do dostępnych • zasobów - lepsze wykorzystanie mocy obliczeniowej • łatwe zarządzanie równym obciążeniem procesorów • sprawiedliwy przydział zasobów procesom użytkowników • restartowanie zadań zatrzymanych w przypadku awarii sprzętu • lub czynności administracyjnych • warunkowe wykonywanie ciągów programów
Struktura systemu kolejkowego • Maszyna Przetwarzająca (ang. Executing Machines) • Maszyna Zlecająca (ang. Submitting Machines) • Maszyna Szeregująca (ang. Scheduling Machines) • Centralnego Zarządca (ang. Central Manager) • Wszystkie w/w funkcje mogą być realizowane na jednej maszynie