250 likes | 447 Views
Fizična podatkovna baza. Nekaj izhodiščna vprašanj (odgovore dobite v poglavju FPB). Kam s podatki? Kako in kdaj izbrati kateri pomnilnik/medij? Kako delujejo pomnilniki, katere podatke hranijo? Kako zagotoviti večjo zanesljivost in boljše performanse medijev?
E N D
Nekaj izhodiščna vprašanj(odgovore dobite v poglavju FPB) • Kam s podatki? • Kako in kdaj izbrati kateri pomnilnik/medij? • Kako delujejo pomnilniki, katere podatke hranijo? • Kako zagotoviti večjo zanesljivost in boljše performanse medijev? • Kako doseči optimum funkcije f = f(koristnost,cena) • Kako poteka postopek dostopa do datoteke? • Kako zagotoviti neodvisnost oblike hranjenja podatkov od fizičnega medija? • Kako preslikati logične koncepte v fizično predstavitev? • Kako organizirati podatke v datotekah? • Kako pospešiti izvedbo operacij nad podatki (indeksi)? • Poleg znanja o PB, pri FPB dostikrat pomaga tudi znanje o operacijskih sistemih, pa tudi nekaj osnov programiranja!
Hierarhija pomnilnikov • primarni pomnilnik • najdražji • pomnjenje ni trajno (volatile) cache KB Glavni pomnilnik (RAM) MB hitrost dostopa, cena/byte ns kapaciteta, trajnost zapisa Magnetni disk GB ms Magnetni trak TB/PB s • tercialni pomnilnik • (‘off-line storage’) • najcenejši • trajno pomnjenje • sekvenčni dostop • sekundarni pomnilnik (‘on-line storage’) • trajno pomnjenje (non volatile) • direktni dostop
Kriteriji za izbiro pomnilnika (medija) za hranjenje FPB • sposobnost hranjenja razmeroma velikih količin podatkov • trajno pomnjenje • hitrost vpisovanja, spreminjanja in dostopa do podatkov • nizka cena na enoto shranjenih podatkov Izbira (best choice) • za on-line dostop (sprotno delo) trdi disk • za off-line dostop (back-up) magnetni trak
Ali moramo prilagajati obliko shranjevanja podatkov fizičnemu mediju? • NE – za to skrbita OS in SUPB. • Podatki se shranjujejo v obliki datotek, obstajata dva nivoja: • nivo logičnih datotek in pristopnih poti • nivo fizičnih datotek. • za shranjevanje in dostop do fizičnih datotek skrbi OS • za preslikavo logičnih datotek v fizične skrbi SUPB
Kako lahko prispeva k učinkovitosti dostopa do podatkov? • maksimalno izrabi RAM(če bomo potrebovali veliko podatkov, najprej jih prenesemo v RAM) • minimizira število dostopov do diska(bolje je na enkrat prebrati 1MB, kakor 1000 krat brati po 1KB) • pazljivo organizira podatke na disku(poišče način, ki omogoča manj/več neposredno dostopanje do želenih podatkov izogibase zaporednemu iskanju po velikih datotekah) • optimizira sistem in izrabi prednosti 1. – 3.(kodo in podatkovne strukture definira tako, da izrabi prednosti dobrega upravljanja s pomnilnikom, diskom in datotečno organizacijo)
Magnetni disk Opravila pri branju/zapisovanju podatkov (4)
Performanse diska • Dostopničas = iskalničas(4-10ms) + rotacijskazakasnitev(4-11ms – odvisno od rpm: 5400 – 15000) • povprečnidostopničas (10-40 ms) • Hitrostprenosapodatkov (Data transfer rate) • 4-8MB/s, odvisnotudiodkontrolerja (SCSI-3: 40MB/s, ATA-5:66 MB/s, SATA=150MB/s SATA2=300MB/s) • Mean time to failure (MTTF) • kolikočasa (v povprečju) pričakujemo, da ne botežav; 3-5 let; “teoretični MTTF” 30,000 do 1,200,000 ur; s starostjodiska MTTF upada
RAID – Redundant Arrays of Independent (inexpensive) Disks • Tehnika organizacije trdih diskov • Upravlja z večjim številom trdih diskov in hkrati zagotavljal pogled, kakor da gre za en sam disk, ki ima zelo veliko kapaciteto, hitrost in zanesljivost • Kako? • Visoko kapaciteto in hitrost dosežemo z sočasno paralelno uporabo več diskov hkrati • Visoko zanesljivost dosežemo z redundantnim hranjenjem podatkov (če en disk ‘pade’, se podatki restavrirajo iz redundantnega diska) – primer Mirroring (shadowing): • Vsak disk podvojimo; logični disk je sestavljen iz dveh fizičnih diskov • Vsaka operacija zapisovanja se izvede na obeh diskih • Branje se izvede le z enega diska • Če en disk odpove, lahko nadaljujemo delo z drugim • Podatki so nedostopni le, če pride do odpovedi obeh diskov hkrati verjetnost je minimalna
Sektor Dodelitvena enota • najmanjši del diskovnega pomnilnika, ki se ga lahko dodeli posamezni fizični datoteki • najmanjša količina podatkov, ki jo lahko preberemo / zapišemo na disk • značilna velikost 4 kbytes • 1 d.e. = 1/2/4/8/... sektorjev • sektorji, ki sestavljajo dodelitveno enoto, se nahajajo na istem cilindru možen je zaporeden dostop brez premikanja bralno-pisalne glave • Manjše d.e. več prenosa z diska • Večje d.e. več izgubljenega prostora na disku (d.e. so le delno zapolnjene) • Značilna velikost d.e.: 4 – 16 KB
Naslavljanje sektorjev • fizični naslov sektorja Fizični naslov sektorja = (c, p, o) c = številka cilindra; p = površina; o =odmikod začetka sledi ali • logične številke sektorjev (zvezno področje [0 .. nls-1]) ls = p*nc*no + c * no + o ls = logična številka sektorja; p = številka površine; np = število vseh površin; p = 0 .. np-1 c= številka cilindra; nc = število vseh cilindrov; c = 0 .. nc-1 o= številka odmika; no = število sektorjev na sled;o = 0 .. no-1 nls = število vseh sektorjev nls = nc * np * no /* število cilindrov * število površin * število odmikov */
Vsebina diska • podatki o disku (št. cilindrov, površin, sektorjev/sled, velikost sektorjev in velikost dodelitvenih enot; zapisano v v prvem sektorju z naslovom (0,0,0)) • dodelitvena tabela(podatkiolegi fizičnih datotek v diskovnem pomnilniku) • seznam fizičnih datotek (direktorij / imenik) • fizične datoteke
Dodelitvena tabela = vektor • 1 vrstica – 1 dodelitvena enota • indeks vrstice = št. d. e. • vsaka vrstica dodelitvene tabele opisuje trenutno stanje pripadajoče dodelitvene enote: • 'prosta' • n - enota je dodeljena fizični datoteki, v okviru katere ji logično sledi d. e. n • 'konec' : d.e. je zadnja v logičnem zaporedju fizični datoteki dodeljenih enot • 'neuporabna' - vsaj 1od sektorjev v d.e. je slab (bad)
Datotečni seznam (root file directory) • nahajajo se podatki o fizičnih datotekah • poleg osnovnega seznama, lahko obstaja tudi vrsta drevesno organiziranih podseznamov • opis datoteke sestavljajo podatki: • ime datoteke, • datotečni atributi (datoteka, direktorij, samo za branje, skrita), lastnik datoteke, datum in čas kreiranja / ažuriranja datoteke, velikost datoteke,….. // kateri atributi so zajeti je odvisno od OS • številka logično prve dodelitvene enote. Primer datotečnega seznama:
trak Bralno/pisalna glava Magnetni trak • ne obstaja možnost direktnega dostopa => visoki dostopni časi (nekaj 10s); omogoča zelo hiter sekvenčni dostop • hrani zelo velike količine podatkov (od nekaj GB do TB/trak) • nizka hitrost prenosa podatkov (transfer rate) (od 1 do nekaj deset MB/s) • najcenejši medij za hranjenje podatkov (vendar naprave so drage!!!) • uporaba: backup, hranjenje redko uporabljanih podatkov, off-line medij za prenos podatkov z enega sistema na drugi • Tračni jukeboxes – uporabljajo jih za hranjenje ogromnih količin podatkov (TB /PB) • Odpornost na različne okoljske pogoje (?) Delovanje - podobno kasetniku
Primer 1: Unylogix - SAIT - UNSA-1300 • Format: Super Advanced Intelligent Tape (S-AIT)Storage • Kapaciteta: 500 GB uncompressed storage capacity / 1.3 TB compressed capacity per tape • Data Transfer Rate: 30 MB/sec uncompressed/78 MB/sec compressed
Arhitektura generičnega jukebox-a z enim robotom in 4 tračnimi enotami
Primer 2: Unylogix T950 jukebox • Kapaciteta: do 8 PB (S-AIT) • Od 100 do 6150 trakov (cartridges)
Primer 3: StorageTek L5500 tabe library • Število trakov 1500 – 5500 / library • Kapaciteta 1680 TB – 26400TB • Prepustnost (through per hour): 5.5 TB/hr 103.7 TB/hr
8 bit = 1 byte … … 0 1 1 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0 ½” … … … … paritetni bit Zapisovanje na magnetni trak • Podatki - najpogosteje shranjeni v 9-bitnih tokovih imenovanih (sled) • Vsaka sled je zaporedje bitov • Gostota zapisovanja = število bitov / inč (bpi) // značilno 800 – 1600 bpi, lahko tudi 30000bpi • Tudi pri trakovih se uporablja RAIT tehnologija (striping)
Magnetni trak - organizacija Logični zapis 2400’ … EOT marker BOT marker Bloki podatkov Presledek med bloki (za pospeševanje / upočasnjevanje traku) Blok - glava(opisuje bloke podatkov)
Podatkovni bloki in zapisi • Vsak podatkovni blok predstavlja zaporedje nepretrganih zapisov. • Zapis = enota podatkov, s katero operira aplikacija. • Enota za magnetni trak bere celotne bloke zapisov na enkrat. • Za razliko od diskov, magnetni trak se začne obračati in se tudi ustavi. • Ko se magnetni trak ustavi, se bralno/pisalna glava nahaja nad presledkom med dvema podatkovnima blokoma.
Dostop do fizične datoteke Fizično datoteko obravnava SUPB drugače kot OS!!!! Stališče SUPB: • fizična datoteka je sestavljena iz urejene množice enako velikih fizičnih blokov • vsakemu bloku pripada enolična oznaka - številka fizičnega bloka • velikost fizičnih blokov je odvisna od predvidene uporabe datoteke • želja: čimhitrejši dostop do celotnega bloka • če sizeof(blok) > sizeof(sektor) vsi sektorji na istem cilindru • majhni bloki vsebovani v eni dodelitveni enoti • velikost bloka vpliva tudi na čas, potreben za branje/zapisovanje
Datotečni vmesnik Fizični blok je dostopen SUPB-ju (za branje/ažuriranje) šele takrat, ko se nahaja v notranjem pomnilniku. • Vsaki datoteki je v notranjem pomnilniku dodeljeno (vsaj eno) polje v velikosti fizičnega blokat.i.datotečni vmesnik (file buffer) • OS opravlja prepisovanje med fizičnimi bloki in sektorji na disku • Za vsako operacijo branja ali pisanja v datoteko mora SUPB posredovati operacijskemu sistemu: • vrsto operacije + ime diskovnega pomnilnika + ime datoteke + zaporedno številko fizičnega bloka v datoteki. Prenos podaktov po blokih Sekundarni pomnilnik (disk) buffer Program Prenos podatkov po zapisih Začasno hranjenje bloka fizičnih podatkov v glavnem pomnilniku (RAM)
Posebnost kreiranja datoteke Klasični način datoteka se formira hkrati s pisanjem podatkov in pri tem zasede natanko toliko dodelitvenih enot, kolikor jih je potrebnih za izpisane podatke SUPB datoteka sekreira vnaprejz izpisom določenega števila praznih fizičnih blokov(ne vsebujejo podatkov, so pa ustrezno inicializirani) kasneje se fizična datoteka lahko razširi z novimi dodelitvenimi enotami ( to se izvede z dodajanjem dodelitvenih enot na konec datoteke).