Fizički model podataka

Fizički model podataka Irena Brdar Antonija Ćorić Mirna Brekalo Tibor Pejić

Fizičko modeliranje podataka • Polazi od logičkog modela, a rezultira izrađenim fizičkim modelom • Fizički model je opis stvarne fizičke organizacije podataka • Model ima oblik unutarnje sheme baze podataka

Uređaji i mediji za memoriranje podataka Računalo ima dvije vrste memorije. Primarna memorija: -izgrađena je od poluvodičkih elemenata -omogućuje vrlo brz pristup podacima, ali ih trajno ne memorira -koristi se kao radna memorija za memoriranje programa i potrebnih podataka u vrijeme izvršavanja programa

Sekundarna memorija: -služi za trajno memoriranje podataka -izgrađena je od jeftinijih medija na kojima se može trajno memorirati velika količina podataka Podaci se uvijek mijenjaju u radnom području u primarnoj memoriji, a zatim se tako promijenjeni prenose u bazu podataka na sekundarnu memoriju.

Mediji sa serijskim pristupom • Slogovi se obrađuju serijski, u redosljedu u kojim su memorirani na mediju • Nemoguće je obraditi naredni slog ako prethodni nije pročitan ili obrađen • Prosječno vrijeme potrebno za pristup nasumce izabranom slogu je približno jednako polovini vremena potrebnog za čitanje čitave datoteke • U istoj obradi se ne mogu jedni slogovu čitati, a drugi pisati • Tipični predstavnik je magnetska vrpca

Mediji s izravnim pristupom • Moguće je pristupiti bilo kojem slogu izravno • Podaci se mogu u istoj obradi pisati i čitati • Tipičan prestavnik je disk ili paket diskova • Meki diskovi su diskete

Sustav za upravljanje fizičkim prostorom Sustav za upravljanje fizičkim prostorom je dio operacijskog sustava koji upravlja sekundarnom memorijom. On se brine za: -uspostavljanje fizičkog prostora na sekundarnoj memoriji -oslobađanje fizičkog prostora -povezivanje datoteke s programom -otkazivanje veze datoteke s programom -obradu slogova u datoteci ili bazi podataka Osim toga on omogućuje: -da fizičkom prostoru na sekundarnoj memoriji može istovremeno pristupiti više transakcija -da se fizički prostor adresira neovisno od stvarne fizičke lokacije na sekundarnoj memoriji

Na čitavoj sekundarnoj memoriji smješteno je niz datoteka, čiji se opis nalazi u zajedničkom imeniku. Također svaki premjestivi medij s izravnim pristupom ima svoj mali imenik. Imenici su često hijearhijski uređeni.

Principi fizičkog modeliranja podataka • Cilj fizičkog modeliranja podataka: • fizička organizacija podataka • brz pristup slogovima • Aktivnosti fizičkog modeliranja: • Modeliranje strukture slogova • Segmentiranje i grupiranje slogova • Izbor metode pristupa slogovima • Optimizacija pristupnih puteva

Modeliranje strukture slogova-struktura sloga u računalu definirana je načinom formatiranja sloga: • pozicijom fiksnih polja • delimiterima između varijabilnih polja • indeksom varijabilnih polja • oznakama varijabilnih polja • Smanjivanje prostora za smještaj podataka - tehnikama sažimanja (kompresije) prostora: • korištenje kartica: +velike uštede prostora -zahtjeva vođenje tablica kratica

izbacivanje bjelina ili nula: • velike uštede prostora • zamjena znakova koji se često pojavljuju: niz znakova zamjeni se kraćim kodom(tablica kodova) • statističko sažimanje: • Kraći kod -- učestalim znakovima,a dulji --rjeđim znakovima

Segmentiranje i grupiranje slogova • Segmentiranje slogova –različiti dijelovi dugih slogova mogu se smjestiti na razl. fizičkim lokacijama • Grupiranje slogova • istog tipa: smještanje u datoteku- za sustav datoteka • razl. tipa: • područje ili prostor za bazu podataka • grupirati slogove koji se često zajedno obrađuju,tj. grupe ili klastere

Metode pristupa slogovima • Obrada sloga pomoću operacija: WRITE NEXT (KEY) , READ NEXT (KEY), DELETE, REWRITE • Sekvencijalni (serijski) pristup i direktni (izravni) pristup slogovima • Sekvencijalni pristup-pogodan za grupnu obradu slogova,a direktni za pojedinačnu • Sekvencijalna metoda pristupa • Ako su slogovi memorirani na fizičkim uzastopnim adresama- fizička veza, u suprotnom se povezuju pokazivačima- logička veza

Mana- čitanje pola datoteke za pronalaženje traženog slog→neefikasnost • Sortiranje slogova u redoslijedu vrijednosti ključa-efikasnost za grupnu obradu • promjene na slogove treba :grupirati,smjestiti u datoteku promjena te sortirati po ključu

Direktna metoda pristupa • Slogovima se pristupa izravno • Adresa sloga se “izračunava” iz ključa sloga Adresa=f(ključ sloga) • Prostor kojeg zauzima adresa zove se blok, zona ili interval • Kapacitet bloka je jedan ili više slogova

Statička direktna datoteka • Veličina datot. se utvrđuje prilikom uspostavljanja datot. i dalje ostaje nepromjenljiva • Podijeljena je na N blokova veličine L znakova • Prostor se popunjava sekvencijalno • Log.adresa bloka izračunava se iz vrijednosti ključa prikladnom mat.transformacijom (preklapanje,konverzija, modulo) • Preljev se javlja u popunjenom bloku u koji treba smjestiti novi slog • Prednosti stat.direktne dat.:primjenjiva za bilo koji oblik ključa, izvrsna brzina pristupa • Nedostaci:velik broj preljevnih slogova

Dinamička direktna datoteka • Prednost je u promjenljivosti njene veličine • Koristi se isti princip transformacije ključa u adresu kao i u stat. direktnoj datot. • Dinamička datot. je prikladnija za male i brzo rastuće datoteke • Ostvaruje se brz pojedinačni pristup slogovima, ali ostaje problem uređenog pristupa slogovima ili pristupa slogovima unutar zadanog raspona ključa

Indeksna metoda pristupa • Slogovi se pronalaze pomoću posebne tablice – indeksa • Tablica pokazuje vrijednosti ključeva i adrese njihovih slogova • Indeksna datoteka se sastoji od indeksnog područja i područja podataka

Slogovi se u ind. tablici pronalaze tako da se prvo pristupa indeksu, a zatim bloku s podacima na sekundarnoj memoriji • Gustoća indeksa je omjer broja ključeva slogova u indeksu i broja slogova u datoteci • Indeksna tablica ima oblik sekvencijalne datot., pa je pretraživanje ponekad dugotrajno • Gradi se veći indeks s više razina na principu B stabla • Traženje po ključu počinje od korijena • Datot. koja koristi B-stablo može se organizirati na više načina, uobičajena su 2: • Slogovi se nalaze u neuređenoj sekvencijalnoj dat., a zasebno se organizira sortiran gust indeks u obliku B-stabla • Slogovi se nalaze u uređenoj sekvencijalnoj dat., a zasebno ili u sklopu slogova s podacima organizira se rijedak sortiran indeks u obliku B-stabla

Povezivanje slogova pokazivačima • Koristi se u organiziranju datoteka i baza podataka • Pokazivač je polje u slogu koje sadrži fizičku adresu sljedećeg sloga • Lista slogova povezana pokazivačima predstavlja log. sekvencijalnu datot. • Obrada slogova (brisanje, dodavanje i promjena) čak je jednostavnija nego u pravoj sekvenc. datoteci

Optimiziranje relacijske baze podataka • “jedna relacija, jedna datoteka” • Popunjavanje prostora • Sekvencijalno • Direktno • Indeksi (primarni ključ, B+ stabla) Relacijska baza podataka se optimira pomoću: • zahtjeva za obradom • statističkih parametara baze podataka

U troškovnom modelu svaka je relacija baze podataka opisana pomoću: • N(R) – broj n-torki relacije R • V(R,Ai) – broj različitih vrijednosti indeksa atributa Ai relacije R • Zahtjevi za obradom • FU(R), FB(R), FP(R), FS(R) – učestalosti unošenja, brisanja, promjene i selekcije n-torki relacije R u izabranom vremenu • Troškovi unosa, brisanja i promjene ovise o broju indeksa I(R) TROŠAKU(R)=TIU * I(R) + TU TROŠAKB(R)=TIB * I(R) + TB TROŠAKP(R)=TIP * I(R) + TP

U relacijskim bazama podataka osobito je skupa operacija spajanja relacija R1 i R2 (gdje je FJ(R1,R2) učestalost spajanja tih relacija) TROŠAKJ(R1,R2) = TROŠAKJ * N(R1) * N(R2) Neka je baza pobataka opisana relacijskim shemama R1, R2, ..., Rn. Tada za ukupan trošak vrijedi: Fizičko optimiranje je pronalaženje relacijske baze podataka koja minimizira troškove rada s bazom podataka, a postiže se denormalizacijom relacija i uvođenjem indeksa.

Distribuiranje podataka • Distribuirani informacijski sustav se sastoji od mreže računala u kojoj se obavlja distribuirana obrada ili postoji distribuiranost podataka • Četiri pristupa distribuciji podataka: • Centralizirani, podjeljeni, replicirani, hibridni • Distribuirana baza pobataka također može biti: • Homogena – sve lokalne baze podataka su upravljane istim SUBP-om • Heterogena – lokalne baze podataka mogu biti upravljane različitim SUBP-ovima

HORIZONTALNO VERTIKALNO • Kod relacijskih baza podataka mogu se distribuirati i same relacije koje mogu biti podjeljene: identifikator

THE END

Fizički model podataka