160 likes | 264 Vues
Web-basierte Informationssysteme. Skizzen zur VL WS 2000/1 H. Schweppe FUB. Einführung / Umfeld. Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997) , jährliche Verdopplung
E N D
Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB
Einführung / Umfeld • Informationsangebot • 1000 Patentanmeldungen / Tag • 2000 neue Bücher / Tag • 500 000 fachwiss. Beiträge in der Chemie / Jahr • Ca 150.000.000 Webseiten (1997) , jährliche Verdopplung • ~ 50.000 hydraulische Übertragungselement von 4000 Herstellern • Zentrales Problem: Benötigte ("passende") Information finden • Technisch: Suchmaschine • Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?
Einführung / Umfeld • Technisches Umfeld • Speichermedien (Kosten, Volumen) • Kosten für Speicherung einer DIN A4 Seite20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 PfgKosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5 1 Blatt DIN A 4 Papier ~ 1,5 Pfg Papier / elektronischer Speicherung ~ 1 : 30 (!) • Datenrate weit unterproportional gestiegen: 50 MB / sec : 10 Gb sequentiell lesen ca. 3 MinutenWahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde
Einführung / Umfeld • Rechnertechnologie • Durchsuchen sehr großer Bestände wird möglichCPU, große Halbleiterspeicher • Rechnernetze • Unabhängigkeit vom Ort • Dokumente neuer Art Bilder, virtuelle Dokumente, verteilte Dokumente • Ökonomisch • Aufbereitung, Bewertung und Verbreitung von Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")
Einführung: DB / IR / Web • Datenbank • Modell: Informationsrepräsentation Menge von Tabellen • Alle Werte statisch getypt (DB-Schema !) • Externsemantik dadurch festgelegt, einheitliche Interpretation der Daten • Zugriff über normierte Schnittstelle, • Frage – Antwort – Paradigma: Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}Auswertung von Prädikaten in zweiwertiger Logik q DB Aq
Einführung: DB / IR / Web • Fallstudie "Bibliothek" • Schlagworttabelle, um nach "Inhalten" suchen zu können. CREATE TABLE keyword (kw varchar(...), bookid: ... REFERENCES book); /* weitere Tabellen book, user, ..... Hier unwesentlich */ SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id; Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)
Einführung: DB / IR / Web • Kritik • Wie gewinnt man Stichwörter? • Wortformen ("networks", "networking") • Mehrsprachigkeit ("Netze") • Verwandte Begriffe ("Rechnernetze") • Ober- / Unterbegriffe (LAN) • Nur wenig davon in SQL ausdrückbar • Ziel: Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage-> Information RetrievalBeachte: subjektiv!
Einführung: DB / IR / Web • Information Retrieval • Modell (in erster Näherung): Menge von Wortfolgen (Texte) • D Datenmenge. q Anfrage, Q Menge aller Anfragen Aq = {x | x "passend" zu q} • Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1])mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0) • Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, Aq kann vermöge s geordnet werden: Rangfolgebestimmung
Einführung: DB / IR / Web • Aufgaben des Information Retrieval • Modelle finden, die Ähnlichkeit auszudrücken gestatten (elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen) • Geeignete Ähnlichkeitsmaße s definieren • Bewertung von s (relativ zu Nutzer) • Effiziente Verfahren zur Auswertung von s auf sehr großen Datenmengen, z.B. durch Indexierung • Erweiterte Aufgaben im Web • Zusammenführen von Ergebnissen • Rangfolge? • Duplikate • Strukturierte Dokumente (nicht nur Zeichenketten)(Wie) kann Markup helfen, die passenden Dokumente zu finden?
Einführung: DB / IR / Web • Web-Technologie • Als Web bezeichnen wir alle weltweit miteinander verbundenen Rechnersysteme • Web im engeren Sinne: Web-Server (HTTP) und Klienten GET /document.html Client Server TCP cache
Web Statistik, Juni 1999, Quelle: OCLC • Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample:4,294,967 • Web Size • Number of Web Sites:4,882,000 • (+/- 3%) Number of Unique Web Sites: 3,649,000 • (+/- 3%) • Web Site Categorization (Unique Sites) • Number of Public Web Sites: 2,229,000 • (+/- 4%) • Number of Private Web Sites: 389,000 • (+/- 10%) • Number of Provisional Web Sites: 1,031,000 • (+/- 6%)
Web-Statistik Public Web Sites (Unique Only) Number of Web Pages: 288,221,000 (+/- 35%) Number of Files: 500,491,000 Number of Adult Sites: 42,000 (+/- 30%) Web Growth 19971998 1999 Web Sites: 1,570,000 2,8510004,882,000 Unique Sites: 1,230,000 2,035,0003,649,000 Unique Public Sites: 800,000 1,457,0002,229,000 % Change: '97 to '98 '98 to '99 '97 to '99 Web Sites: 82 71211
Web Statistik: Multilingualität Incidence of Languages in Public Sites 1998 1999 English 84%80% German 8 8 Japanese 3 3 French 3 3 Portuguese 2 2 Spanish 2 3 Chinese < 1 2 Italian 1 2 Dutch 1 1 ALL OTHERS < 1 < 1 Anzahl Sprachen insgesamt:1998: 28 1999: 29
Datenbankanwendungen im Netz Nicht notwendig mit über HTTP • Klassischer Client-Server-Betrieb: z.B. SQL Client DB-Server proprietär z.B. Terminal
Datenbankanwendung im Netz Zugriff über Web-Browser / HTTP-Server GET URI mit kodiertem Query-Sting Client HTTPServer TCP Anwendungsprogramm, über CGI-Schnittstelle gestartet HTML-Dokument mit Ergebnissen der DB-Abfrage DBServer
Datenbankanwendung im Netz • Mehrschichtarchitektur z.B. Java Applica-tion-Server Client DBServer TCP Enthält die "Business-Logik" Kommunikation meist über Fernaufrufe