1 / 28

BiographyNet Linking the world of History

BiographyNet Linking the world of History. Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team. Programma Workshop. 13:00 – 13:15 : Inloop

carnig
Télécharger la présentation

BiographyNet Linking the world of History

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BiographyNetLinking the world of History • Workshop 4 april 2014, VU Amsterdam • Serge ter Braake, Antske Fokkens, BiographyNet team

  2. Programma Workshop 13:00 – 13:15: Inloop 13:15 – 14:00: Introductie Antske Fokkens (computationalelinguïstiek) en Serge ter Braake (geschiedenis) + vragen 14:00 – 14:45: Werkgroepsessie 1 (eenvoudigevraag)14:45– 15:00: Uitkomsten en discussie 15:00 – 15:15: Pauze 15:15 – 16:00: Werkgroepsessie 2 (moeilijkevraag) 16:00 – 16:30: Uitkomsten en discussie 16:30 – 17:00: Borrel

  3. DigitaleTekstanalyse • Gratis tools eenvoudigtevinden, maar niettoegespitst op historischeteksten/historischonderzoek • Woorden en zinnentellen: http://www.wordcounter.net/ • Wordcloudmaken: http://www.wordle.net/ • Woordfrequentie: http://www.writewords.org.uk/word_count.asp

  4. Test met de ‘Deductie van Johan de Witt’ (1654) • Aantal woorden: 34.453 • Aantal zinnen: 749 • Aantal woorden per zin: 46 • Tijd om voortelezen: 5 uur • Mark Rutte (InnovationConventionin Brussel op 10 maart 2014): 2.199 woorden, 16 woorden per zin

  5. Wordcloud Deductie

  6. Woordfrequentie Ende: 1275 keerProvinc/tie(n): 262 Acte: 72Unie(n): 72Prince: 63Vrede: 53Seclusie: 50Saecke: 47Tractaet: 41Beverningk: 41Nieupoort: 41Oraigne: 31Republiecque: 32Godt: 27 keer (+ 10 keer een afgeleide)Vryheyt: 27Bondtgenooten: 24G(h)emeene: 22 Bondtghenooten: 12Ondanckbaerheyt: 12 (samen met Ondanckbaerheydt) Publijcque: 5

  7. Maar watwillen we nu echtautomatischuiteenteksthalen? • Kwantificeringen van ‘begrippen’, ‘periodesuitiemandsleven’, ‘vergelijkingen met anderen’, ‘prosopografische analyses’, ‘leads in kwalitatieveonderzoeksvragen’ … • Watjullie … ? • Eenmoeilijketaak, maar we gaanons best doen

  8. Wat is BiographyNet? BiographyNet: Het blootleggen van relatiestussenmensen, plaatsen en gebeurtenissen • EeninterdisciplinairE-History project • Gefinancierd door het NederlandseeScience Center • Partners zijn het eScience Center, Huygens/ING en de VrijeUniversiteit Amsterdam • Startpunt: Het BiografischPortaal van Nederland: www.biografischportaal.nl • 125,000 kortebiografischebeschrijvingen(met eenbeperkte set metadata) uiteengrotevariëteitaanbiografischebronnen • 76,000 individuen

  9. Hoofdvraag hier • Hoe kunnen we deze grote massa aan biografische data intelligent doorzoekbaar maken voor historici? • Huidig zoekformulier van het portaal is nog beperkt (maar gaan we wel hier gebruiken):http://www.biografischportaal.nl/zoek

  10. Plan van aanpak • Interdisciplinariteit is fundamenteel voor het ontwikkelen van een bruikbare tool • De computer redeneert niet over moeilijke vragen, maar levert informatie aan die de historicus helpt bij het beantwoorden van complexe vragen • Focus van vandaag: welke informatie is nodig om een bepaalde vraag (deels) te kunnen beantwoorden?

  11. Algemene Doelen Workshop • 1. De computationele linguïst houvast bieden voor het ontwikkelen van een systeem waarmee historische vragen beantwoord kunnen worden • 2. De deelnemers inzicht bieden in de mogelijkheden van digitaal historisch onderzoek met biografische data (nu en in de toekomst)

  12. Specifieke Doelen Workshop • 1) Welke informatie heeft u nodig om uw vraag/vragen te beantwoorden? • 2) Hoe kan dit worden vertaald naar bouwstenen in RDF (het voorgestelde formaat) ? • 3) Welke subtiliteiten gaan hierbij (eventueel) verloren? • 4) Wat zijn de mogelijkheden, beperkingen en uitdagingen?

  13. De Opdrachten • Eeneenvoudigevraag, om je met de mogelijkheden van het portaal en de bronnenbekendtemaken • Eenmoeilijkevraag, die eengoeddoordachtemethodologischeaanpakvereist • De manierwaarop je het zouaanpakkenstaathiercentraal, niet de resultaten

  14. Automatischetekstanalyse • Doelen van automatischetekstanalyse in dit project: • Automatischeanalyse van de inhoud van de tekst: Watstaater in de tekst? • Automatischeanalyse van de tekstzelf en taalgebruik: Hoe wordendingenbeschreven?

  15. Tekst en Taalgebruikanalyse • Welkewoorden en constructieswordengebruikt? • Gebruik van modalehulpwerkwoorden of nuancerendebijwoorden • Neutralewoorden of woorden die eenwaardeoordeelbevatten • Welkethema’skomenvoor? Waarligt de nadruk op? • Welkebegrippenkomen in verschillendebronnenvoor?

  16. Informatieextractie • Doel van de extractie: • Watstaater (precies) in de tekst? • Watwordterbeweert en door wie? • Representatie: • De geïdentificeerdeinformatiemoet op doorzoekbarewijzewordenweergegeven • Uitdaging: hoe kunnen we informatieuitgedrukt in taal op eengestructureerdemanierweergeven?

  17. RDF • RDF: Resource Description Framework • Eenformaatdatontworpen is ominformatieaanelkaartelinken • Entiteiten (inclusiefpersonen en events) worden door IRIs (uniekeidentifiers, ookwelURI’s) gerepresenteerd • Veelgebruikt: • We kunnenookmakkelijkverbandenleggentussen data uitandereprojecten • Veelkennis en tools voor het doorzoeken van RDF, redeneren met RDF, etc.

  18. RDF, example

  19. RDF overzicht • Informatie is weergegeven door triples die bestaanuiteen subject, predicaat en object • Bestanddelen van triples zijn IRIs (unique identifiers) of ``literals’’ (woord, woordgroep of getal)

  20. Slide IRI Johan de Witt

  21. Voorbeeld triples SUBJECT PREDICAAT OBJECT bn:45013103 bn:hasDateofDeath “1672-08-20” bn:45013103 bn:hasName “Johan de Witt”dbpedia:moord_op_gebr_deWittsem:hasActordbpedia:Johan_de_Witt dbpedia:moord_op_gebr_deWittsem:hasTime “1672-08-20” bn:45013103 skos:exactMatchdbpedia:Johan_de_Witt

  22. RDF • De unique IRIs betekenenaltijdhetzelfde • Door IRIs tegebruiken, kunnen we: • Alleinformatie over eenpersoon of event vinden • Relaties met elkaarvergelijken • Informatieaanelkaarkopellen

  23. IRIs (herkomst) • We gebruikenbestaande IRIs waarmogelijk • Personen in het portaalhebbeneenidentificatienummer. We kunnen op basis hiervan IRIs creeëren. • We creërenook IRIs voorevents en personen die geeneigenidentificatienummerhebben • We hebben IRIs die woordbetekenissenkunnenweergeven

  24. RDF • Het is ookmogelijkomiets over een RDF triple tezeggen, bijvoorbeeld: • Wat is de herkomst van de informatie? • Wiebeweertdatditzo is en waar? • Hoe is de informatiegeëxtraheerd? • Hoe betrouwbaar was de automatischeextractie in eenevaluatie? • Wat is de aangegeven `feitelijkheid’ van de informatie? (Is het gepresenteerdalsfeit of vermoeden)

  25. Vragenvoorvandaag • Welkeinformatiezoudenjullieuit de tekstwillenhalenomonderzoeksvragentebeantwoorden? • Hoe zoudezeinformatie in RDF triples weergegevenkunnenworden? • Welkeinformatiezoudenjulliewillenhebben die niet of moeilijk in een triple weergegevenkanworden?

  26. De ‘eenvoudige’ vraag • Mensen en functies: de gouverneurs-generaal van Nederlands-Indië • Mensen en prestaties: beroemde sporters uit de geschiedenis • Mensen en plaatsen: beroemdhedenuitWeert • Mensen en hunomgeving: Hans van Mierlo • Mensenuitalletijden: Assendelft, De Witt en Nicolai

  27. De moeilijke vraag • Mensen en gebeurtenissen: welke personen speelden een sleutelrol in het rampjaar 1672? • Mensen en mensbeschrijvingen: Hoe is het beeld van de gouverneurs-generaal van Nederlands-Indië in de loop der eeuwen veranderd? • Mensen en naties: In hoeverre was er sprake van ‘nationalisme’ in biografische woordenboeken van de negentiende tot de eenentwintigste eeuw? • Mensen en wereldgeschiedenis: Vanaf wanneer werd de ontdekking van Amerika van werkelijk belang voor de Nederlandse elites? • Mensen en mobiliteit: welke patronen kunnen er ontdekt worden in de manier waarop mensen zich geografisch voortbewogen?

  28. Volgende stappen • Rapport van onze bevindingen • Observaties ? Feedback ?

More Related