220 likes | 326 Vues
Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus. Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no. Oversyn.
E N D
Informantutval og opptakssituasjon:Utfordringar i samband med oppbygginga av eit talespråkskorpus Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen ogHanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no
Oversyn • NoTa-prosjektet • Kva er eit talespråkskorpus for norsk? • Innhaldet i Nota-Oslo • Problem og utfordringar i oppbygginga av korpuset • Informantutval • Opptakssituasjon • Demonstrasjon
Nota-prosjektet • Finansiering: Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning” • Periode: Hausten 2004 og 2005 • Folk: Prosjektleiar: Janne Bondi Johannessen Hanne Gram Simonsen Dagleg leiar: Kristin Hagen Programmerar: Joel Priestley Vitskapleg assistent: Anne Marit BødalTranskribørar:Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland
Kva er eit talespråkskorpus for norsk? • Norsk talespråk • språk snakka av personar som er fødde og oppvaksne i Noreg • Korpus • ei samling av tekstar som er tilverka for språkforsking: utval av tekstar, annotering, tilpassa søkegrensesnitt • For kven? • Språkforskarar av alle slag • sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a. • Datalingvistar, språkteknologar • Kanskje det beste verktøyet for ein språkforskar
Nota-Oslo • Er første del av eit planlagt nasjonalt talespråkskorpus • Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området • Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området • Korpuset er ortografisk transkribert • Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt • Korpuset blir tilgjengeleg for forskarar i byrjinga av 2006
Informantutval • Informantvariablar • Kjønn: M – F • Alder: 16 – 25, 26 – 50, 51 + • Utdanning: vidaregåande skole eller mindre – høgare utdanning • Geografi: Oslo vest, Asker og Bærum – Oslo aust og distriktet omkring Oslo • Resulterande informantmatrise • Tal på celler: 18 med 8 informantar i kvar • 144 informantar
Korpusforbilde • TAUS (Talemålsundersøkinga i Oslo, 1970-talet) • Informantutval, tagging, intervjuteknikk • Manglar eit søkegrensesnitt på Internett... • CGN (Nederlandsk talespråk) • Informantutval, transkripsjon, fleire talesituasjonar • Gothenburg Spoken Language Corpus • Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde • Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus) • Grensesnitt, enkelt å søke • Talesøk • Transkripsjon, lyd
Utfordringar – utdanningsvariabelen • Tredeling? grunnskole – vidaregåande - høgare utdanning • Nesten umogeleg å finne yngre informantar med berre grunnskole, spesielt i Oslo vest. • => slå saman dei to lågaste klassene • Klassifikasjon av ungdom under utdanning • => snittet av den utdanninga ungdommane sjølv har planlagd saman med utdanninga til mor og far • Eksempel: Eige mål for utdanninga = H Mors utdanning = L Fars utdanning = L • Lite samsvar mellom utdanning og prestisjefylt arbeid • Gjeld særleg eldre menneske • Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas • => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom dei har gymnas.
Utfordringar – geografivariabelen • Kor går skiljet mellom aust og vest i Oslo? => bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest) • Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker), resten er saman med Oslo aust (= Oslo ”rest”) • Folk flyttar, også innafor Oslo => utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst => men vi tek også vare på variablane nåverande bustad og oppvekststad
Utfordringar – skaffe informantar • Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar => tilby opptak i skoletid/arbeidstid => utnytte eige nettverk og nettverk til kollegaer => artikkel med etterlysing i aviser • Vanskeleg å fylle alle cellene i matrisa • Vanskelegast: Informantar med låg utdanning, spesielt frå Oslo vest => bruke mye tid på å finne informantar …
Utfordringar – opptakssituasjon • Mål: samle inn naturleg talemål, også spontant talemål • Opptakssituasjon: • Eit intervju på ti minutt • Ein samtale mellom to informantar på 30 – 45 minutt • Variablar: • Samtale mellom vener • Samtale mellom kjenningar • Samtale mellom familiemedlem • Samtale mellom ukjente • Intervju med forskjellige intervjuarar (men mest med Anne Marit Bødal, Førde)
Utfordringar – opptakssituasjon • Kamera og opptakssituasjon verkar unaturleg og hemmande => forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!) => foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera • Bare pene og pyntelege samtalar - ikkje spontant? • Med to typar opptakssituasjon ser vi stor skilnad: • I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar som a-endingar, slang/bannord • Tekniske problem • Batteri til myggmikrofonane • Langt hår ned på myggen • Skru på lydkort i datamaskinen! • Mykje utstyr • Tidkrevjande å installere • Tungt å dra rundt på (bagladies frå Blindern)
Utfordringar – sensitive data • Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv. => opplyse informantane om dette på førehand => vere til stades under samtalen (i ein krok) og gripe inn i samtalen => temaliste er tilgjengeleg for informantane => ikkje transkribere/pipe ut sekvensar i ettertid
Vårt paradoks: • Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne
Demonstrasjon • http://omilia.uio.no/nota/ • Ein kan søkje i korpuset på mange ulike måtar: • Informantutval: alle variablane som høyrer til kvar informant • Opptakssituasjon: intervju eller samtale • Språk: • ord • eit eller fleire, rett etter kvarandre eller med mellomrom • deler av ord (byrjing eller slutt) • alle formene til ordet • grammatiske kategoriar: • ordklasse (substantiv, verb, osv.) • grammatiske trekk (eintal/fleirtal, presens/preteritum, osv.)
Demonstrasjon • Resultata blir viste på ulike måtar: • enkeltvis • som konkordansar • valfri kontekststorleik • lyd og video • Sortering etter ulike variablar • Etter ulike informantvariablar • Etter språklege variablar • Diverse statistiske utrekningar • Ulike presenteringsformat (kakediagram o.a.)
NoTa-korpuset: gode muligheiter for å søkje på ord og grammatiske kategoriar
I NoTa-grensesnittet kan ein enkelt få video og lyd til dei transkriberte resultata