1 / 43

Norsk andrespråkskorpus (ASK)

Norsk andrespråkskorpus (ASK). Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet. Norsk Språktest. Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer:

albert
Télécharger la présentation

Norsk andrespråkskorpus (ASK)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Norsk andrespråkskorpus (ASK) Samarbeid • Norsk Språktest • Aksis • Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet

  2. Norsk Språktest • Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) • Arrangerer: • Språkprøven i norsk for voksne innvandrere • Avsluttende prøve for den offentlige grunnopplæring • Arrangeres 3 ganger i året minst ett sted i hvert fylke • Lese- og lytteforståelse, skriftlig og muntlig prøve • Test i norsk - høyere nivå (Bergenstesten) • Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter • Muntlig: for helsepersonell

  3. Språkprøven • 2001: 2309 kandidater (63% kvinner), 62% bestått • 2002: 2593 kandidater (65% kvinner), 60% bestått • 2003: 3174 kandidater (63% kvinner), 58% bestått • 2003: 106 forskjellige land, 103 ulike morsmål • Skriftlig prøve: forklarende eller fortellende • Ca. 240 ord

  4. Høyere nivå (Bergenstesten) • 2001: 998 kandidater • 2002: 1129 kandidater • 2003: 1286 kandidater • Skriftlig prøve: forklarende, fortellende eller argumenterende • Ca. 450 ord

  5. Eksempel på oppgaver (Språktesten) Skriv en tekst om: • adopsjon • alkoholvaner • barneoppdragelse • en bok du har lest • det du mener er viktige verdier i livet • din første jobb • ditt møte med norsk kultur • en eller flere nyheter som har gjort inntrykk på deg • en forfatter og en bok han/hun har skrevet • en hyggelig opplevelse du har hatt • en interesse du har • en kjent person • en person som har betydd mye for deg

  6. Eksempel på oppgaver (Bergenstesten) Skriv ett av følgende leserbrev til en lokalavis: 1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet; eller 2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

  7. Persondata • Norsk Språktest har lagret persondata i SPSS • Opplysninger kodes, verdi  tallkode • Kodebok v14timer Timer i grunnopplæring Value Label 1 under 200 2 200-400 3 401-500 4 501-850 5 851-1500 6 1501-2000 7 2001-3000

  8. Persondata Tid i Norge (antall år) Timer i grunnopplæring Antall mnd. siden start på norskkurs Hvor har du gått på kurs Hva skal du bruke prøveresultatet til: skole Bruke: arbeid Bruke: dokumentere Bruke: annet Hvor ofte snakker du norsk utenfor klasserommet Har du sosial omgang med nordmenn? Omgang med norske på fritiden Omgang med norske på jobben/skolen Kandidatnummer Testdato Nivå på testen Hjemland Morsmål Alder Kjønn Engelsknivå Skolegang utenfor Norge Antall skoleår utenfor Norge Hva gjør du i Norge Yrke i Norge

  9. Yrke i Norge Value Label 1 helsearbeid 2 kontorarbeid 3 manuelt arbeid 4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke

  10. Korpus og utvalg • Utvalg av språk • Spredning etter type språk • Må ha nok besvarelser, alle må ha bestått • Utvalg innen språk • Samme type oppgave • 10 språk • 100 besvarelser innen hvert språk • Både Språkprøven og Høyere nivå • Kontrollgruppe • Nordmenn, fra kor og idrettslag etc.

  11. Problemer vedrørende utvalg • Ønsket flere/andre morsmål, men ikke nok antall • Ulik fordeling av morsmål i de to testene • Skjev kjønnsfordeling • Russisk, polsk : 90-95% kvinner • Ønsket flere besvarelser, men ikke økonomi • Ønsket muntlig prøve, men ikke økonomi

  12. Valgte morsmål • Albansk • Engelsk • Nederlandsk • Polsk • Russisk • Serbokroatisk • Somali • Spansk • Tysk • Vietnamesisk

  13. Feilbegrepet • Problematisk med begrepene ”feil” og ”korrekt form” • Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ” • Andre termer: avvik, løsning • (kilde) L1  interlanguage  L2 (mål) • Feil viser hvorledes språket blir lært • Det å gjøre feil er en måte å teste ut målspråket • Grader av feil, ikke lett å avgjøre hva som er rett

  14. Bakgrunn for feilkoder ASK Studerte feilkoder i tre større prosjekter ICLE (International Corpus of Learner English) (tag) feil $rett$ (feil eller rett kan være 0) He took the books (QL) and $,$ the records and the computers. FRIDA (French Interlanguage Database) corpus. <type><subtype><ordklasse>#rett$feil</..></..></type> très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G> Cambridge Learner Corpus <#CODE>wrong word|corrected word</#CODE> He died <#MP>we|.We</#MP> buried him the next day.

  15. ASK feilkoder • Enkelt system slik at kodingsfeil unngås • Grammatisk informasjon annoteres automatisk (senere) • Velger retting som krever minst forandringer • Har kodemanual med eksempler • Systematisk sjekk av koding (ved konkordans) • Bruker TEI sic tag med ekstra attributter • <sic type=type desc=undertype corr=rett>feil</sic> • Det kan være flere feilmarkeringer til et ord (men ikke overlapp)

  16. ASK feilkoder 5 hovedgrupper • Leksemfeil • Morfologifeil • Syntaksfeil • Tegnsettingsfeil • Uidentifiserbar feil

  17. ASK feilkoder: Leksemfeil • W galt ord • ORT ortografisk feil • PART samskrivningsfeil, avledningsfeil • SPL særskrivningsfeil • DER gal avledning • CAP galt valg av stor/liten bokstav • FL ord fra andre språk enn norsk

  18. ASK feilkoder: Leksemfeil • W Fra min mening ... (Etter) • ORT Kun i ordets grunnform (ikke bøying) • PART etterhvert (etter hvert) • SPL sove rom (soverom) • DER stillighet (stillhet) • CAP europa (Europa) • FL lettere å resolvere problemer (løse)

  19. ASK feilkoder: Morfologifeil • F (galt valg av morfosyntaktisk bøyningsform) • Hvilken miljø skal man bo. (Hvilket) • ..og ikke så lang fra sentrum (langt) • Det var jo ham som har betydd absolutt mest (er) • INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) • har mye trafikker og bråker (trafikk og bråk) • Vi hald kontakten (holdt)

  20. ASK feilkoder: Syntaksfeil • M (et ord eller en frase mangler) • Vi hilser ___ hverandre når vi .... (mangler på) • R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) • Etter ti dager senere giftet... (senere redundant) • O (ord eller fraser står i gal rekkefølge) • ..nok stor for oss... (stor nok)

  21. ASK feilkoder: Undertyper til feiltype O • INV (inversjonsfeil) • I begynnelsen det var veldig vanskelig... (var det) • OINV (overgeneralisering av inversjonsregel) • .. selv om er det press .. (det er) • MCA (gal plassering av setningsadverbialet i helsetning) • fordi jeg har ikke vært i Norge før.. (ikke har) • SCA (gal plassering av setningsadverbialet i leddsetning) • Man kan ringe alltid hvor man er. (alltid ringe)

  22. ASK feilkoder: Tegnsettingsfeil • PUNC (galt valg av tegn) • Hvem trekker først. (?) • PUNCM (tegnsetting mangler) • Når vi ser ca 50 år tilbake (ca.) • PUNCR (tegnsetting må fjernes) • .. med huset, og barna (ikke komma foran og)

  23. ASK feilkoder: Uidentifiserbar feil • X • Vennskapet mitt var utrolig. • de liker virkelig å hjelpe i menneskighet.

  24. Innskriving/redigering: Oxygen

  25. Stilark Til hjelp ved kontroll kan en kjøre flere stilark på server.

  26. Stilark

  27. Stilark

  28. Konkordans som hjelpemiddel • De som koder har adgang til konkordans (via web) • Kjøres på de tekstfilene som enhver tid er i katalogen • Kan sjekke hvordan andre har kodet • Kan sjekke konsistens i koding • Kan enkelt gå til fil for retting

  29. Konkordans

  30. Konkordans

  31. Persondata • Skjema har forandret seg gjennom årene • Data ligger i SPSS-filer (kodet med kodebok) • Ulike formater • Eksporteres som tab-separert fil • Kobles med tekst gjennom kandidatnummer-år/mnd • Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc.)

  32. Tagging • Bruker Oslo-Bergen tagger • Kan være problematisk å bruke standard tagger på tekst med mange feil • Tagger er robust • Tagger bruker corr-feltet ved ortografiske feil

  33. Tilrettelegging for søking • Bruker Corpus Workbench via TCP/IP socket • Web-basert grensesnitt (Common Lisp) • Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT) • Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus • Kan rette taggefeil ved søking • Kan laste ned resultat til PC (Excel og lignende.)

  34. Konkordans

  35. Parallell konkordans

  36. Tekst

  37. Tagget tekst

  38. Kollokasjon

More Related