1 / 41

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. La compilazione di un dizionario. La compilazione di un dizionario. Tre fasi: Progettazione (30%) Scrittura (60%) Produzione (10%). Tempistica / costi.

sal
Télécharger la présentation

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario

  2. La compilazione di un dizionario • Tre fasi: • Progettazione (30%) • Scrittura (60%) • Produzione (10%)

  3. Tempistica / costi • Zgusta: “of the lexicographic projects I know, not a single one was finished in the time and for the money originally planned” • Oxford English Dictionary: 7 anni  90 • Problemi: • Tempo richiesto per scrivere le voci • Cambiamenti di staff • Tempo per scrivere il software • Misura di tempo: “editor week”

  4. Uso di corpora e strumenti informatici • Corpora per la scelta di parole • Conto numero di caratteri • Database per la redattura delle voci • Controllo stilistico • Produzione

  5. Progettazione • A chi si rivolge il dizionario? • Quante parole? • Macro & micro structure • Progettazione del database che verra’ usato per mantenere i dati

  6. SAMUEL JOHNSON’s PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747) • Il Dizionario dev’essere UTILE • Macro structure: criteri di SELEZIONE • Micro structure: • ORTOGRAFIA e PRONUNCIA • ETIMOLOGIA • ANALOGY (inflessione) e SYNTAX • INTERPRETATION (= definizione) • CITAZIONI con AUTORE

  7. Tipi di pubblico • Bambini • Studenti • Apprendimento lingua straniera • Esperti di un’area

  8. Dimensioni • Concise • 60,000-90,000 lemmi • Desk-size • Due volte tanto • College dictionary: quante piu’ possibile • Dizionari tecnici: piu’ aggiornamento che numero

  9. CRITERI DI SELEZIONE: Dr JOHNSON • “The peculiar words of every profession” • “Words still considered to be foreign”

  10. CRITERI DI SELEZIONE • Tecnico: tutte le parole del dominio • Apprendimento lingua straniera: solo parole fondamentali • Generale: anche parole tecniche • Altre scelte: • Espressioni dialettali? • Nomi di persona e localita’? • CED4: 18000

  11. Macro structure • Ordine alfabetico • Nomi? • Parole derivate?

  12. Micro structure • Che informazioni? • Pronuncia? • Che sistema di trascrizione? • Accenti? • Uso? • Etimologia?

  13. Fonti di dati • Dizionari esistenti • Per esempio, Bailey per Johnson, Johnson per Webster • Citazioni • In-house • Compilate da volontari • Corpora

  14. CRITERI DI SCELTA DI CITAZIONI NELL’OED Make a quotation for EVERY word that strikes you as rare, obsolete, old-fashioned, new, peculiar, or used in a peculiar way. Take a special note of passages which show or imply that a word is either new or tentative, or needing explanation as obsolete or archaic, and which thus help fix the date of its introduction or disuse. Make AS MANY quotations as convenient to you for ordinary words, when these are used significantly, and help by the context to explain their meaning, or show their use. James Murray

  15. Corpora Using a computer is even more humbling than working from citations, because one is constantly confronted with abundant evidence of usages that are common but one would never have thought of Landau, p. 355

  16. Inizi della linguistica dei corpus • Primi corpora: anni ’30 (The Teacher Word’s Book, 5M; A Basic Writing Vocabulary) • Fino agli anni ’60 costi memoria troppo alti • Anni ’60: Brown Corpus (Francis & Kucera), Lancaster / Oslo / Bergen (Leech), Survey of English Usage (Quirk)

  17. Primi usi di corpora in lessicografia • Anni ’70: concordanza elettronica di Old English a Toronto • Ma: costi ancora elevati • Resistenza da parte delle tipografie • ’80: COBUILD (Collins / Birmingham University, Sinclair) • Primo dizionario: ESL, Collins Cobuild ELD (all’epoca: 20 millioni di parole) • Longman Lancaster English Language Corpus (Leech) • Primo dizionario: LDOCE (all’epoca: 80 M parole)

  18. IL British National Corpus (BNC) • Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press • Circa 100 milioni di parole • Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente) • http://www.hcu.ox.ac.uk/BNC

  19. FORMATO (SGML) <div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

  20. Uso di corpora in lessicografia • Frequenze (per milione di parole) aiutano la scelta delle parole da includere • Ma: “kick the bucket” non appare mai • Problema: troppi esempi (di solito 200-500, migliaia per parole comuni) • Usare solo esempi da corpora (COBUILD?) od anche esempi inventati?

  21. Esempio: SURGERY • Sia British che American English: chirurgia • Solo British: clinica • Prima dell’uso di corpora: dovrebbe apparire al plurale solo in BE • Non vero

  22. Esempio: SIGNIFICANTLY • Definizione tradizionale: “importantly” • Corpus evidence: “by a large amount” • Our prison population has significantly increased in the last ten years

  23. Esempio: CRAZY • Nel corpus usato da Landau: solo plurale • The crazies are out in force

  24. Scelta delle parole • Da fare PRIMA di cominciare a compilare il dizionario • Problema del bilanciamento • Assicurarsi che tutte le parole usate nella definizione siano nel dizionario • Puo’ richiedere fino a 20% del tempo per un nuovo dizionario • Da corpora

  25. Bilanciamento • In Inglese: il numero di parole che cominciano con ‘c’ e’ piu’ di due volte il numero di parole che cominciano con ‘g’ • Thorndyke: 105 ‘blocchi’ di dimensioni uguali • C: 10 blocchi • G: 4 blocchi

  26. c-caq car-cel cem-chim chin-cled clee-col com-conf cong-coo cop-cq cra-culs cult-cz g-geq ger-gord gore-grouo group-gz Blocchi di Thorndyke

  27. Parole e lemmi • La decisione di quali parole trattare come lemmi e quali some voci subordinate sempre difficile • “listed building” (CED) • “Riemannian geometry” • In dizionario medico, tutti i tipi di “agenesis” (= assenza di organo alla nascita)?

  28. Uso di strumenti informatici per la scelta di parole • Dr Johnson, OED: lista di parole = una scheda per ogni voce • Oggi: formato elettronico • Ordinamento alfabetico • Bilanciare il dizionario contando il numero di caratteri di ogni sezione

  29. Definizioni “first of all, a good definer must be able to write well and easily” (Landau, p. 354)

  30. Tipi di definizioni • Definizioni per dizionari di lingua straniera: • Molti esempi • Usi idiomatici

  31. Manuale di stile • Ogni dizionario ha un manuale di regole da seguire per compilare le definizioni: • Stile • Tipi di definizioni • Abbreviazioni • Uso delle maiuscole • Che tipo di informazioni grammaticali fornire • Uso delle parentesi

  32. Check automatico dello stile • Molti tentativi di scrivere del software che permetta di fare controlli automatici dello stile (aldila’ dei controlli grammaticali tipo Word) • Metodo principale: “controlled language” • Obiettivo ancora molto lontano

  33. Database delle definizioni • Progettato inizialmente • Una delle decisioni chiave (Landau) • Funzioni base: • Ricerca di voci • Cross indexing (= controllare che le parole della definizione siano tutte nel dizionario) • Generazione automatica delle pagine (PRODUZIONE)

  34. Tipi di database • Tradizionalmente: relazionali • Oggigiorno: XML • Facilita l’aspetto produzione

  35. ODE IN XML <se> <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1> <ps>noun</ps> - <s2 num="1"> - <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df> <ex>the store has a very low turnover of stock</ex> |   </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..

  36. ELDIT EDITING TOOL (EURAC)

  37. TALES (IRST)

  38. Uso dei computer in fase di produzione • Uno dei contributi piu’ importanti dell’informatica alla lessicografia • Generazione automatica di impaginazioni diverse • Calcolo automatico del numero di colonne richieste dato il numero di voci e la larghezza delle colonne

  39. Produzione • 150 000 voci, 2 linee x voce = 300 000 linee = 1875 pagine (= 80 linee per colonna, 2 colonne per pagina) • 1.7 linee x voce: 1600 pagine

  40. Gli strumenti informatici non risolvono tutti i problemi • Le definizioni devono sempre essere scritte • Landau: ora che e’ diventato cosi’ facile creare un nuovo dizionario, si presta sempre meno attenzione alla qualita’

  41. Letture • Jackson, cap. 13 • Landau – Dictionaries: The Art and Craft of Lexicography – ch. 7

More Related