130 likes | 267 Vues
informatica di base per le discipline umanistiche. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia. (continua…). ottava lezione: la “dinamica” del testo. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa
E N D
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 8 (continua…)
ottava lezione: la “dinamica” del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 8 (continua…)
come cresce il vocabolario di un testo? • il vocabolario di un testocresce quando introduciamo nel testo una parola mai usata prima • intuitivamente la crescita di un vocabolario è rapida all‘inizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase) • aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate • il ritmo di crescita del vocabolario di un testo tende quindi a diminuireall‘aumentare del numero di frasi ... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 8 (continua…)
come cresce il vocabolario di un testo? (II) • esistono classi di parole che è praticamente impossibile non ripetere all‘interno di un testo anche molto breve • queste classi sono formate dalle cosiddette parole “grammaticali” (articoli, preposizioni, ausiliari ecc.), che costituiscono l’impalcatura morfosintattica di una frase • queste classi sono, tipicamente, • relativamente ristrette (contengono pochi elementi) • e “chiuse”, cioè non sono soggette ad espandersi attraverso processi produttivi del lessico come la derivazione o la composizione (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 8 (continua…)
come cresce il vocabolario di un testo? (III) • un altro fattore evidente che ritarda la crescita esponenziale del vocabolario all’interno dello stesso testo è la “coerenza lessicale”: la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo lezione 8 (continua…)
la frequenza media • la frequenza mediadi una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: |T| / | V | lezione 8 (continua…)
la frequenza media (II) • all‘inizio ogni parola è usata in media poco più di una sola volta (freq media 1) • non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1) • in generale freq media tende a crescere per due ragioni: • le parole grammaticali si ripetono, andando ad aggiungersi a T ma lasciando |V | invariato; • il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di crescita col passare del testo (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 8 (continua…)
come cresce freq media? • il ritmo di crescita di freq media tende a rallentare col passare del testo • perché? • la frequenza cresce linearmente al crescere del testo • se il “peso” del lessico fosse costante, la crescita di freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso l’asse delle x) • se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante • dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore all’unità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 8 (continua…)
cresce tutto in questo modo? • no! la lunghezza mediadi una parolatende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri) lezione 8 (continua…)
campionamento casuale … • analogamente se invece di monitorare lo stesso testo nel tempo, se ne estraggono tanti campioni casuali, e se ne calcola per ciascuno “lun media”, il valore più volte attestato tenderà a riprodurre “lun media” di tutto il testo ... lezione 8 (continua…)
campionamento casuale (II) • ... tanto meglio, quanto maggiore è la lunghezza dei campioni: lezione 8 (continua…)
campionamento casuale (III) • per il teorema del limite centrale, i valori campionari di lunghezza media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto all‘asse della campana ... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 8 (continua…)
nona lezione la “dinamica” del testo fine ottava lezione (lezione 9) lezione 8