200 likes | 490 Vues
ANALISIS DE TEXTOS. Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI) , y otras 20 páginas de un texto de Alberto Blest Gana (ABG) , ambos referidos al tema de la guerra de independencia de Chile.
E N D
ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores. Jorge Galbiati
Las 10 palabras seleccionadas, que denominaremos palabras discriminantes, son: Artículos definidos el, la, los, las Artículos indefinidos un, una Adjetivo posesivo su Preposiciones en, por Pronombre me Son, entonces, 40 observaciones de 10 variables. Jorge Galbiati
El conteo de palabras se muestra a continuación Texto de Jorge Inostrosa Jorge Galbiati
Texto de Alberto Blest Gana Jorge Galbiati
Se puede observar una sorprendente similitud en las frecuencias de las palabras, al comparar ambos autores. El gráfico muestra las frecuencias promedio, en ambos casos. Esto hará difícil discriminar entre los dos autores. Jorge Galbiati
Se aplicó un análisis discriminante canónico de Fisher, que no requiere supuestos distribucionales, utilizando S.Plus. Los resultados son los siguientes: Jorge Galbiati
Los coeficientes de la función discriminante canónica, en una dimensión, dieron : el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432 Jorge Galbiati
El análisis de errores dio como resultado una tasa de error bastante alta. La tabla de clasificación bruta es clasificación Tasa JI ABG de Error Autor JI 15 5 0.25 verdadero ABG 4 16 0.20 Tasa de error global 0.225 Jorge Galbiati
La tabla de clasificación cruzada (dejando unma observación fuera a la vez), muestra obviamente más error clasificación Tasa JI ABG de Error Autor JI 12 8 0.40 verdadero ABG 8 12 0.40 Tasa de error global 0.40 Jorge Galbiati
Ahora se va a probar la regla discriminante en textos nuevos. Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres páginas de Alberto Blest Gana. Jorge Inostrosa Alberto Best Gana Jorge Galbiati
Para llevar estos vectores a la dimensión discriminante, se deben multiplicar por el vector de coeficientes de la función discriminante, el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432 Jorge Galbiati
También se deben multiplicar los vectores de centros (medias) de las observaciones de ambos autores, por el vector de coeficientes: Los resultados obtenidos son valores en la dimensión discriminante, que se muestran a continuación. Jorge Galbiati
El primer producto, correspondiente a la observación 41, da ( 0.12833 ) x 14 + ( -0.09759) x 20 + ( -0.02523 ) x 5 + ( 0.17526 ) x 4 + ( -0.05302 ) x 3 + ( -0.01133 ) x 2 + ( 0.00307 ) x 8 + ( -0.07180 ) x 8 + ( 0.09369 ) x 8 + ( 0.11432 ) x 4 = 0.8948 Esta es su valor en la dimensión de discriminación. De la misma manera se procede con todas los demás, y con los centros de los grupos, obteniéndose los siguientes resultados: Jorge Galbiati
Resumen de todos los resultados: Observaciones a clasificar: Jorge Inostrosa Alberto Blest Gana 41 0.8948 44 1.1145 42 1.5212 45 1.2205 43 1.1004 46 0.3043 Centros: Jorge Inostrosa Alberto Blest Gana Jorge Galbiati
Estos valores se pueden visualizar en la siguiente representación gráfica Claramente se aprecia que una de las páginas de Alberto Blest Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto mal clasificada. Las observaciones se clasifican en el grupo cuyo centro está a menor distancia. Jorge Galbiati
Las distancias de las observaciones a los dos centros, en valor absoluto, son De al centro IJ al centro ABG Se clasifica en 41 0.219 1.401 IJ 42 0.845 2.028 IJ 43 0.425 1.607 IJ 44 0.439 1.621 IJ (mal clas.) 45 1.896 0.714 ABG 46 0.980 0.202 ABG Jorge Galbiati
Como se vió en el gráfico, la observación 44 quedó mal clasificada. Se muestra junto con los promedios de los dos grupos: Aparentemente el déficit de las palabras la y por es en parte responsable de la mala clasificación de esta página de texto de Blest gana. El hecho que haya una página mal clasificada es consistente con las altas tasas de error. Jorge Galbiati
Ahora veremos qué pasa si intentamos clasificar páginas de texto que pertenecen a otro autor, en particular de Liborio Brieva, en una de las dos categorías aquí definidas. Se obtuvieron las siguientes tres observaciones: Jorge Galbiati
Se aplicará la misma transformación para llevar las observaciones a la dimensión discriminante, y allí se calculará la diferencia con los centros de ambos grupos. Da las siguientes distancias: De al centro IJ al centro ABG Se clasifica en 47 0.274 1.456 IJ 48 0.914 0.268 ABG 49 0.701 0.481 ABG Como se esperaba, puede ver que quedan clasificados de cualquier manera. Jorge Galbiati
Fin Jorge Galbiati