1 / 20

ANALISIS DE TEXTOS

ANALISIS DE TEXTOS. Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI) , y otras 20 páginas de un texto de Alberto Blest Gana (ABG) , ambos referidos al tema de la guerra de independencia de Chile.

hafwen
Télécharger la présentation

ANALISIS DE TEXTOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores. Jorge Galbiati

  2. Las 10 palabras seleccionadas, que denominaremos palabras discriminantes, son: Artículos definidos el, la, los, las Artículos indefinidos un, una Adjetivo posesivo su Preposiciones en, por Pronombre me Son, entonces, 40 observaciones de 10 variables. Jorge Galbiati

  3. El conteo de palabras se muestra a continuación Texto de Jorge Inostrosa Jorge Galbiati

  4. Texto de Alberto Blest Gana Jorge Galbiati

  5. Se puede observar una sorprendente similitud en las frecuencias de las palabras, al comparar ambos autores. El gráfico muestra las frecuencias promedio, en ambos casos. Esto hará difícil discriminar entre los dos autores. Jorge Galbiati

  6. Se aplicó un análisis discriminante canónico de Fisher, que no requiere supuestos distribucionales, utilizando S.Plus. Los resultados son los siguientes: Jorge Galbiati

  7. Los coeficientes de la función discriminante canónica, en una dimensión, dieron : el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432 Jorge Galbiati

  8. El análisis de errores dio como resultado una tasa de error bastante alta. La tabla de clasificación bruta es clasificación Tasa JI ABG de Error Autor JI 15 5 0.25 verdadero ABG 4 16 0.20 Tasa de error global 0.225 Jorge Galbiati

  9. La tabla de clasificación cruzada (dejando unma observación fuera a la vez), muestra obviamente más error clasificación Tasa JI ABG de Error Autor JI 12 8 0.40 verdadero ABG 8 12 0.40 Tasa de error global 0.40 Jorge Galbiati

  10. Ahora se va a probar la regla discriminante en textos nuevos. Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres páginas de Alberto Blest Gana. Jorge Inostrosa Alberto Best Gana Jorge Galbiati

  11. Para llevar estos vectores a la dimensión discriminante, se deben multiplicar por el vector de coeficientes de la función discriminante, el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432 Jorge Galbiati

  12. También se deben multiplicar los vectores de centros (medias) de las observaciones de ambos autores, por el vector de coeficientes: Los resultados obtenidos son valores en la dimensión discriminante, que se muestran a continuación. Jorge Galbiati

  13. El primer producto, correspondiente a la observación 41, da ( 0.12833 ) x 14 + ( -0.09759) x 20 + ( -0.02523 ) x 5 + ( 0.17526 ) x 4 + ( -0.05302 ) x 3 + ( -0.01133 ) x 2 + ( 0.00307 ) x 8 + ( -0.07180 ) x 8 + ( 0.09369 ) x 8 + ( 0.11432 ) x 4 = 0.8948 Esta es su valor en la dimensión de discriminación. De la misma manera se procede con todas los demás, y con los centros de los grupos, obteniéndose los siguientes resultados: Jorge Galbiati

  14. Resumen de todos los resultados: Observaciones a clasificar: Jorge Inostrosa Alberto Blest Gana 41 0.8948 44 1.1145 42 1.5212 45 1.2205 43 1.1004 46 0.3043 Centros: Jorge Inostrosa Alberto Blest Gana Jorge Galbiati

  15. Estos valores se pueden visualizar en la siguiente representación gráfica Claramente se aprecia que una de las páginas de Alberto Blest Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto mal clasificada. Las observaciones se clasifican en el grupo cuyo centro está a menor distancia. Jorge Galbiati

  16. Las distancias de las observaciones a los dos centros, en valor absoluto, son De al centro IJ al centro ABG Se clasifica en 41 0.219 1.401 IJ 42 0.845 2.028 IJ 43 0.425 1.607 IJ 44 0.439 1.621 IJ (mal clas.) 45 1.896 0.714 ABG 46 0.980 0.202 ABG Jorge Galbiati

  17. Como se vió en el gráfico, la observación 44 quedó mal clasificada. Se muestra junto con los promedios de los dos grupos: Aparentemente el déficit de las palabras la y por es en parte responsable de la mala clasificación de esta página de texto de Blest gana. El hecho que haya una página mal clasificada es consistente con las altas tasas de error. Jorge Galbiati

  18. Ahora veremos qué pasa si intentamos clasificar páginas de texto que pertenecen a otro autor, en particular de Liborio Brieva, en una de las dos categorías aquí definidas. Se obtuvieron las siguientes tres observaciones: Jorge Galbiati

  19. Se aplicará la misma transformación para llevar las observaciones a la dimensión discriminante, y allí se calculará la diferencia con los centros de ambos grupos. Da las siguientes distancias: De al centro IJ al centro ABG Se clasifica en 47 0.274 1.456 IJ 48 0.914 0.268 ABG 49 0.701 0.481 ABG Como se esperaba, puede ver que quedan clasificados de cualquier manera. Jorge Galbiati

  20. Fin Jorge Galbiati

More Related