1 / 26

Marcatge de textos amb XML

Marcatge de textos amb XML. Servei de Tecnologia Lingüística ( STeL ). Presentació. < jo > < nom > John < nom /> < cognom > Roberto </ cognom > < interessos > < li > Web Semàntica </ li > < li > Enginyeria de la Web </ li >

wayne-kirk
Télécharger la présentation

Marcatge de textos amb XML

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

  2. Presentació <jo> <nom>John<nom/> <cognom>Roberto</cognom> <interessos> <li>Web Semàntica</li> <li>Enginyeria de la Web</li> <li>Visualització de la informació</li> <li>Gestió del coneixement i la informació</li> </interessos> </jo>

  3. Contenido • Introducción • Objeto y objetivos • ¿qué? y ¿para qué? ¿cómo? • Tipos y niveles de corpus • Procesamiento del corpus • Adquisición de datos • Anotación del corpus • Revisión e inclusión • Explotación del corpus • Tareas de explotación • Metodología • Fases de procesamiento del corpus • Transferencia de información • Plan de desarrollo

  4. Introducción La gestión y creación de un corpus es un trabajo que requiere una gran inversión de tiempo (y recursos), por lo que los criterios que se van a utilizar tienen que estar claramente definidos.

  5. Objeto y objetivos¿Qué? Recopilaciones de texto: • Archivo/colección (informatizado): repertorio de textos en soporte informático sin buscar ningún tipo de relación entre ellos.  H • Biblioteca de textos electrónicos: colección de textos en soporte informático, guardados en formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección.  H • Corpus informatizado: recopilación de textos seleccionados según criterios lingüísticos, codificados de modo estándar y homogéneo, con la finalidad de poder ser tratados mediante procesos informáticos y destinados a reflejar el comportamiento de una o más lenguas.  M

  6. Objeto y objetivos¿Para qué? ¿cómo? ¿Para qué? El primer paso en el diseño de un corpus es establecer su objetivo: finalidad y aplicaciones. ¿Cómo? Recursos técnicos y humanos

  7. Objeto y objetivos Tipos y niveles de corpusLímites Una vez especificada la finalidad, se han de establecer bien claramente los límites temporales, geográficos y/o lingüísticos que el corpus va a tener.

  8. Objeto y objetivos Tipos y niveles de corpusTipos • De árboles: textos etiquetados sintácticamente. • Orales: señales de voz, eventualmente con sus transcripciones • Transcripciones: de anotación fonética. • Textuales: lengua escrita o por lengua oral transcrita. • Sincrónicos: textos en lengua actual. • Diacrónicos: textos de varias etapas históricas de la lengua. • Monolingües • Multilingües • Históricos: digitalizados por OCR (reconocimiento óptico de caracteres) a través de un escáner. • Referencia: tiene un tamaño establecido, generalmente es de libre acceso y está estandarizado. • Monitor: aumenta de manera constante su tamaño. • Dialectales: disponibles normalmente sólo en forma oral porque por lo general no tienen una norma de escritura correcta o porque no existe la tradición de una escritura.

  9. Objeto y objetivos Tipos y niveles de corpus Niveles • Corpus: conjunto de textos que son representativos de una lengua o variedad (recopilación de materiales escritos y orales de una lengua x). • Subcorpus: divisiones que se efectúan dentro de un corpus destinados a aumentar algún apartado del corpus general (subcorpus de textos orales). • Componente: colección de muestras muy homogéneas de un corpus o de un subcorpus (textos de una variedad de la lengua x hablada en x zona geográfica).

  10. Procesamiento del corpus Transformaciones que sufren los documentos, desde su formato y medio original, hasta adaptarlos a las estructura electrónica que hayamos definido para ellos. procesamiento = preparación = generación

  11. Procesamiento del corpusAdquisición de datos Fase manual (o automática) que consiste en obtener una versión digital del documento que se va a tratar. • WWW: la red ofrece una cantidad inmensa de páginas web que se pueden bajar automáticamente, por ejemplo, con el programa BootCat. • Escáner: Se escanean libros y otros textos y se aplica el reconocimiento óptico de caracteres para obtener un texto en forma electrónica. • Compra (versión electrónica)

  12. Procesamiento del corpusAdquisición de datosDerechos de autor El Derecho de autor es un conjunto de normas y principios que regulan los derechos morales y patrimoniales que la ley concede a los autores por el solo hecho de la creación de una obra literaria, artística o científica, tanto publicada o que todavía no se haya publicado. Una obra pasa al dominio público cuando los derechos patrimoniales han expirado. Esto sucede habitualmente trascurrido un plazo desde la muerte del autor (post mortem auctoris). Por ejemplo, en el derecho europeo, 70 años desde la muerte del autor. Dicha obra entonces puede ser utilizada en forma libre, respetando los derechos morales.

  13. Procesamiento del corpusAnotación del corpus Con ayuda de elementos llamados tags se puede enriquecer el texto con informaciones estructurales, semánticas o de otra índole. Las herramientas de anotación disponibles determinan cuánto se requiere para efectuar este proceso. Tag (etiqueta): marca (palabra o frase) con la cuál identificamos un contenido. <error correct="text">tetx</error>

  14. Procesamiento del corpusAnotación del corpusEstructuración del corpus Fase manual que consiste en estructurar los documentos digitales que resultan de la adquisición en un formato común que sea fácilmente procesable. • Organización en carpetas con ficheros de texto siguiendo una codificación lógica y secuencial. • No olvidemos codificarlos en un formato adecuado: ASCII, Unicode, JIS, ISOLatin-1, UTF-8.

  15. Procesamiento del corpusAnotación del corpusPrincipios de anotación • Separar contenido de estructura: • La recuperación del texto original debe ser posible sin las anotaciones. • La evaluación de las anotaciones debe ser posible sin el texto original. • Las normas de anotación deben ser accesibles. • Los anotadores y las circunstancias de la anotación deben ser conocidos. • Los usuarios deben saber que las anotaciones pueden contener errores. • Se deben tomar en cuenta los estándares de codificación (TEI, CES, LDC y EAGLES).

  16. Procesamiento del corpusAnotación del corpusFormato de anotación • HTML: inadecuado para la anotación porque el conjunto de tags es limitado y no cumple con algunos principios. • SGML: ofrece la posibilidad de una anotación más amplia pero más costosa; útil para grandes proyectos. • XML: es la opción más adecuada porque puede contener un conjunto de tags infinito, es poderoso y al tiempo fácil de utilizar.

  17. Procesamiento del corpusAnotación del corpusEstándares de representación Actualmente, para el desarrollo de corpus utilizando XML, existen dos tendencias: • Utilizar alguno de los estándares disponibles como TEI, CES, LDC y EAGLES o XCES (Corpus Encoding Standard for XML). • Definir un XML propio para la representación de los documentos. • Definir un XML propio basado en estándares.

  18. Procesamiento del corpusAnotación del corpusEstándares de representación Uso de estándares: • Mayor compatibilidad entre corpus. • Propiciar la movilidad del personal entre proyectos. • Se optimiza el soporte de herramientas (de anotación y de explotación). XML propio: • Etiquetas XML en una lengua diferente del inglés. • Mayor flexibilidad a la hora de elegir y establecer una sintáxis para nuestras etiquetas.

  19. Procesamiento del corpusAnotación del corpusConversión Transformación de los documentos con el objetivo de adaptarlos al formato XML establecido: • Manual (sin herramienta) • Asistida (semiautomática) • Herramientas específicas de anotación: • MMAX y NITE XML: anotación multimodal • Annotate: anotación sintáctica • EXMARaLDA anotación de discurso • Transcriber y Praat: anotación fonética • Anvil, Elan y TASX: anotación de vídeos • Herramientas adaptadas • Automática (conversión) - scripts

  20. Procesamiento del corpus Revisión e inclusión • En la fase de revisión se tratan de corregir los errores que se hayan podido cometer en la anotación: • Documentos bien formados: contienen todas las etiquetas. • Documentos válidos: responden a una sintaxis común. • Poner –en la carpeta que correspondiente– aquellos documentos que cumplen todos los requisitos.

  21. Explotación del corpus El corpus por sí solo no es suficiente para facilitar datos exhaustivos del lenguaje. Para poder aprovechar al máximo las informaciones que contiene es necesario poder disponer de herramientas adecuadas para su explotación.

  22. Explotación del corpusTareas de explotación • Frecuencias de aparición de palabras • Índices y concordancias • Lematización • Análisis morfológico (tagging) • Análisis sintáctico (parsing) • Desambiguación semántica • Detección de unidades recurrentes (collocations)

  23. MetodologíaFases del procesamiento del corpus

  24. MetodologíaTransferencia de información Definir los protocolos de actuación que incluyan las tareas que hará el equipo de expertos (lingüistas) e informáticos. Los protocolos son útiles porque: • mantienen un registro de todas las decisiones tomadas por el equipo evitando volver a discutir sobre decisiones tomadas en su momento, • permiten formar a nuevos miembros del equipo, • nos recuerdan los detalles de tareas repetitivas, • facilitan la generación de documentos burocráticos, • facilitan la dinámica entre los diferentes equipos y grupos de trabajo, etc.

  25. MetodologíaPlan de desarrollo • Cuando tiene un plan detallado, puede trabajar de manera más eficaz. • Cuando planifica, tiene mayor probabilidad de cumplir sus compromisos. • Hacer el plan es hacer el seguimiento del progreso de su trabajo. • Después de que ha pensado todo el trabajo, conoce lo que ha de hacer y cuando ha de hacerlo.

  26. MetodologíaPlan de desarrolloEtapas • Realizar el Diseño Conceptual (fase de estrategia). • Desarrollar la estrategia: diferentes partes del diseño conceptual (componentes, ciclos, productos). • Realizar el plan del equipo: • Lista de tareas requeridas para construir los productos identificados en el paso 2. • Estime el tiempo que dedicará cada persona a la realización de cada tarea. • Estime el tiempo que dedicará al proyecto la totalidad del equipo. • Calcular la fecha de finalización esperada de cada tarea.

More Related