790 likes | 1.01k Vues
06/11/2008. Annotations et m?tadonn?es - Ga?lle Hignette. 2. Plan du cours. Annotations et m?tadonn?es, d?finitionsAnnotation manuelleAnnotation semi-automatiqueAnnotation non supervis?eR?f?rences. 06/11/2008. Annotations et m?tadonn?es - Ga?lle Hignette. 3. Plan du cours. Annotations et m?tado
                
                E N D
1. Annotation et métadonnées Gaëlle Hignette,
AgroParisTech
gaelle.hignette@agroparistech.fr 
2. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 2 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Annotation non supervisée
Références
 
3. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 3 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Annotation non supervisée
Références
 
4. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 4 Définitions: annotation Langage courant (dictionnaire le Robert): 
Note critique ou explicative qu’on écrit sur un texte, un livre
En informatique:
Commentaire (libre) rattaché à un document ou une portion de document
Utilisé dans les bases documentaires, les collecticiels…
Concept (prédéfini) rattaché à une portion de document
Utilisé pour la recherche et l’extraction d’information En relation avec l'extraction d'informationEn relation avec l'extraction d'information 
5. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 5 Définitions: métadonnées Langage courant: 
Néologisme 
Métalangage: langage qui décrit un autre langage (dit « primaire »)
En informatique: 
Données informatives sur les données courantes
ex. auteur, date de modification, … 
6. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 6 Et le web sémantique? Métadonnées dans le web sémantique
Dublin Core
Annotations dans le web sémantique
Langages du web sémantique peu adaptés à l’annotation au sein du texte
Annotations stockées en en-tête de document ou dans un moteur à part, avec pointeurs
Annotation de documents provenant du web
En vue d’une application précise
Stockage local
Format au choix, souvent XML Voir comment on fait des annotations avec les langages du web sémantique Voir comment on fait des annotations avec les langages du web sémantique  
7. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 7 Exemple d’annotation Dublin Core Le document HTML
	<HTML><HEAD> <TITLE> Dublin Core Metadata Initiative - Home Page</TITLE> 
<LINK rel= "meta" href="dcDesc.dcxml"> </HEAD> 
<BODY> .......... </BODY> </HTML>
L’annotation en RDF dans le fichier dcDesc.dcxml
<?xml version="1.0"?> 
<!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2001 11 28//EN "http://dublincore.org/documents/2001/11/28/dcmes-xml/dcmes-xml-dtd.dtd"> 
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc ="http://purl.org/dc/elements/1.1/"> 
<rdf:Description rdf:about="http://dublincore.org/"> 
	<dc:title>Dublin Core Metadata Initiative - Home Page</dc:title>
	<dc:description>The Dublin Core Metadata Initiative Web site.</dc:description> 
	<dc:date>1998-10-10</dc:date> <dc:format>text/html</dc:format>
 	<dc:language>en</dc:language> 
	<dc:contributor>The Dublin Core Metadata Initiative</dc:contributor> 
</rdf:Description> </rdf:RDF>  
8. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 8 Exemple d’annotation utilisant des pointeurs penser à mettre un exemple pour le lienpenser à mettre un exemple pour le lien 
9. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 9 Exemple d’annotation à l’intérieur du document 
<html><head></head><body>
<h1>The <b>Semsem</b> team Members</h1>
<table> 
	<person> <tr> 
	<td><name>Jack</name></td> <td><email>jack@sem.sem</email></td> <td><theme>KR</theme></td> 
	</tr> </person> <tr> ... </tr> <tr> ... </tr> </table>
</body></html>
 
10. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 10 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Qui doit annoter?
Quelques outils d’aide à l’annotation
Annotation semi-automatique
Annotation non supervisée
Références
 
11. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 11 Annotation manuelle par l'auteur Charge de travail supportable
Métadonnées: génération automatique possible
Annotation: au fil de la création du texte
À condition de disposer d'outils faciles d'utilisation
Mais parfois inutilisable
L'auteur ne sait pas comment on va vouloir utiliser ce qu'il publie => quoi annoter?
Choix de l'ontologie 
12. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 12 Annotation par "l'utilisateur" Reprendre tout le web existant: impossible en annotation manuelle
Annotation par commentaire libres destinées à la lecture par des humains: nécessairement manuelle, liée à l’utilisation
Annotation manuelle par des concepts prédéfinis indispensable comme base pour les techniques d'apprentissage 
Disponibilité de nombreux outils d’aide à l’annotation 
13. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 13 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Qui doit annoter?
Quelques outils d’aide à l’annotation
Annotation semi-automatique
Annotation non supervisée
Références 
14. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 14 Cadixe, annotation en XML Pour des fichiers texte
Annotation au fil de la lecture
Insertion des tags XML dans le désordre, mais tags guidés par une DTD
Rendu graphique personnalisable
Vérification après-coup de la conformité à la DTD
Stockage local des annotations en XML 
15. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 15 Cadixe: copie d’écran 
16. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 16 CREAM, annotation en RDF Pour des fichiers HTML
3 modes d’annotation
Indépendamment de la page, directement dans l’éditeur d’ontologie
À la lecture, de l’éditeur de page vers l’éditeur d’ontologie
À l’écriture, de l’éditeur d’ontologie à l’éditeur de page
Stockage des annotations dans la page (en-tête en RDF) et/ou dans un serveur d’annotations permettant le raisonnement 
17. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 17 CREAM: exemple 
18. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 18 CREAM: annotation d’une page existante 
19. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 19 CREAM: création d’une page à partir de l’ontologie 
20. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 20 Annotea, annotations pour le travail collaboratif Outil du W3C
Annotations textuelles par des auteurs
Stockage des annotations en XHTML, métadonnées des annotations dans des serveurs RDF ou index local
Intégration directe dans un browser spécifique: Amaya
Intégration dans le browser Mozilla: Annozilla
 voir exactement ce que fait Annozilla, voir COHSEvoir exactement ce que fait Annozilla, voir COHSE 
21. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 21 Annotea: screenshot 
22. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 22 Et le multimédia... Vannotea: annotation collaborative de vidéos
M-OntoMat-Annotizer: extension de CREAM pour l’annotation de vidéos
outils de Mindswap: annotation d’images, d’emails, de HTML et texte
Open Ontology Forge: outil de création d’ontologies et d’annotation type CREAM – intégration de l’annotation d’images et de texte revoir les différents outilsrevoir les différents outils 
23. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 23 M-OntoMat-Annotizer: screenshot 
24. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 24 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Définition de règles pour l’annotation
Algorithmes d’apprentissage
Systèmes d’annotation semi-automatique
Annotation non supervisée
Références
 
25. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 25 Définition de règles pour l’annotation Règles spécifiques à un domaine, écrites par un expert
Extraction d’entités nommées (noms de personnes, de compagnies, dates...) 
Extraction basée sur une structure de documents redondante
Extraction basée sur des contextes linguistiques 
26. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 26 Extraction d’entités nommées Généralement basée sur une combinaison de dictionnaire et d’expressions régulières
Tâche de base pour des extractions d’information de plus haut niveau 
Proposé dans la plateforme GATE: chaîne de traitement ANNIE
tokenizer
sentence splitter
gazetteer
NE transducer voir KIM, donner un exemple d’extraction de ANNIEvoir KIM, donner un exemple d’extraction de ANNIE 
27. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 27 Mapping de structure avec Lixto Création d’une classe
Choix graphique d’un exemple
Création automatique d’un pattern
possibilité de modifier manuellement le pattern
Test du pattern
possibilité de montrer d’autres exemples pour affiner le pattern
Eléments définis les uns par rapport aux autres 
28. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 28 Lixto: screenshot 
29. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 29 Règles linguistiques avec EXCOM Relations linguistiques indépendantes du domaine
lien de causalité
rencontre entre personnes
formulation d’une hypothèse, d’une conclusion
etc.
Basé sur la présence d’un indicateur fort, puis d’indices contextuels permettant la désambiguation
Gros effort en linguistique impliqué 
30. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 30 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Définition de règles pour l’annotation
Algorithmes d’apprentissage
Systèmes d’annotation semi-automatique
Annotation non supervisée
Références
 
31. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 31 Annotation par apprentissage Annotation manuelle d'une base d'exemples
Application d'un algorithme d'apprentissage
Annotation automatique ou semi-automatique des documents restants
Risque d'erreur
Minimisation de l'effort d'annotation 
32. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 32 Boosted Wrapper Induction Freitag & Kushmerick, 2000
Fonctionnement concept par concept
Tâche de classification des limites
Début: cet espace entre deux mots est-il le début d'une instance du concept?
Fin: cet espace entre deux mots est-il la fin d'une instance du concept?
Matching début/fin: longueur probable
 
33. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 33 BWI: Détecteurs de limites Un pattern est un motif à repérer dans le texte
Ex. [Melle <AlphaCap>] reconnaîtra Melle Dupond, Melle Chapitre, Melle Hignette…
Un détecteur est constitué de deux patterns: avant limite et après limite
Ex. [Melle][<AlphaCap>]
Un détecteur a une confiance 
34. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 34 BWI: Définition du wrapper Le wrapper est constitué de 
un ensemble de détecteurs de limite de début, 
un ensemble de détecteurs de limite de fin,
une fonction de distribution de longueur
H: N ? [0,1]  H(k)=Prob("champ a k mots") 
35. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 35 BWI: Classification Chaque espace entre deux mots reçoit un score de limite de début et un score de limite de fin:
Score = somme des confiances des détecteurs qui reconnaissent cet espace
Une instance est reconnue entre les espaces i et j si
Scoredebut(i)*Scorefin(j)*H(j-i)>t
t: paramètre de réglage précision/couverture 
36. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 36 BWI: Boosting Temps 0: tous les exemples positifs ont le même poids
Boucler tant qu'on a moins de T détecteurs
choisir un détecteur
changer le poids des exemples: plus de poids aux exemples positifs non encore couverts ou aux négatifs couverts par erreur 
37. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 37 BWI: choix des détecteurs Initialement: détecteur sans préfixe ni suffixe
À chaque étape on ajoute un mot ou généralisation au préfixe et au suffixe
Maximiser sqrt(poids vrais positifs) - sqrt(poids faux positifs)
Arrêt quand l'extension ne permet pas d'éliminer plus de faux positifs / longueur max de pattern atteinte 
38. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 38 BWI: avantages Bonne précision
Couverture: l'union fait la force
Fonctionne sur texte libre ou structuré
Généralisations: 
initialement prévu pour des informations de casse
mais peut tenir compte d'un pré-traitement (ex. reconnaissance de prénoms, dates, classe grammaticale, etc.) 
39. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 39 (LP)2 Ciravegna 2001
Algorithme conçu pour tenir compte d'un pré-processing: forme grammaticale, dictionnaires, entités nommées
Règles d'insertion de tags ouvrants et de tags fermants
Meilleures règles
Règles contextuelles
Règles de correction
Validation: suppression des tags orphelins 
40. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 40 (LP)2: meilleures règles pour chaque exemple
Pattern générateur = w mots avant, w mots après le tag
Retenir les k meilleures généralisations 
taux d'erreur = erreur/succès < seuil
plus de matches, moins d'erreurs 
suppression des règles redondantes
retirer les exemples couverts par les règles
continuer tant qu'il reste des exemples à couvrir 
41. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 41 (LP)2: règles contextuelles Seuil de taux d'erreur exigeant
Très bonne précision
Couverture faible
Augmenter la couverture sans trop perdre de précision
Appliquer les "meilleures règles"
Utiliser les tags créés pour la génération des patterns
Exemples utilisés = ceux qui ne sont pas couverts par les meilleures règles
Typiquement: fermeture d'un tag… 
42. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 42 (LP)2: règles de correction Tags insérés parfois mal placés
Règles permettant de déplacer un tag de maximum w positions
fenêtre de w mots autour du tag mal placé
meilleures k généralisations du pattern avec tags
action = déplacement du tag dans la fenêtre
 
43. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 43 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Définition de règles pour l’annotation
Algorithmes d’apprentissage
Systèmes d’annotation semi-automatique
Annotation non supervisée
Références
 
44. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 44 SemTag Annotation des instances définies dans une ontologie ex. « Michael Jordan »
Désambiguation par le contexte (n mots avant, n mots après)
jugements humains sur certains contextes
mesures statistiques sur la fréquence des mots
ex. Michael Jordan, arguably the greatest player in basketball history ... ? Professor Michael Jordan Email: jordan@cs.berkeley.edu 
45. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 45 S-CREAM: Semi-automatic CREAtion of Metadata Creation de la base d'exemples: annotation manuelle dans CREAM
Extraction d'information par Amilcare, basé sur (LP)2
Préprocessing par Annie
Détection des phrases
Forme grammaticale
Dictionnaire
Entités nommées
Création des relations entre instances 
46. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 46 De l'extraction d'information aux métadonnées relationnelles 
47. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 47 De l'extraction d'information aux métadonnées relationnelles Méthode ad-hoc, dépend de la tâche d’annotation à réaliser
Définition du concept maître
Création des instances du concept maître
Rattachement de toutes les autres instances à l’instance-maître
Par typage 
Par proximité
Par remplissage
Règles ad-hoc d’aggrégation d’attributs
 
48. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 48 MnM Instances et attributs, mais pas de relations entre instances
Interface graphique simple
Apprentissage via Amilcare
Lien direct entre information extraite et attributs
Correction manuelle 
49. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 49 MnM: screenshot 
50. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 50 Melita Fonctionne sur le même principe que MnM
Permet de régler le degré d’intrusion de l’automatique par rapport au  manuel
 
51. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 51 Melita: screenshot 
52. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 52 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Annotation non supervisée
Utilisation de la redondance sur le web
Annotation de tableaux de données
Références
 
53. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 53 Armadillo: principe Basé sur la redondance de l’information sur le web
Reconnaissance des instances d’une classe ambiguë grâce à sa sur-classe et les classes en relation
exemple: classe recherchée = Universitaire
sur-classe = Personne, facile à trouver grâce aux systèmes d’extraction d’entités nommées
classes en relation: Université (relation Travaille dans), Article (relation Ecrit par)
définition: Universitaire = Personne qui Travaille dans une Université, avec au moins un Article Ecrit par cette Personne
 Armadillo: à donner en papier à travaillerArmadillo: à donner en papier à travailler 
54. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 54 Armadillo: fonctionnement Point de départ: « oracle » i.e. données certaines sur une classe source, en relation avec la classe à annoter (ex. liste des universités)
Identification des candidats: instances de la sur-classe en lien avec la classe source (ex. personnes dans les pages d’une université)
Classification des candidats par utilisation des autres classes liées (ex. sites bibliographiques) 
55. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 55 KnowItAll Motifs linguistiques d’extraction indépendants du domaine
ex: <GNClass> « such as » <GNList>great cities such as Paris, London or Berlinphilosophers such as Socrates and Platon
Possibilité d’évaluer la confiance dans les motifs sur une base d’exemples
Augmentation de la couverture en réutilisant les données extraites par ces motifs 
56. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 56 KnowItAll: augmentation de la couverture Par apprentissage de motifs d’extraction spécifiques au domaine
Par extraction des sous-classes
scientists such as mathematicians, physicists and chemists
philiosophical mathematicians such as Leibniz and Lambert
Par extraction de listes 
57. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 57 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Annotation non supervisée
Utilisation de la redondance sur le web
Annotation de tableaux de données
Références
 
58. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 58 Annotation de tableaux dans @WEB Annotation de tableaux de données
Ressources:
une ontologie du domaine
des tableaux à annoter
But de l’annotation:
Recherche des relations sémantiques représentées par le tableau
Rapprochement des valeurs symboliques du tableau avec les termes de l’ontologie 
59. 06/11/2008 59 Prérequis: l’ontologie 
60. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 60 Example de tableau à annoter 
61. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 61 Etapes de l’annotation d’un tableau 
62. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 62 Etape 1: Reconnaissance des colonnes numériques et symboliques Sur chaque cellule, compter le nombre d’indices
numérique sûr: nombre en notation scientifique ou nombre suivi d’une unité
indice numérique: nombre ou unité
indice symbolique: mot qui n’est ni une unité ni un indicateur de résulat absent
Déterminer le type de la cellule
numérique si la cellule contient au moins un numérique sûr ou plus d’indices numériques que d’indices symboliques
Déterminer le type de la colonne
numérique si au moins la moitié des cellules sont numériques 
63. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 63 Etape 1: exemple 
64. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 64 Quels termes de l’ontologie représentent le mieux le terme du web?
	=> calcul d’un score de similarité entre le terme du web et chacun des termes de l’ontologie 
Les termes sont transformés en vecteurs pondérés
Les axes de coordonées représentent l’ensemble de tous les mots lemmatisés possibles
Les valeurs des coordonnées représentent le poids de chaque mot dans le terme
termes de l’ontologie: poids défini manuellement
termes du web: poids de 1 sur chaque mot 
Mesure de similarité = cosinus de l’angle entre deux vecteurs  Etape 2: Annotation de termes du web par des termes de l’ontologie 
What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ?
Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ?
What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ?
Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ?
 
65. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 65 
similarité entre « minced beef » et « minced poultry » : 
similarité entre « minced beef » et « ground beef »: Etape 2: exemple sur un nom d’aliment 
What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ?
Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ?
What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ?
Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ?
 
66. Etape 3a: Reconnaissance du type d’une colonne symbolique: score de contenu lactic 1, acid 1, bacteria 0.2
fermented 1, milk 1
smoked 0.2, sausage 1lactic 1, acid 1, bacteria 0.2
fermented 1, milk 1
smoked 0.2, sausage 1 
67. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 67 Etape 3a: Reconnaissance du type d’une colonne symbolique: choix du type Calcul de scoretitre , score d’un type d’après le titre de la colonne = similarité entre titre de la colonne et nom du type
Calcul du score final:
scorefinal = 1 – (1-scorecontenu)(1-scoretitre)
Choix du type de meilleur score pour la colonne (au moins x% supérieur au deuxième meilleur)
 
68. Etape 3 b: Reconnaissance du type d’une colonne numérique D 1, reduction 1, at 50°C pas pris en compte
D 1, value 0.2D 1, reduction 1, at 50°C pas pris en compte
D 1, value 0.2 
69. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 69 Etape 4: reconnaissance des relations - exemple 
70. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 70 Etape 4: exemple (suite) 
71. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 71 Etape 5: instanciation des relations Annotation sous forme de sous-ensembles flous
Sous-ensemble classique: chaque élément x de l’ensemble de définition appartient ou n’appartient pas au sous-ensemble
Sous-ensemble flou: chaque élément x de l’ensemble de définition appartient au sous-ensemble avec un degré d’appartenance m(x) compris entre 0 et 1 
72. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 72 Etape 5a: instanciation des symboliques  Toutes les correspondances trouvées sont conservées à condition qu’elles correspondent au type de la colonne
Sémantique de similarité 
73. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 73 Etape 5b: instanciation des numériques Rassemblement de toutes les colonnes contenant le même type
Sémantique d’optimalité
Sémantique d’imprécision 
74. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 74 Etape 5b: optimalité Définit une plage d’acceptabilité et une plage d’optimalité
reconnaissance de mots-clefs dans les titres de colonnes (Minimum, Maximum, Optimum)
Exemple 
75. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 75 Etape 5b: imprécision Sémantique par défaut si aucune sémantique d’optimalité n’a été trouvée
intervalle dans une cellule – expression régulière
moyenne+écart-type dans une cellule – expression régulière
moyenne+écart-type dans deux colonnes – mot clef
valeur précise 
76. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 76 Plan du cours Annotations et métadonnées, définitions
Annotation manuelle
Annotation semi-automatique
Annotation non supervisée
Références
 
77. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 77 Références Cadixe: Le projet Caderige, Catégorisation Automatique de Documents pour l'Extraction de Réseaux d'Interactions GEniques http://www-leibniz.imag.fr/SICLAD/Caderige/
CREAM: S. Handschuh , S. Staab , R. Studer. Leveraging metadata creation for the Semantic Web with CREAM. KI '2003 - Advances in Artificial Intelligence. Proc. of the Annual German Conference on AI, R. Kruse et al., Springer, Berlin, SEP 2003 
LIXTO: R. Baumgartner, O. Frölich, G. Gottlob, P. Harz, M. Herzog, P. Lehmann. Web Data Extraction for Business Intelligence: the Lixto Approach . BTW 2005.
Annotea: J. Kahan, M. Koivunen, E. Prud'Hommeaux, and R. Swick. Annotea: An Open RDF Infrastructure for Shared Web Annotations. In Proc. of the WWW10 International Conference. Hong Kong, 2001. 
BWI: D. Freitag and N. Kushmerick. Boosted wrapper induction. In Proc. of the 17th National Conference on Artificial Intelligence AAAI-2000, pages 577--583, 2000. 
 
78. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 78 Références (2) (LP)2: Fabio Ciravegna. (LP)2, Rule Induction for Information Extraction using Linguistic Constraints. Technical Report no CS-03-07, University of Sheffield, September 2003 
SemTag: Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, Ramanathan Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John Tomlin, Jason Zien. SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation , WWW2003
MnM: M. Vargas-Vera, E. Motta, J. Domingue, M. Lanzoni, A. Stutt, F. Ciravegna. MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup. The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002
Melita: Fabio Ciravegna, Alexiei Dingli, Daniela Petrelli and Yorick Wilks : User-System Cooperation in Document Annotation based on Information Extraction The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002 
79. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette 79 Références (3) Armadillo: Norton, B., Chapman, S., & Ciravegna, F. (2005). The Semantic Web : Research and Applications, chapter Orchestration of Semantic Web Services for Large-Scale Document Annotation, (pp. 649–663). Springer.
KnowItAll: Etzioni, Cafarella, Downey, Popescu, Shaked, Soderland, Weld, & Yates (2005). Unsupervised named-entity extraction from the web : an experimental study. Artificial Intelligence,165(1), 91–134.