1 / 122

Mise en place d’un portail de veille avec ActiveWatch

Mise en place d’un portail de veille avec ActiveWatch. Première journée. Cédric Simard - février 2001. Objectifs de la formation. Acquérir une vision globale d’ActiveWatch™ Comprendre le rôle de chaque module dans le processus de traitement d’information

cheng
Télécharger la présentation

Mise en place d’un portail de veille avec ActiveWatch

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mise en place d’un portail de veille avec ActiveWatch Première journée Cédric Simard - février 2001

  2. Objectifs de la formation • Acquérir une vision globale d’ActiveWatch™ • Comprendre le rôle de chaque module dans le processus de traitement d’information • Prendre la mesure de l’analyse sémantique selon Arisem • Identifier les facteurs clés de succès pour le lancement d’un premier arbre de veille • Prendre en main ActiveWatch™

  3. Place de cette formation parmi les autres :

  4. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  5. Présentation générale Présentation générale • Des informations diverses et variées dans et à l’extérieur de l’entreprise • Une couverture et une granularité différentes d’une même information pour une tâche donnée • Le besoin d’un référentiel commun • La solution : OpenPortal4U™

  6. Présentation générale OpenPortal Valoriser votre système d’information en fournissant des contextes dans lesquels l’information existante présente un sens pour l’utilisateur.

  7. Présentation générale Verticalisations OpenPortal4U Web Edition OpenPortal4U Enterprise Edition ActiveWatch CorporateMedia Dynamic Knowledge e-commerce Sites Web documentaires Marketplaces e-catalogs OpenPortal4U

  8. Présentation générale

  9. La solution ActiveWatch™ est dédiée à la veille. Elle a quatre fonctions principales : Elle est composée de 3 modules qui autorisent le paramétrage de la recherche, de l’analyse et du classement : • 2Crawl : recherche et surveillance sur Internet • - 2Class : classement automatique de documents • - 2MakeSense : paramétrage de l’analyse de l’information Présentation générale ActiveWatch • - recherche, collecte (orientée) et surveillance de l’information sur Internet • analyse et pré-qualification de cette information • classification des documents • publication de cette information (à venir)

  10. Présentation générale

  11. 2MakeSense 2Class L4U - module - fonction Présentation générale Les modules fonctionnels d’AW : 2Crawl • Rechercher • Idées • Conserver • les documents • pertinents Constituer un corpus Définir un univers textuel • Relations entre • les idées • Expression des • idées dans le texte • Assurer • le suivi des • documents • dans le temps Expliciter une thématique • Décomposer la thématique • dans un arbre de classement • Classer Publier dans un portail • Mettre à la disposition l’information structurée

  12. Elle permet de désambiguïser la polysémie d’une requête et/ou d’un document, en identifiant les concepts présents à l’intérieur d’un contexte. fruit? fruit + = Concept « avocat fruit  » Présentation générale La sémantique selon Arisem juriste? Document (extrait) : « Parmi les fruits les plus riches : avocat, banane, cassis, raisin noir… » L’ information textuelle n’est pas une suite de caractères sans signification, mais l’expression d’idées et de concepts ayant une signification propre dans un contexte donné.

  13. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  14. 1. Phase de réflexion et de formulation de la problématique La démarche de veille avec AW en 4 étapes La démarche de veille avec AW en 4 étapes Définition des objectifs et de la problématique : - quels sont les tenants et aboutissants de mon projet ? - quels sont les acteurs de ce projet ? - quel est le lexique utilisé par ces acteurs ? - quels sont les éléments de réponse que j’attends ? Préparation du travail à effectuer dans la base de connaissance : - formaliser l’expertise à travers le passage par l’écriture ; - lister le lexique professionnel relatif au projet ; - mettre en évidence les concepts justes et justes nécessaires;

  15. 2. Traduire les fondamentaux dans la base de connaissance 2MakeSense La démarche de veille avec AW en 4 étapes Transfert de connaissances vers l’outil d’analyse : - mise en évidence du niveau de connaissance de la base ; - inscription des concepts fondamentaux pour le projet ; - définition du projet par l’attribution de relations sémantiques ; - rattachement à la « réalité » par l’établissement d’un lexique métier. • Rendre l’outil expert pour effectuer l’analyse automatiquement : • capitaliser les connaissances internes ; • compléter les thèmes métiers ; • - désambiguïser des termes spécialisés.

  16. 3. Constitution et surveillance d’un corpus issu du Web Surveillance classique d’URLs ou de sites entiers La démarche de veille avec AW en 4 étapes L’heuristique de crawling : - recherche de documents à l’intérieur d’un tunnel sémantique - progression des agents sur l’architecture hypertexte - accès au Web non indexé - rapatriement des documents pertinents La surveillance automatique des documents découverts : - ré-accès programmé de l’ensemble du corpus - signalisation des modifications 2Crawl

  17. 4. Élaboration d’un arbre de classement et diffusion de l’information 2Class Prise en compte du Feed-back des utilisateurs La démarche de veille avec AW en 4 étapes Déterminer la vue logique, espace de représentation et d’organisation du corpus. Quelle navigation dans le corpus ? - objectif « documentaire » ou « de veille » ? - vision partagée par l’entreprise ou personnelle ? - degré de complexité du projet ? Maturité du projet : - arbre de classement évolutif ou figé ? - public utilisateur de l’arbre de classement ?

  18. Méthodologie de mise en oeuvre Quelques questions incontournables : • pourquoi souhaitez-vous effectuer une veille sur ce thème ? • à qui sont destinées les informations de cette veille ? • quel est le thème générique sur lequel est axée votre veille ? • quels en sont les sous-domaines identifiés ? • quels sont les résultats attendus ? Des éléments de réponses efficaces, pour définir : • la cohérence de l’arbre de classement (2Class) • la spécialisation et actualisation du langage d’analyse (2MS) • - la finesse et l’exhaustivité des WebSources (2Crawl) Une parfaite maîtrise des objectifs et une problématique clairement définie ... pour une mise en œuvre technique rapidement opérationnelle et efficace

  19. Méthodologie de mise en oeuvre Quelques outils pour initier la démarche • Progress4U, un espace d’explicitation - Un tableau d’explication et d’argumentation littéraire des principaux axes (notions, expressions) de la thématique (concepts clés et termes de la langue illustrant les divers enjeux du thème) - Une décomposition progressive de chaque idée pour extraire les concepts principaux, le vocabulaire (pour confronter ce premier capital à l’existant de la base de connaissance en vue de son enrichissement.) • GoOn4U, un espace d’agencement des items de couleurs, représentatifs des nœuds de différents niveaux d’un arbre de classement, à agencer, par copier/coller sur un espace de travail, et à intituler aux thèmes de la problématique générale traitée par l’arbre

  20. BU Animateurs Administrateurs Délimitation des rôles Gestion et paramétrage de la solution Commercial Marketing Experts Technologique Juridique Utilisation de la solution Méthodologie de mise en oeuvre Mais aussi … • Collecte de l’existant : • Documents illustrant la thématique • (Thesaurus) • Sources spécialisées identifiées (documents, Urls, …) • Définition des rôles

  21. Méthodologie de mise en oeuvre Comment sera utilisé l’outil ? Enrichir la base de connaissance Mettre en oeuvre des WebSources de veille Internet Construire des arbres de classement thématiques L’animateur L’administrateur A pour charge Permet de Mise à jour de la base de connaissance Alimentation des WebSources de veille Repérage et intégration des sources internes Mise en ligne des arbres de classement Audit et maintenance de la solution Explication des thèmes de veille Expression des besoins en information Production d ’information interne spécialisée Surveillance qualité du fond informationnel Commentaire du fond informationnel ont pour charge Permet de Les experts Accéder à l’information pertinente Identifier les compétences internes Rester au contact des évolutions Etre informé de façon ponctuelle Rendre compte de la diversité

  22. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  23. OpenPortal4U Web Édition OpenPortal4U Entreprise Edition ActiveWatch CorporateMedia Dynamic Knowledge Sites Web documentaires Marketplaces e-catalogs e-commerce Composants fonctionnels Modèle Objet L4U

  24. Présentation générale Introduction à l’analyse sémantique L’utilisation de la sémantique est au cœur des produits Arisem. - L4U (« Language for you »), le moteur d’analyse sémantique - 2MakeSense, l’éditeur de base de connaissance Le moteur d’analyse sémantique fournit une représentation conceptuelle d’un document et le qualifie Une base de connaissance multilingue (Français, Anglais, Allemand, Espagnol) permet d’identifier le contenu d’un document

  25. Génération d’un méta-texte à partir d’un texte (document, requête) Texte Métatexte L'échec traumatisant du vol inaugural du 4 juin 1996 ? Assimilé, digéré. Les problèmes techniques du deuxième lancement ? Réglés. Les modifications apportées au moteur Vulcain de l'étage principal cryotechnique ajoutées? [&échec*échec #échec $Echouer µNom $Problème $ChoseAbstraite $Chose &du *du µArticle &tir *tir #tir &inaugural Le Métatexte :une représentation désambiguïsée du contenu d’un texte

  26. Extrait pertinent 6 Édition d’un abstract Document Question Le rôle de L4U : l’analyseur sémantique L4U élabore le Métatexte du document (D) et de la question (Q) et les compare 3- Comparaison Métatextes 4- Évaluation recouvrement Note de pertinence 75/10 5 Calcul de pertinence 2- Écriture métatextes L4U 1- Lectures Q / D

  27. La note de pertinence Qualité Densité 75/10 Une note en 2 indices le degré de précision avec lequel le thème est exprimé dans le document Qualité Comment ? le degré de présence du thème dans le document, par rapport à l’ensemble des autres thèmes ou sujets contenus dans le document Densité Combien ?

  28. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  29. OpenPortal4U Web Édition OpenPortal4U Entreprise Edition ActiveWatch CorporateMedia Dynamic Knowledge Sites Web documentaires Marketplaces e-catalogs e-commerce Espaces personnels des Utilisateurs Sécurité Administration des agents Composants fonctionnels Modèle Objet L4U

  30. Utilisateur et son espace personnel • Tout utilisateur est représenté par un agent dans le système • Chaque utilisateur a son environnement de travail • Il contrôle ses propres objets de travail : • Arbres de classement, • Sources d’information, listes d’Urls

  31. Les utilisateurs du système Espace personnel de l’utilisateur Espace commun de tous les utilisateurs

  32. Objets des utilisateurs • L’utilisateur a un espace privilégié pour déposer ses documents. • Il peut en plus créer ses objets de travail à base de ces documents (recherches sur le web, arbre de classement)…

  33. Bookmark BookmarkList Un Bookmark

  34. Une seule poubelle - 2 vues différentes : • une poubelle personnelle, contenant les seuls objets que l’utilisateur connecté aura détruit ; • une vue présentant la poubelle générale, contenant l’ensemble des objets détruits par tous. • Un objet mis à la poubelle n’est pas détruit de manière permanente, il peut être restauré depuis la poubelle. • 2 options sont proposées : • le restore • la destruction définitive • La poubelle est un Agent en soit (on peut gérer sa puissance, la mettre en tâche de fond, l’arrêter/redémarrer ). Poubelle Note :Si l’objet contenu dans la poubelle n’est pas détruit, le nouvel objet crée (au même emplacement) de même nom, s’incrémentera d’un (1), (2), (3), etc… selon le nombre d’objet existant de même nom.

  35. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  36. Zoom sur les outils / Les agents Les Agents • Un agent gère l’activité d’un process • Un objet du système peut avoir un agent • Un agent permet d’attribuer un comportement dynamique à un objet du système. • Puissance répartie travail en tâche de fond

  37. Zoom sur les outils / Les agents Les agents • 2 types d’agents : • Agent simple : qui travaille (col bleu). • Exemple : un Feeder • Agent-manager : gère l’activité des autres agents (col blanc) • Exemple : l’Agent d’un User

  38. Zoom sur les outils / Les agents Agent ? (2) Un exemple avec les arbres de classement :

  39. Open Portal Zoom sur les outils / Les agents Architecture des agents • Le système (openportal.exe) coordonne des différents Agents. Classement des documents Recyclage des documents Alimentation des sources

  40. Zoom sur les outils / Les agents Hiérarchie des Agents • Les agents sont hiérarchisés • Un agent • est contrôlé par un Agentpère • contrôle un Agent fils

  41. Zoom sur les outils / Les agents Puissance des Agents • Pour chaque Agent est définie une puissance (power) • Cette puissance dépend de son agent père et de ses frères

  42. Zoom sur les outils / Les agents Calcul de la puissance Universe KMCommunity [10000] (90%) 11100 UrlAccess [1000] (9%) KMUser [100] ( 0,9%) Fred [5000] (45% de 0.9%) Cat [6000] (55% de 0.9%)

  43. Zoom sur les outils / Les agents En détails

  44. Zoom sur les outils / Les agents Interface d’administration

  45. Zoom sur les outils / Les agents Questions • Si le fils a une puissance supérieure au père que se passe-t-il ? • Question-piège. La puissance est relative (par rapport à celle du père considérée comme 100%) • Quelle est la puissance maximale possible ? • 10.000

  46. Plan de la formation • Présentation générale (OP4U, ActiveWatch™, sémantique, modules) • La démarche de veille avec AW en 4 étapes • Le mécanisme d’analyse de contenu • Présentation des outils mis en oeuvre (fonctions, terminologie) • Espace personnel utilisateurs : Arbres, WebSources, Bookmark • Administration des Agents • 2Crawl : gestion des WebSources • 2Class : Arbres de classement • Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ • Gestion de sécurité : visibilité, rôles • Traitement d’un cas concret : le commerce électronique • Best practices

  47. Résultats Principe de fonctionnement Zoom sur les outils / 2Crawl 2Crawl 2Crawl est le module d’exploration du web, qui découvre et surveille les documents provenant de l’Internet. Il est piloté par l’Agent CrawlSequencer. • L’utilisateur établit des profils de recherche : les WebSources • - Ces WebSources sont composés : • De points de départ vers des sites/moteurs : les gateways • Une question sémantique (query) pour filtrer les résultats pertinents • des agents d’exploration du Web (Feeders), basés sur les URL - Un ensemble de page valides et pertinentes, stockées en local, disponibles pour être ventilées dans un arbre de classement.

  48. Particularités doc.3 doc. doc. doc.n www.int. doc.2 doc.4 www.int. www.int. www.int. www.int. www.int. www.int. www.int. www.int. www.int. www.int. www.int. doc. non pertinent Zoom sur les outils / 2Crawl - La découverte de documents est optimisée par la capacité de crawling de l’outil Le crawling consiste à suivre les liens hypertextes contenus dans les pages de résultat identifiées comme pertinentes Le crawling est interrompu Simultanément N documents Le web non indexé par les moteurs de recherche est ainsi couvert et exploré de manière efficace (exploration pilotée par la pertinence)

  49. WebSource Feeder Gateway Zoom sur les outils / 2Crawl Paramétrage d’une WebSource s’appuie sur s’appuie sur • Objet personnel actif • Est composé de : • query (requête) • keywords (mots-clés) • feeder • Objet personnel actif • Est composé de : • gateway • On peut suivre son activité Objet standard passif • Est composé de : • URL (+ paramètres) • Types de gateway : • ParamURL (moteur) • One URL (URL simple) • serveur de mails (à venir) • serveur de news (à venir)

  50. Zoom sur les outils / 2Crawl La question sémantique pour filtrer les réponses renvoyées par les moteurs Les pages réponses pour la WebSource triées par pertinence Des Mots-clés pour obtenir des pages réponses Une gateway à attaquer (moteur Altavista)

More Related