1 / 119

Module XML

Module XML. CURSUS DE FORMATION AUX NOUVELLES TECHNOLOGIES DE DEVELOPPEMENT. UV Java / XML. Module XML. Introduction : eXtensible Markup Language Premiers pas en XML Le langage de base XML par l’exemple Les DTD Les liens les feuilles de styles CSS et XSL. Introduction.

calder
Télécharger la présentation

Module XML

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Module XML CURSUS DE FORMATION AUX NOUVELLES TECHNOLOGIES DE DEVELOPPEMENT UV Java / XML

  2. Module XML • Introduction : eXtensible Markup Language • Premiers pas en XML • Le langage de base • XML par l’exemple • Les DTD • Les liens • les feuilles de styles • CSS et XSL

  3. Introduction • Buts de cet exposé • présentation de XML : un nouveau paradigme internet • parallèle avec SGML et HTML • Applications • publications de documents sur le web • préparation de corpus pour le TAL • exemple : le corpus prématurés (HTML -> XML) • présentations d ’outils XML

  4. Références bibliographiques • Manuels de référence • « XML, langage et applications », Alain Michard, Editions Eyrolles, 1999 (noté désormais [XML 99]) • « GUIDEXPRESS XML », Andréas Petrausch, Editions Micro Application, 2000 (noté désormais [XML 00]) • Autres manuels • http://tecfa.unige.ch/guides/xml/slides/xml.pdf

  5. Liens (1) • Pages sur le site TAL-Paris3 www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/cours/cours9.htm • Pages officielles sur l ’hypertoile • www.xml.org • www.w3.org • www.softwareag.com/xml/ • www.xmlsoftware.com • www.xml.com/pub • etc.

  6. Liens (2) • Pages sur l ’hypertoile à voir absolument pour commencer • XML expliqué aux débutants • http://www.chez.com/xml/initiation/ • Le langage XML • http://www.citeweb.net/apetitje/xml/ • Plus qu'un tutoriel ce site donne l'essentiel (centré MicroSoft)

  7. Logiciels/Utilitaires pour XML • Cf Site TAL pour un répertoire complet et adresses des outils à tester • Navigateurs/Editeurs : • IE 5, Netscape 6, XML Notepad, XML-Spy, Amaya, Exml, Zveno Swish XML Editor etc. • adresses sur le site TAL • Voir aussi : • Majix : programme Java pour convertir documents WORD (i.e RTF) vers XML • www.tetrasix.com

  8. Un peu d ’histoire : rappels • SGML (ISO standard 1986) • norme internationale pour la représentation des documents • langage trop complexe pour le WEB • HTML (1990…) • application « pauvre » de SGML pour le WEB • langage sémantiquement figé • XML (1997…) • une version simplifiée de SGML adaptée au WEB • standardisation en cours, langage ouvert • disponible avec IE 5, Netscape 5, 6 (?)

  9. Les limites HTML • HTML ne permet pas de "marquer" les informations en fonction de leur signification. • si l'on souhaite présenter des informations concernant la chimie ou la météorologie • pas de balises ATOM ou MOLECULE pour les chimistes, ni de balises CARTE ou TEMPERATURE pour les météorologues. • Il est hors de question de songer à intégrer de telles balises dans la norme HTML : • la prise en compte des spécificités de tous les métiers et de toutes les spécialisations est impossible

  10. HTML est fait pour être affiché dans un « browser » • pas pour échanger de l ’information entre programmes • HTML est faible pour l ’hypertexte • HTML ne respecte pas de sémantique formelle • on peut sans aucune contraintes, construire un document avec des balises H2, et sans balises H1. • Si ceci est acceptable en terme de rendu final du document, ce ne l'est en aucun cas en termes de sémantique du langage. • HTML est faible pour décrire le contenu d ’information • en HTML on ne sait faire que de la recherche « full-text » => beaucoup de bruit

  11. XML, version simplifiée de SGML pour le Web • La norme SGML n'a pas été retenue en raison de sa lourdeur et de sa complexité : • un très grand nombre de fonctionnalités qui sont très rarement utilisées • le support des différents jeux de caractères internationaux est quelque peu léger. • Le W3C a créé une norme plus simple, dérivée de SGML, et renforcée là ou SGML comporte des faiblesses. Cette norme est la norme XML.

  12. HTML vs XML

  13. Normalisation des documents • Structurer l ’information • pour la retrouver facilement • l ’utiliser dans des applications • Faire des hypertextes efficaces • Afficher et imprimer de manière flexible • Un format normalisé pour • diffuser, échanger, stocker, chercher...

  14. Module XML • Introduction • Premiers pas en XML • Le langage de base • XML par l’exemple • Les DTD • Les liens • les feuilles de styles • CSS et XSL

  15. Introduction par l ’exemple • Exemple : • Génération d ’un document XML • Affichage du document • Ajout d ’une feuille de style • raffinements...

  16. Création d ’un document XML avec WordPad

  17. Visualisation du document avec IE5

  18. Visualisation du document avec XML-Spy

  19. Ajout d ’une feuille de style (1) But : Ajout des attributs d ’affichage pour distinguer les éléments du document

  20. Ajout d ’une feuille de style (2) Création du fichier demo3.css

  21. Ajout d ’une feuille de style (3) Ajout de la spécification de la feuille de style demo3.css sur notre document

  22. Ajout d ’une feuille de style (4) Affichage avec IE5

  23. Ajout d ’une feuille de style (5) Affichage avec XML-Spy

  24. Module XML • Introduction • Premiers pas en XML • Le langage de base • XML par l’exemple • Les DTD • Les liens • les feuilles de styles • CSS et XSL

  25. Introduction à XML • Deux types de documents XML • Document bien formé : obéit aux règles syntaxiques du langage XML (document correct) • Document valide : document bien formé qui obéit en outre à une structure type définie dans une DTD

  26. Structure d ’un document • Un prologue • facultatif mai conseillé • Un arbre d ’éléments • le contenu propre du document • Commentaires et instructions de traitement • facultatifs, présents dans le prologue ou dans l ’arbre d ’éléments

  27. Le prologue • Une déclaration XML <?xml version=« 1.0 » encoding=‘ ISO-8859-1 standalone=yes> • Instructions de traitement • cf [XML 1999, (Chap1, 4.4.7)] • Une déclaration de type de document • indique le type de document auquel se conforme le document en question <!DOCTYPE rapport SYSTEM « rapport.dtd » [déclaration]>

  28. L ’arbre d ’éléments (1) • Un élément d ’un document XML • une balise d ’ouverture • le contenu de l ’élément • une balise de fermeture • Exemple : • <nom>contenu de l ’élément</nom>

  29. L ’arbre d ’éléments (2) • Tout élément fils de l ’arbre est complètement inclus dans son père • i.e. pas de recouvrement entre balises • Il existe un et un seul élément père qui contient tous les autres : l ’élément racine (root)

  30. Eléments et attributs • <NomElement [attribut1=‘ val1 ’…]> • une balise d ’ouverture se compose : • < • le nom de l ’élément • un ou plusieurs attributs pour décrire certaines propriétés de l ’élément • >

  31. Contenu d ’élément « visible » <personne> <nom>Serge Fleury</nom> <adresse>ILPGA</adresse> </personne> • Contenu d ’élément « invisible » <personne nom=« Serge Fleury » adresse=« ILPGA » </personne>

  32. Attribut prédéfini • Indication de langue • <p xml:lang=‘fr’>aquarelle</p> • <p xml:lang= ’en-GB’>Water</p> • <p xml:lang= ‘en_US’>Water</p> • la valeur de l ’attribut xml:lang est hérité dans l ’arbre des éléments

  33. Contenu d ’un élément • Un élément peut contenir • d ’autres éléments • des données • des références à des entités • des sections littérales • des instructions de traitement

  34. Données • Constituées par un flot de caractères • tous les caractères sont acceptés sauf le e commercial « & » et le caractère « plus petit que (<) »

  35. Références à des entités (1) • Entités prédéfinies • &lt; => < • &gt; => > • &amp; => & • &apos; => ‘  • &quot; => « 

  36. Références à des entités (2) • Références à des caractères • références décimales • &#60; => < • &#38; => & • références hexadécimales • &#003c; => < • &#0026; => & • utilisation des numéros que ces caractères ont dans les tables ISO 10646 ou Unicode

  37. Références à des entités (3) • Entités internes • il est possible de créer ses propres entités et d ’y faire référence dans le contenu des éléments <!ENTITY nom_entity « valeur_entity »>

  38. Sections littérales • Si l ’on souhaite insérer une longue suite de caractères « spéciaux » il est préférable d ’utiliser une section littérale ou CDATA : <![CDATA [<auteurs>S. Fleury &amp; al.</auteurs>]]> • réalisation : <auteurs>S. Fleury &amp; al.</auteurs>

  39. Instructions de traitement • Une indication de traitement est destinée aux applications qui manipulent les documents XML <?cible arg1 arg2 …?> • cible : nom de l ’application • arg1, arg2 : chaînes passées à l ’application

  40. Entités et notations (1) • Entités externes via URL <?xml version=« 1.0 »?> <!DOCTYPE livre [ <!ENTITY chap1 SYSTEM « chap1.xml »> <!ENTITY chap2 SYSTEM « chap2.xml »> <!ENTITY auteur «SF»>]> <livre> <titre>Mon livre</livre> <auteur>&SF;</auteur> &chap1; &chap2; </livre>

  41. Entités et notations (2) • Entités externes via identificateur public • cf [XML 1999] • Entités non XML • cf [XML 1999]

  42. XML et unicode • XML utilise le jeu de caractères de la norme ISO 10646 • les caractères alphabétiques, symboles, idéogrammes sont identifiés par un nombre codé sur 4 octets (32 bits) et sont décrits par une expression

  43. Stylistique XML : règle 1 • Il est recommandé d ’inclure dans un document XML des « métadonnées » qui pourront être utilisées par diverses applications : ces informations peuvent décrire le document ou une partie

  44. Stylistique XML : règle 2 • Il est recommandé de marquer toutes les constructions morpho-syntaxiques auxquelles devront être associées des règles de réalisation physique, typographique...

  45. Stylistique XML : règle 3 • Il est inutile d ’introduire dans un document des indications précises de réalisation physique

  46. Stylistique XML : règle 4 • Il est recommandé de marquer toutes les constructions morpho-syntaxiques qui ont une sémantique définie dans l ’univers du discours par un balisage spécifique • exemple : paragraphes, sections explicatives, notes supplémentaires, commentaires…

  47. Stylistique XML : règle 5 • Le choix de faire figurer une information comme valeur d ’attribut ou comme données dans un élément devra être mûrement réfléchi (cf supra).

  48. Module XML • Introduction • Premiers pas en XML • Le langage de base • XML par l’exemple • Les DTD • Les liens • les feuilles de styles • CSS et XSL

  49. Exemple : une lettre

  50. Exemple : une lettre

More Related