1 / 33

Capture de sites Web en ligne

Capture de sites Web en ligne. Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack). http://www.httrack.com. Pourquoi copier des sites web?. Archivage pour conservation et/ou historisation Archivage pour raisons légales Miroirs de sites pour des raisons de redondance

Télécharger la présentation

Capture de sites Web en ligne

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capture de sites Web en ligne Conférence B.N.F, Avril 2004Xavier Roche(HTTrack) http://www.httrack.com

  2. Pourquoi copier des sites web? • Archivage pour conservation et/ou historisation • Archivage pour raisons légales • Miroirs de sites pour des raisons de redondance • Copies pour une mise à disposition non connectée • Copies par des particuliers (copie privée) • Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site…

  3. Le « Web », qu’est-ce que c’est ? Internet Email mailto: HTTP HTTPS news: https: http: News ftp: FTP WWW file: Fichiers Ressources locales (fichiers)

  4. Un « serveur Web », qu’est-ce que c’est? Traitements Fichiers, archives Contenus Requêtes et contenus Éléments extérieurs (capteurs, etc.) Base de données Serveur Web Client

  5. Le serveur web: un « livreur » de contenus template.php Traitements Fichiers, archives table_001 Contenus Requêtes et contenus Éléments extérieurs (capteurs, etc.) Base de données Serveur Web Client « Page Web»

  6. Les documents hypertexte

  7. Les liens hypertexte

  8. Copie locale d’un « site Web» ?

  9. Copie locale d’un « site Web» template.php template2.php … table_001 table_002 … Serveur Web disque local Ressources locales (fichiers)

  10. Le « nommage » local des fichiers en ligne copiés

  11. Nommage des fichiers copiés • Exemple: fichier html Windows Linux/Unix

  12. Nommage : restrictions • Nommage des fichiers comportant des « caractères spéciaux »

  13. Nommage : duplications • Duplication de noms +

  14. Nommage : solutions • Résoudre les collisions + +

  15. Modification des liens hypertexte

  16. Les problèmes apparaissent!

  17. Les problèmes apparaissent! • Les liens: • <a href= 'page 2.html'> • <a href= "page%202.html"> • <a href= page%202.html> • <a href= "page 2 .html"> • <a href= "http:page 2.html"> • <a href= "//www.example.com/page 2.html"> • <a href= "page&nbsp;2.html"> • <a href<a href= "page2.html">>

  18. Les problèmes apparaissent! • Les formulaires:

  19. Les problèmes apparaissent! • Les formulaires (suite) :

  20. Les problèmes apparaissent! • Javascript :

  21. Les problèmes apparaissent! • Java :

  22. Les problèmes apparaissent! • Flash :

  23. Les problèmes apparaissent! • Fichiers hypertextes vs binaires (Java/Flash) : un fichier html un fichier « flash »

  24. Les problèmes apparaissent! • « Horodatage » intégré aux liens hypertexte http://www.example.com/page2.html?t=19993112235959999 • Liens multiples vers un seul document http://www.example.com/forum/article.php?id=1234 http://www.example.com/forum/article.php?id=1233&next http://www.example.com/forum/article.php?id=5678&previous http://www.example.com/forum/article.php?id=6548&previous10 http://www.example.com/forum/article.php?id=879&next10 ... • Etc etc etc

  25. Aperçu de quelques autres problèmes • Taille limite des fichiers • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites utilisant des « cookies » / des sessions • Fichiers locaux « Intranet » (file://) • Sites sécurisés (HTTPS) • Sites ftp • Sites accessibles via Ipv6 uniquement (recherche, universités)

  26. Mise à jour ?

  27. Mise à jour ? • Économie de bande passante • Économie de temps • Économie d’espace de stockage Document capturé le 15/01/2004 à 17h32 Une version plus récente est-elle disponible aujourd’hui ?

  28. Mise à jour « incrémentale » (1) document mis à jour depuis le 15/01/2004 à 17h32? interrogation du système de fichiers oui, nouveau document disponible

  29. Mise à jour « incrémentale » (2) le document « 098f6bcd4621d373cade4e832627b4f6 » est il périmé ? interrogation de la base de donnée oui, je vous transmet le document « ad0234829205b9033196ba818f7a872b»

  30. Les précautions à prendre lors de la capture d’un site

  31. Les précautions à prendre : surcharge du site • Limiter la bande passante et le nombre de connexions simultanées!

  32. Les précautions à prendre : aspects légaux ? • Copie privée / publique ? • Protection du site ? (loi n°95-597 du 1er juillet 1992 , art l 353-3 du CPI) • Statut d’un aspirateur de sites Web ? Navigateur? Robot? Proxy-cache?

  33. Conclusion • …

More Related