Presentation Spark NLP
Spark NLP est une bibliothu00e8que de traitement de texte open source pour le traitement avancu00e9 du langage naturel pour les langages de programmation Python, Java et Scala.
Presentation Spark NLP
E N D
Presentation Transcript
Johnsnowlabs Une entreprise spécialisée dans l'IA et le traitement automatique des langues pour les soins de santé, fournit des logiciels, des modèles et des données de pointe pour aider les organisations de soins de santé et de sciences de la vie à élaborer, déployer et exploiter des projets d'IA. 1
Johnsnowlabs Aperçu historique 3
Johnsnowlabs la recherche et l'éducation 5
Johnsnowlabs la recherche et l'éducation 6
Johnsnowlabs Prix 8
Plan 1 Spark NLP: une lecture singulière 2 Travaux connexes 3 Description de la solution 4 Benchmark 5 Démonstration 9
Travaux connexes Description de la solution Spark NLP: une lecture singulière Conclusion Benchmark Définition Spark NLP est une bibliothèque open source de traitement du langage naturel, construite sur Apache Spark et Spark ML. Il fournit une API facile à intégrer à ML Pipelines et est pris en charge commercialement par John Snow Labs. spark.ml est un, nouveau package introduit dans Spark qui vise à fournir un ensemble uniforme d'API de haut niveau qui aident les utilisateurs à créer et à régler des pipelines d'apprentissage automatique pratiques Apache Spark ™ est un moteur multilingue pour l'exécution de l'ingénierie des données, de la science des données et de l'apprentissage automatique sur des machines ou des clusters à nœud unique. 10
Travaux connexes Description de la solution Spark NLP: une lecture singulière Conclusion Benchmark Exigence Spark NLP est construit sur Apache Spark 3.x . Pour utiliser Spark NLP, vous avez besoin de : • Java 8 • Apache Spark 3.1.x(ou 3.0.x, ou 2.4.x, ou 2.3.x) • Python 3.8.xsi vous utilisez PySpark3. • Python 3.6.xet 3.7.xsi vous utilisez PySpark2.3.xou2.4.x Il est recommandé d'avoir une connaissance de base du framework et d'un environnement de travail avant d'utiliser Spark NLP. Veuillez vous référer à la documentation Spark pour démarrer avec Spark. 11
Travaux connexes Description de la solution Spark NLP: une lecture singulière Conclusion Benchmark Un aperçu des composants de Spark NLP 12
Travaux connexes Description de la solution Spark NLP: une lecture singulière Conclusion Benchmark Fonctionnalités PNL 13
Travaux connexes Description de la solution Spark NLP: une lecture singulière Conclusion Benchmark Un aperçu des composants de Spark NLP Formable pour comprendre votre langue 14
Description de la solution Travaux connexes Spark NLP: une lecture singulière Benchmark Démonstration Travaux connexes 15
Description de la solution Travaux connexes Spark NLP: une lecture singulière Benchmark Démonstration Travaux connexes Spark NLP pour la santé 01 Spark OCR vous permet de transformer avec précision des fichiers PDF, DOCX, DICOM et image en texte numérique avec des algorithmes intégrés 02 Laboratoire d’annotation 03 Le moyen le plus rapide pour les équipes d'entreprise d'annoter des données et de former de nouveaux modèles - GRATUITEMENT 04 Bibliothèque de données comprend plus de 2 200 ensembles de données organisés par des experts qui sont prêts à être téléchargés et utilisés dans votre projet 16
Travaux connexes Description de la solution Spark NLP: une lecture singulière Démonstration Benchmark SPARK NLP 03 02 01 Les Pipelines LesTransformateurs LesAnnotateurs 01 tous les annotateurs sont soit des estimateurs, soit des transformateurs, comme dans Spark ML. Le transformateur est généralement le résultat d'un processus d'ajustement et applique des modifications à l'ensemble de données cible 02 Les pipelines sont un mécanisme permettant de combiner plusieurs estimateurs et transformateurs dans un seul flux de travail 03 17
Travaux connexes Description de la solution Spark NLP: une lecture singulière Benchmark Démonstration Les annotateurs 01 LesAnnotateurs 18
Travaux connexes Description de la solution Spark NLP: une lecture singulière Benchmark Démonstration Les annotateurs 01 LesAnnotateurs 19
Travaux connexes Description de la solution Spark NLP: une lecture singulière Démonstration Benchmark Les annotateurs : exemples 01 LesAnnotateurs 20
Travaux connexes Description de la solution Benchmark Conclusion Introduction Les modèles pré-entrainés :exemple 01 LesAnnotateurs 21
Travaux connexes Description de la solution Benchmark Conclusion Introduction Les transformeurs: exemples 01 LesAnnotateurs 22
Travaux connexes Description de la solution Benchmark Conclusion Introduction Affichage PNL Spark • Spark NLP Display est une bibliothèque python open source permettant de visualiser les annotations générées avec Spark NLP. Il propose actuellement une prise en charge prête à l'emploi pour les types d'annotations suivants : • Analyseur de dépendance • Reconnaissance d'entité nommée • Résolution d'entité • Extraction de relations • Statut d'assertion 01 LesAnnotateurs 23
Travaux connexes Description de la solution Benchmark Conclusion Introduction Servir Spark NLP : MLFlow sur Databricks 01 LesAnnotateurs 24
Description de la solution Travaux connexes Conclusion Benchmark Introduction 25
Description de la solution Travaux connexes Conclusion Benchmark Introduction 26
Description de la solution Travaux connexes Conclusion Benchmark Introduction 27
Description de la solution Travaux connexes Spark NLP: une lecture singulière Démonstration Benchmark 28
Description de la solution Travaux connexes Spark NLP: une lecture singulière Démonstration Benchmark Benchmark GPU vs CPU GPU CPU Un Tesla V100 SXM2GPU avec 32GBde la mémoire Une machine AWS m5.8xlargea été utilisée pour l'analyse comparative du CPU. Cette machine se compose de 32 vCPUset 128 GB of RAM 29
Description de la solution Travaux connexes Spark NLP: une lecture singulière Démonstration Benchmark Benchmark GPU vs CPU GPU CPU Un Tesla V100 SXM2GPU avec 32GBde la mémoire Une machine AWS m5.8xlargea été utilisée pour l'analyse comparative du CPU. Cette machine se compose de 32 vCPUset 128 GB of RAM 30
Description de la solution Travaux connexes Spark NLP: une lecture singulière Démonstration Benchmark Benchmark GPU vs CPU Machine Intel i5, 4 cœurs, 16 Go de mémoire 31
Description de la solution Travaux connexes Benchmark Conclusion Introduction Conclusion Utilisée dans des projets d'entreprise, construite nativement sur Apache Spark et TensorFlow et offrant des solutions NLP de pointe tout-en-un, la bibliothèque Spark NLP fournit des notations NLP simples, performantes et précises pour les pipelines d'apprentissage automatique qui peuvent évoluer facilement dans un environnement distribué. 33
Description de la solution Travaux connexes Benchmark Conclusion Introduction Conclusion 34
Références : https://nlp.johnsnowlabs.com/ https://nlp.johnsnowlabs.com/api/python/reference/autosummary/sparknlp/base/document_assembler/index.html#sparknlp.base.document_assembler.DocumentAssembler https://nlp.johnsnowlabs.com/docs/en/serving_spark_nlp_via_api_databricks_mlflow https://spark.apache.org/docs/latest/ml-statistics.html https://nlp.johnsnowlabs.com/2021/11/22/sentiment_vivekn_en.html https://towardsdatascience.com/introduction-to-spark-nlp-foundations-and-basic-components-part-i-c83b7629ed59 https://nlu.johnsnowlabs.com/docs