html5-img
1 / 12

SpringerMedizin Suchoptimierung Nemo-Projekt

SpringerMedizin Suchoptimierung Nemo-Projekt. Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014. 1. Agenda. Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned. 2. Aufgabe/Problem. 3. Vorgehen. Einarbeitung.

Télécharger la présentation

SpringerMedizin Suchoptimierung Nemo-Projekt

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1

  2. Agenda Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned 2

  3. Aufgabe/Problem 3

  4. Vorgehen Einarbeitung Solr konfigurieren Datenimport Suche Goldstandard 4

  5. DEMO 5

  6. Methodik Indizierung * Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration - XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert * Während der Indizierung copyFields für Suggester aufbauen - Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt Struktur der Indizierung: * Highlighting in Standart-Solr-Konfiguration vorhanden - Probleme mit Implementierung der hintereinander geschalteten Cores AuthorGroup AuthorName Author Core GivenName FamilyName Article Title Token + Synonym Article SubTitle Springer Core ... 6

  7. Methodik Synonyme Cancer of Breast, Breast Cancer Tumor Breasts Breast Cancer of Query Analyser Synonyme Index Analyser Query Cancer of Breast 7

  8. Methodik Datenstruktur/Gold SearchQuery“cancer” SearchResultsMapMap(docid,pos) SearchResultsMap(SearchQuery,SearchResults) SearchQueryExecution(SearchResults,SearchResults) Calculate Mean Reciprocal Rank SearchResult GoldResult Metric Table 8

  9. Ergebnis Goldstandart - Testframework auf Basis von Spring MVC Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissen zu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden. Indizierung der A++ Struktur Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt. SolrSuggester, InstantSearch, Autocomplete Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden 9

  10. Ergebnis Virtualbox * Virtualbox - Image - funktionsfähige Umgebung - Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen) - Auslieferung als .rar oder auch auf DVD möglich Bereitgestellte Dokumente how to setup virtualbox containing our solution https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29 how to setup project locally without virtualbox https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20project Info-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing 10

  11. Weiterführung • Highlighting für Synonyme implementieren • Goldstandard vervollständigen durch gezieltere Datenanalyse • Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework) • Authoren-Namen-Importfilter weiter optimieren • Synoymen Multi Wildcards • Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können. 11

  12. Lessons Learned • Apache Solr und Spring-Applikation in getrennten Repositories versionieren • Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung. • wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen 12

More Related