1 / 21

مباحث علمي در پياده سازي موتور جستجوي قرآني وب

به نام خدا. مباحث علمي در پياده سازي موتور جستجوي قرآني وب. دانشگاه صنعتي شريف دانشکده مهندسي کامپيوتر سمينار کارشناسي ارشد. استاد راهنما : دکتر قدسي استاد مشاور: دکتر ابوالحسني ارائه دهنده : مجتبي محمدي نصيري 84206861. فهرست. تعريف پروژه جستجو در وب کارهاي مرتبط اجزاي موتور جستجو

lovie
Télécharger la présentation

مباحث علمي در پياده سازي موتور جستجوي قرآني وب

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. به نام خدا مباحث علمي در پياده سازيموتور جستجوي قرآني وب دانشگاه صنعتي شريف دانشکده مهندسي کامپيوتر سمينار کارشناسي ارشد استاد راهنما : دکتر قدسي استاد مشاور: دکتر ابوالحسني ارائه دهنده : مجتبي محمدي نصيري 84206861

  2. فهرست • تعريف پروژه • جستجو در وب • کارهاي مرتبط • اجزاي موتور جستجو • راهکارهاي پيشنهادي • نتيجه‌گيري • مراجع موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  3. تعريف پروژه موتور جستجوي قرآني وب • سيستم بازيابي اطلاعات وب بر اساس کليد واژه • نتايج قرآني : مستنداتي که قسمتي از قرآن در آنها آمده است • پرس جوي قرآني : کليد واژه‌ها عربي و از کلمات موجود در قرآن قرآني وب موتور جستجوي وب موتور جستجوي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  4. مشکلات اطلاعات وب و راه حلها • حجم بالاي اطلاعات • نياز به موتور‌هاي جستجو براي کاربر امروزي • نتايج متنوع و در زمينه‌هاي مختلف • نياز به موتورهاي خاص منظوره و تخصّصي مثل شيمی و بيولوژی • اطلاعات غلط و غيرعلمي • ايجاد پايگاه‌هاي تخصّصي وب و مرجع موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  5. علوم اسلامي در وب • همان مشکلات گفته شده • راه حل‌هاي گفته شده هنوز انجام نشده‌اند • کم بودن پايگاه‌هاي تخصّصي قرآني در وب • وجود نداشتن پايگاه مرجع قوي در پژوهش‌هاي قرآني • کاربردهايِ ديگرِ پروژه • جستجو در متون اسلامي • جستجو در يک اينترانت بر روي مستندات معتبر موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  6. کارهاي مرتبط • جستجوي عربي وب • http://www.google.com/intl/ar • جستجو در متن قرآن و کتابهاي اسلامي • http://www.searchquran.org • ارتباط بين قرآن و متون اسلامي (10/ 2006) موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  7. URL Server Store Server Crawler Repository Anchors URL Revolver Indexer Lexicon Links Barrels Doc Index Sorter Page Rank Searcher ساختمان يک موتور جستجو Crawler خزشگر زير سيستم‌هاي موتور جستجو Indexer انديس‌گذار Searcher & Ranker جستجوگر و رتبه‌بند موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  8. خزشگر(Crawler) • هدف • جمع‌آوري و ذخيره مستندات وب • چالش‌ها • نياز به منابع شبکه زياد • تعيين اولويت پيمايش صفحات • آدرس‌‌هاي تکراري و پيموده شده • صفحات متقلب • همزماني دسترسي به منابع(در خزشگر‌هاي موازي) موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  9. انديس‌گذار(Indexer) • هدف • ايجاد فهرستي از اطلاعات لازم مستندات براي جستجوي درست و سريع • مسائل • روش انديس‌گذاري : مستقيم يا معکوس • تعيين اطلاعات لازم يک مستند • نحوه نگهداري انديس‌ها (ساختار داده‌ي مناسب) • تعيين کلمات بسيار متداول و يا اصطلاحاً کلمات توقف(stop words) • فشرده‌کردن انديس‌ها • ريشه‌يابي کلمات (stemming) • بروزرساني يا افزايش : انديس‌گذاري دسته‌اي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  10. جستجو و رتبه‌بند (Searcher & Ranker) • هدف • ارائه نتايج جستجو، به ترتيب اهميت و ميزان ارتباط با پرس‌جو • اطلاعات رتبه‌بندي • اطلاعات مربوط به متن صفحه • اطلاعات مربوط به لينک‌‌هاي بين اين صفحه و صفحات ديگر • انواع رتبه‌بندي بر اساس لينک‌ها • شبکه‌‌هاي اجتماعي(Social Networks) • PageRank موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  11. جستجو و رتبه‌بند (Searcher & Ranker) ادامه... • مسائل • جستجوي ترکيب‌ منطقي از کلمات (و، يا، نفي، ...) • گسترش پرس‌جو • ريشه‌يابي کلمات پرس‌جو، • اضافه‌کردن کلمات مترادف يک کلمه • اضافه‌کردن کلماتي که از نظر املائي نزديک به کلمه مورد نظر هستند؛ چون ممکن است کاربر يا نويسنده مستند، در املاي کلمه اشتباه کرده باشد. • ترجمه‌کردن کلمات به زبانمستندات موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  12. راهکارهاي انجام پروژه • خزشگر کانوني (Focus Crawler) • فوق موتور جستجو (Meta Search Engine) • انديس‌گذاري بر اساس رابطه‌ي آيات و مستندات موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  13. خزشگر کانوني(Focus Crawler) • تعريف : • الگوريتم جستجوي بهترين اول(Best First Search) • جمع‌آوري مستندات مرتبط با يک زمينه‌ي خاص • مزايا • حذف بسياري از صفحات وب قبل از جمع‌آوری • کنترل مرتبط با قرآن بودن نتايج از همين ابتدا • نياز کمتر به منابع شبکه‌اي • معايب • پيچيدگي الگوريتمي و نياز به منابع پردازشي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  14. فوق موتور جستجو (Meta Search Engine) • سه رويکرد • رتبه‌بندي دوباره • فيلترکردن نتايج • گسترش پرس‌جو • مزايا • پياده‌سازي ساده‌تر • معايب • زمان پاسخ‌گويي سيستم بالا • نياز به منابع شبکه‌ي زياد • عدم تضمين مربوط بودن نتايج به قرآن موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  15. انديس‌گذاري بر اساس رابطه‌ي آيات و مستندات • دو مرحله • مدل‌کردن رابطه‌هاي بين آيات • مدل‌کردن ارتباط مستندات و آيات • سه پيشنهاد • استفاده از کلمات مشترک • استفاده از محلکلمات مشترک • هستان‌شناسيبراي مفاهيم قرآن و ايجادپايگاه دانش موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  16. انديس‌گذاري بر اساس رابطه‌ي آيات و مستندات (ادامه...) • مزايا • تضمين ارتباط مستندات بازيابي شده با قرآن • با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت‌‌ پرس‌جو‌‌هاي به زبان‌هاي ديگر • گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسلامي‌و قرآني (با اجرای پيشنهاد سوم) • معايب • مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستان‌شناسي • نياز به تخصص بالايي درعلوم قرآني بخصوص در پيشنهاد سوم موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  17. نتيجه‌گيري • سه راهکار بالا در تضاد با هم نيستند و با کمي تطبيق مي‌توان در يک موتور به کار روند. • با توجه به مزايا و معايب • راهکار سوم قابل اجرا در يک سال نيست • راهکار دوم نتايج مطلوب را ايجاد نمی‌کند  تمرکز ما در اين مرحله بر روي خزشگر کانوني است موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  18. مراجع • Blaz N. A survey of focused web crawling algorithm. SIKDD'04, 2004. • Brin S. and Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine.1998(Extended in 2003). • Noordin, M.F. Othman, R. An Information Retrieval System for Quranic Texts: A Proposed System Design. ICTTA'06. 2nd Information and Communication Technologies, 2006. • Pretschner A. Ontology Based Personalized Search. Master 's thesis, The University of Kansas, Lawrence, KS, 1999. موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  19. مراجع (ادامه...) • Ah Chung Tsoi. Forsali, D. Gori, M. Hagenbuchner, M. Scarselli F. A Simple Focused Crawler. 2003. • Aljlayl, M. and Frieder, O. On Arabic Search: Improving the Retrieval Effectiveness via a Light Stemming Approach, ACM Eleventh Conference on Information and Knowledge Management, Mclean, VA, November, 2002. • Angkawattanawit N., Rungsawang A., Learnable Crawling: An Efficient Approach to Topic-specific Web Resource Discovery. 2002. • Charu C. Aggarwal, Fatima Al-Garawi, and Philip S. Yu. Intelligent crawling on the World Wide Web with arbitrary predicates. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. • Ehrig M. and Maedche A.. Ontology-focused crawling of Web documents. In Proc. of the 2003 ACM symposium on Applied computing, Melbourne, Florida, 2003. • Rachidi, T.   Iraqi, O.   Bouzoubaa, M.   Khattab, A.B.E.   Kourdi, M.E.   Zahi, A.   Bensaid, A. Barq: distributed multilingual internet search engine with focus on Arabic language. IEEE International Conference on Systems, Man and Cybernetics, 2003. موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  20. پايگاه‌هاي مرجع • http://www.searchquran.org/ • http://www.google.com/intl/ar/ • http://scholar.google.com • http://www.searchengineguide.com/pages/Science/Biology • http://scitech.quickfound.net/biology_medical_news_search.html • http://chemfinder.cambridgesoft.com/ • http://www.chemindustry.com/ موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

  21. با تشکر از توجه شما موتور جستجوی قرآنی وب - مجتبی محمدی نصیری

More Related