1 / 23

جستجو در اينترنت با استفاده از زبان طبيعي فارسي

جستجو در اينترنت با استفاده از زبان طبيعي فارسي. دكتر محسن كاهاني گروه مهندسي كامپيوتر دانشگاه فردوسي مشهد kahani@um.ac.ir http://www.um.ac.ir/~kahani. فهرست مطالب. مقدمه پردازش زبان طبيعي ويژگيهاي زبان فارسي ساختار سيستم پياده سازي سيستم نتايج. مقدمه. گسترش كاربرد هاي اينترنت

Télécharger la présentation

جستجو در اينترنت با استفاده از زبان طبيعي فارسي

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. جستجو در اينترنتبا استفاده از زبان طبيعي فارسي دكترمحسن كاهاني گروه مهندسي كامپيوتر دانشگاه فردوسي مشهد kahani@um.ac.ir http://www.um.ac.ir/~kahani

  2. فهرست مطالب • مقدمه • پردازش زبان طبيعي • ويژگيهاي زبان فارسي • ساختار سيستم • پياده سازي سيستم • نتايج

  3. مقدمه • گسترش كاربرد هاي اينترنت • افزايش سايت هاي با مطالب عمومي (تجارتي، اطلاع رساني، سرگرمي و وبلاگ) • افزايش كاربران غير آكادميك • عدم آشنايي كاربران عادي با گزاره هاي جبري • مشكل جستجو در اينترنت

  4. راه حل • پذيرش جملات طبيعي (محاوره اي) توسط موتورهاي جستجو • فقط پشتيباني (محدود) از زبان انگليسي

  5. انگيزه پروژه • افزايش سايتهاي بزبان فارسي • افزايش كاربران فارسي زبان • مشكل جستجو در اينترنت براي كاربران عادي

  6. پردازش زبان طبيعي (NLP) • يكي از مقوله هاي مطرح در «هوش مصنوعي» • روند استفاده از كامپيوترها و نرم افزارها بسمت استفاده راحت تر كاربر(User Friendly) • پردازش گفتار • پردازش نوشتار

  7. مفاهيم و علوم مطرح در NLP • Phonological : تشيخص اصوات در لغات • Morphological:‌ علم لغت و « واژك ها » كه كلمات را تجزبه كند . • Syntactic : شناخت نحوي و گرامري • Semantic : معناي لغات و مفهوم عبارات تركيبي • Pragmatic : سطح بالاتري از علم كه دربارة معناي متفاوت يك جمله در متون مختلف قضاوت مي كند . • World : اطلاعات كلي كه شخص در برقراري ارتباط مي داند . شامل شناخت اهداف و عقايد ديگران نيز مي شود .

  8. ويژگيهاي زبان فارسي • حروف در زبان فارسي به يكديگر چسبيده مي شوند • اشكال متفاوتي بسته به محل كلمه • چداسازي كلمات با فاصله • درباره ترتيب اجزاء جمله قيد و محدوديت خاصي وجود ندارد.(free order) • وجود استثنائات زياد (مثلا امكان آوردن فعل مفرد براي فاعل جمع و بالعكس) • عدم وجود حروف بزرگ و كوچك (case) • عدم وجود نشانگر بين عبارات اسمي

  9. ساختار سيستم عبارت عبارت آناليز كننده نحوي (پارسر) درخت پيش پردازش منظم ورودي پارس شده مجموعه لغات فيلترها قواعد ( lexicon ) خاص درخت كامل عبارت جبري تبديل كننده آناليز كننده عبارت جبري محتوايي

  10. پيش پردازش

  11. فيلتر 1 شروع هدف : فعل هر جمله كنار اجزاي خود جمله و آخر جمله باشد مشخص كردنTockon هاي خالص اعمال قاعده 1 تنظيم فعل شمردن افعال جمله وجود فعل پيرو پيش از پايه اعمالقاعده 2 قاعده 2:جملات پيروي توصيفي كه در دل جمله پايه آمده باشند را از دل جملات پايه خارج مي كند. قاعده 1:تك جمله را به تك جمله اي كه فعل اش آخرش است تبديل مي كند. تصحيح حروف پايان

  12. فيلتر 2 هدف: مفعول در جمله موجود باشد و نسبت به تركيبات اضافي تقدم داشته باشد • تنظيم ترتيب اجزاي جمله (بعلت free order بودن زبان فارسي)

  13. فيلتر 3 هدف: تطابق و تغييرواژك هاي ورودي براساس لغاتlexicon • تنظيم جداكننده ها (white spaces) در ميان لغات يك جمله • تنظيم جداكننده هادر كلمات مركب

  14. فيلتر 4 هدف : حذف token هايي كه از ديد پروژه (با توجه به lexicon) غيرلازم اند • حذف حروف پشت سرهم (به لحاظ عملكرد خاص فيلتر 1 توليد شده اند) • اسامي خاصي از lexicon كه خصوصيت مشخصي داشته باشند ، مثلا (null) (قيد)N : كلمه اي كه نوع اش N باشد و خاصيت اش قيد باشد و عملگرش null و تهي باشد حذف مي شود.

  15. فرهنگ لغات (Lexicon)

  16. گرامر - ترمينالها Pss : حروف ربط مجاز بين دوجمله غيرپايه ، پيرو Pst : حرف ربط بعد جمله پايه (كه ) Ptt :حرف ربط بين دو جمله پيرو (و...) St1 : نوع جستجو (كتاب ، مقاله ، site ....) si: پيش عبارت اضافي مشخص كننده موضوع جستجو (درمورد و ....) pp: حرف ربط يا اضافه Vp: فعل جمله پايه Vt: فعل جمله پيرو N: اسم (اسم خاص يا يك ورودي در فرهنگ لغات ياخارج آن)

  17. گرامر – غير ترمينالها S: جمله يا جملات SP: جمله پايه ST: جمله پيرو Start : شروع جمله پايه SR: عبارت شامل موضوع درخواست MNP: عبارت اسمي شامل موضوع جستجو SRS: چندين SR SNP: موضوعات خالص Search با حروف ربط بين شان . NP: عبارت اسمي TSRS: تركيبات جستجو دار قبل از فعل در جمله پيرو

  18. قوانين گرامر SS Pss S SSP Pst ST | SP STST Ptt ST SPSRS Vp SRSSR “va” SRS | SR SR Start MNP1 | Start MNP2 Start  St | St “ra” MNP1 si + SNP

  19. قوانين گرامر- ادامه MNP2 SNP “ra” SNP NP pp SNP | NP ST TSRS+ Vt | TSRS’+Vt TSRS  MNP1 “va” TSRS | MNP1 TSRS’ MNP2 “va” TSRS | MNP2 NPN+NP | N St St1 St | St1

  20. مقالاتي در مورد پردازش زبان طبيعي مي خواهم پردازش زبان طبيعي

  21. اطلاعاتي درباره NLP بياب كه مربوط به زبان فارسي باشد NLP زبان فارسي

  22. نتيجه گيري و كارهاي آتي • ايجاد سيستم اوليه • كارهاي آتي • - ايجاد فيلتر قوي براي تبديل بهتر جملات به جملاتاستاندارد • تقويت گرامر براي پوشش بهتر • تكميل فرهنگ لغات

  23. سئوال؟ kahani@um.ac.ir

More Related