1 / 33

ترجمه ماشینی مبتنی بر آنتولوژی

دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد. ترجمه ماشینی مبتنی بر آنتولوژی. Ontology based translation machine. به نام خدا. فهرست مطالب. مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی نتیجه گیری مراجع. 1. مقدمه- جایگاه و ضرورت.

jody
Télécharger la présentation

ترجمه ماشینی مبتنی بر آنتولوژی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد ترجمه ماشینیمبتنی بر آنتولوژی Ontology based translation machine

  2. به نام خدا فهرست مطالب • مقدمه • آنتولوژی • وب معنایی • ترجمه ماشینی • ترجمه معنایی • نتیجه گیری • مراجع 1

  3. مقدمه- جایگاه و ضرورت • ترجمه ماشینی • نانو تکنولوژی • بیوتکنولوژی • تکنولوژی اطلاعات • علوم شناختی • روباتیک و هوش مصنوعی و... • بیش از 6809 زبان متفاوت در دنیا وجود دارد • 239 زبان از این تعداد فقط در قاره اروپا استفاده می شود. • قاره آسیا 2196 زبان متفاوت را داراست. 2

  4. آنتولوژی- تاریخچه • ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن 19 فلاسفه آلمانی آن را در مورد هستان شناسی و مطالعه چیستی به کار برده اند . • Human = Rational sensitive animate material Substance 3

  5. آنتولوژی - تعاریف رسمی • Ontology is a term in philosophy and its meaning is ``theory of existence''. • Ontology is an explicit specification of conceptualization. • Ontology is a body of knowledge describing some domain, typically common sense knowledge domain. • تعریف دوم را که آقایThomas Gruber مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوش مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندسی کاربردی تر می باشد 4

  6. آنتولوژی • Person A: "what is the last document you read ?" • Person B: "the article Gruber wrote on ontology in 1993." The syllogism "a article is a book" "a book is a document" so "a article is a document آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست. 5

  7. وب معنایی – اجزاء 6

  8. وب معنایی • وب معنایی در واقع فضایی از جنس محاسبات هوشمند است که در آن کتابخانه ها ،دانش نامه ها ، روزنامه ها و سایر منابع دانش ، می توانند از محتوای معنایی یکدیگر، باخبر شدهو یکدیگر را درک نمایند. 7

  9. ترجمه ماشینی– تاریخچه • دوره آغازین ایده اصلی ترجمه ماشین به قرن 17 بر می گردد و ابتدا با معرفی یک زبان ساختگیشروع شد. در سال 1629 توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی) • دوره رخوت در دهه 1960-1970 به این خاطر که طراحان و محققان این رشته ، متوجه رام نشدنی بودن این مسئله شدند، دچار رخوت و سستی گردید. • دوره حیات مجدد در اوایل دهه 80 که سخت افزار سیستم ها بابهبودخوبی روبرو شدند و هزینه ها هم به نوعی، کاهش پیدا کرد، دوباره علاقه به پیگیری موضوع هم بوجود آمد. 8

  10. ترجمه ماشینی - دسته بندی • مستقیم - غیر مستقیم • زبان میانی– واسط انتقال دهنده • دامنه محلی - دامنه سراسری MT MAT HAMT MAHT 9

  11. ترجمه ماشینی - انواع ترجمه ماشینی • سیستم های ترجمه مبتنی بر قاعده Rule based • سیستم های ترجمه مبتنی بر دانشKnowledge based • سیستم های ترجمه مبتنی بر مجموعه نوشتجاتCorpus based • مبتنی بر نمونه(مثال) Example based • مبتنی بر روشهای آماریStatistical • سیستم های ترکیبی Hybrid MT 10

  12. ترجمه ماشینی - مبتنی بر روشهای آماری • ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری، بر روی دانشنامه های دو زبانی ترجمه هایی را تولید نمایند . • اولین نرم افزار ترجمه ماشینی به روش آماری CANDID از شرکت IBMبود . • Google برای سالها از Systran استفاده می کرد. از اکتبر سال 2007 به روشهای آماری روی آورد. • در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند . • شیوه کلی آنها در یک کلام بررسی دقیق ترجمه های انجام شده توسط انسان ، آموختن آن و سپس ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد . 11

  13. ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه • مبتنی بر استنتاج قیاسی است Case base reasoning شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است • یک الگوریتمانطباق برای یافتن شبیه ترین عبارات به عبارت ورودی • یک الگوریتمانتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل • یک الگوریتمترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر 12

  14. ترجمه ماشینی - ترجمه آنلاین 13

  15. ترجمه ماشینی - ارزیابی سیستم های ترجمه • به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . • BLEU • NIST • F-Score • METEOR 14

  16. ترجمه ماشینی - ارزیابی به روش Bleu در این معیار ارزیابی، میزان همبستگی بالا میان متن تولید شده توسط ماشین، و متن ترجمه شده توسط انسان به صورت کمی، مورد بررسی قرار گرفته است. m : در این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد . M : تعداد کل کلماتی است که در عبارت کاندید ظاهر شده است. -ارزیابی به روش NIST دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. 15

  17. ترجمه ماشینی - ارزیابی به روش F-Score دو پارامتر p(precision) , r(recall) برای محاسبه دقت به صورت زیر محاسبه می شوند: p برابر است با تعداد نتایج صحیح، تقسیم بر تعداد کل نتایج برگشت داده شده. r برابر است با تعداد نتایج صحیح، تقسیم بر تعداد نتایجی که باید برگشت داده می شد. در حالت کلی به ازای عدد نامنفی بتا داریم: 16

  18. ترجمه معنایی • . این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند واژه معادل و هم معنا را در زبان دوم پیدا نماید. • یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوماً زبان مبدا و نه در قالب زبان مقصد به گونه ای باز نمایی می کند. • از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد. مثلا رابطه معادل بودن. 17

  19. ترجمه معناییسیستم Mikrokosmos 18

  20. ترجمه معنایی سیستم Mikrokosmos • معماری سیستم برای تحلیل متون ورودی خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیلهیک ساختار مستقل با نام TMR ارایه می گردد. 19

  21. ترجمه معناییسیستم Mikrokosmos • سه سطح اول نمودار سلسله مراتبی آنتولوژی : Object ،Event ،Property 20

  22. ترجمه معنایی – نقش آنتولوژی El grupo Roche adquirioDocteurAndreu گروه روشهDocteurAndreu را”تملک کردند“ یا ”آموختند“ . • adquirio دارای دو معنای ACQUIRE و LEARN • محدودیت های انتخابی، در آنتولوژی بر روی مفاهیم ACQUIRE و LEARN مشخص کننده این نکته هستند که اگر موضوع عبارت یک شی انتزاعی Abstract Object نیست معنی واژه adquirio عبارت ”تملک کردن“ است و نه“ آموختن“. • بعد از اینکه نام DocteurAndreu به عنوان نام یک شرکت(یک شی ء اجتماعی) شناسایی شد .معلوم می گردد که یک Abstract Objectنبوده و لذا معنی تملک کردند انتخاب می گردد. 21

  23. ترجمه معناییسیستم Mikrokosmos • نمایش فریم مفهوم ACQUIRE به همراه نمایش بخشی از رکورد فعل اسپانیایی ‘adquirir’ در لغتنامه با نگاشت معنایی با ACUIRE , LERAN 22

  24. ترجمه معنایی-ویژگیهای سیستم Micrososmos • بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد • سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند. • یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش، فراهم نماید. • امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد. • محدودیت های انتخابی را ذخیره نماید. • ابهامات معنایی را ازبین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان شباهت معنایی را تفسیر نماید . 23

  25. ترجمه معنایی-ترجمه معنایی مبتنی بر نوشتجات نمونه • ایده اصلی: اضافه کردن اطلاعات RDF به نمونه های موجود در روش EBMT • مزایا : • یافتن عبارات همتراز میان متن و ترجمه • افزودن معنا به نمونه ها ی ترجمه • رفع ابهام مثال : دو جمله زیر در پایگاه نمونه ها موجود است Große Besonderheiten ↔ important peculiarities Große Städte ↔ big cities سوال : ترجمه عبارت زیر چیست: große Schlößer 24

  26. ترجمه معنایی-ترجمه معنایی مبتنی بر نوشتجات نمونه große Schlößer Important peculiarities Big castle Big cities 25

  27. ترجمه معنایی-چالشهای سیستم های ترجمه معنایی • بالا بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی • حجم بالای اندازه پایگاه دانش زبان های طبیعی • ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش • عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا • چالشهای مربوط به مسئله انطباق آنتولوژی ها • ... 26

  28. نتیجه گیری • فرآیند ترجمه، یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست. • سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های طبیعی و ازطرف دیگر به مسئله درک معانی، توجه داشته باشد. • سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ، مبتنی بر نوشتجات نمونه و ترجمه ماشینی مبتنی بر روشهای آماری، می باشند. هر کدام از این روشها دارای نقاط قوت و ضعف اساسی می باشند: • در روشهایی مبتنی بر قواعد پیچیدگی نسبتاً زیادی موجود است • قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای است که عمل استنتاج با توجه به آنها صورت می گیرد. • در حال حاضر، بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای اخیر هم مورد استفاده ماشینهای ترجمه آنلاین از قبیل google قرار گرفته است. 27

  29. نتیجه گیری • با این وجود، یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم، با آن دست به گریبانند، موضوع عدم توجه به معنا و مفاهیم درون متن می باشد. • مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها، موضوع استنتاج هایی آنتولوژیکی است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد. اهمیت این موضوع آنجا روشنتر می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن توجه به مفاهیم و معانی باشد. 28

  30. مراجع • [RYC 2007] Rychtyckyj, N, “Machine Translation for Manufacturing”: AI Magazine Vol 28 No 3, 2007. • [Slo1985] Sloculn, J, “Survey of Machine Translation, Its History, Current Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985 • [BAR 2007] Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Example-based Translation System”: ICTIS, 2007 • [LOP 2008] Lopez, A, “Statistical Machine Translation”: ACM Computing Surveys, Vol. 40, No. 3, 2008. • [HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong, 2007 • [MAH 1996] Mahesh, K, “Ontology Development for Machine Translation: Ideology and Methodology”: Technical report, Computer Research Laboratory, New Mexico State University, 1996. • [HAH 2005] Hahn, W, “Knowledge Representation in Machine Translation”: Technical report, Computer Science Department, University of Hamburg, 2005 29

  31. مراجع • [VER 2004] Vertan, C, “Language Resources for the Semantic Web – perspectives for Machine Translation”: Proceedings of the Second International Workshop on Language Resources for Translation Work, Research and Training, Coling. Geneva.37:42, 2004 • [GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on experience”, ACACIA Team, Rapport de Recherche 2002 • [ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer Faculty of Sharif University, 2007 • [OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”, Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in Prague, 2007. • [BER 2001] Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web: Scientific American," Scientific American, pp. 34-43, 2001. • [AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic Society of America. 1325 18th St, NW, Suite 211 Washington, D.C. 2004 • [CAR 2003] A-Way, and Carl, M. “Introduction to Example-based machine Translation”, Kluwer Academic Press, 2003 30

  32. مراجع • [PAP 2002] Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318 • [HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. P 107 31

  33. با سپاس از شما 32

More Related