330 likes | 547 Vues
دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد. ترجمه ماشینی مبتنی بر آنتولوژی. Ontology based translation machine. به نام خدا. فهرست مطالب. مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی نتیجه گیری مراجع. 1. مقدمه- جایگاه و ضرورت.
E N D
دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد ترجمه ماشینیمبتنی بر آنتولوژی Ontology based translation machine
به نام خدا فهرست مطالب • مقدمه • آنتولوژی • وب معنایی • ترجمه ماشینی • ترجمه معنایی • نتیجه گیری • مراجع 1
مقدمه- جایگاه و ضرورت • ترجمه ماشینی • نانو تکنولوژی • بیوتکنولوژی • تکنولوژی اطلاعات • علوم شناختی • روباتیک و هوش مصنوعی و... • بیش از 6809 زبان متفاوت در دنیا وجود دارد • 239 زبان از این تعداد فقط در قاره اروپا استفاده می شود. • قاره آسیا 2196 زبان متفاوت را داراست. 2
آنتولوژی- تاریخچه • ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن 19 فلاسفه آلمانی آن را در مورد هستان شناسی و مطالعه چیستی به کار برده اند . • Human = Rational sensitive animate material Substance 3
آنتولوژی - تعاریف رسمی • Ontology is a term in philosophy and its meaning is ``theory of existence''. • Ontology is an explicit specification of conceptualization. • Ontology is a body of knowledge describing some domain, typically common sense knowledge domain. • تعریف دوم را که آقایThomas Gruber مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوش مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندسی کاربردی تر می باشد 4
آنتولوژی • Person A: "what is the last document you read ?" • Person B: "the article Gruber wrote on ontology in 1993." The syllogism "a article is a book" "a book is a document" so "a article is a document آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست. 5
وب معنایی • وب معنایی در واقع فضایی از جنس محاسبات هوشمند است که در آن کتابخانه ها ،دانش نامه ها ، روزنامه ها و سایر منابع دانش ، می توانند از محتوای معنایی یکدیگر، باخبر شدهو یکدیگر را درک نمایند. 7
ترجمه ماشینی– تاریخچه • دوره آغازین ایده اصلی ترجمه ماشین به قرن 17 بر می گردد و ابتدا با معرفی یک زبان ساختگیشروع شد. در سال 1629 توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی) • دوره رخوت در دهه 1960-1970 به این خاطر که طراحان و محققان این رشته ، متوجه رام نشدنی بودن این مسئله شدند، دچار رخوت و سستی گردید. • دوره حیات مجدد در اوایل دهه 80 که سخت افزار سیستم ها بابهبودخوبی روبرو شدند و هزینه ها هم به نوعی، کاهش پیدا کرد، دوباره علاقه به پیگیری موضوع هم بوجود آمد. 8
ترجمه ماشینی - دسته بندی • مستقیم - غیر مستقیم • زبان میانی– واسط انتقال دهنده • دامنه محلی - دامنه سراسری MT MAT HAMT MAHT 9
ترجمه ماشینی - انواع ترجمه ماشینی • سیستم های ترجمه مبتنی بر قاعده Rule based • سیستم های ترجمه مبتنی بر دانشKnowledge based • سیستم های ترجمه مبتنی بر مجموعه نوشتجاتCorpus based • مبتنی بر نمونه(مثال) Example based • مبتنی بر روشهای آماریStatistical • سیستم های ترکیبی Hybrid MT 10
ترجمه ماشینی - مبتنی بر روشهای آماری • ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری، بر روی دانشنامه های دو زبانی ترجمه هایی را تولید نمایند . • اولین نرم افزار ترجمه ماشینی به روش آماری CANDID از شرکت IBMبود . • Google برای سالها از Systran استفاده می کرد. از اکتبر سال 2007 به روشهای آماری روی آورد. • در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند . • شیوه کلی آنها در یک کلام بررسی دقیق ترجمه های انجام شده توسط انسان ، آموختن آن و سپس ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد . 11
ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه • مبتنی بر استنتاج قیاسی است Case base reasoning شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است • یک الگوریتمانطباق برای یافتن شبیه ترین عبارات به عبارت ورودی • یک الگوریتمانتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل • یک الگوریتمترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر 12
ترجمه ماشینی - ارزیابی سیستم های ترجمه • به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . • BLEU • NIST • F-Score • METEOR 14
ترجمه ماشینی - ارزیابی به روش Bleu در این معیار ارزیابی، میزان همبستگی بالا میان متن تولید شده توسط ماشین، و متن ترجمه شده توسط انسان به صورت کمی، مورد بررسی قرار گرفته است. m : در این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد . M : تعداد کل کلماتی است که در عبارت کاندید ظاهر شده است. -ارزیابی به روش NIST دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. 15
ترجمه ماشینی - ارزیابی به روش F-Score دو پارامتر p(precision) , r(recall) برای محاسبه دقت به صورت زیر محاسبه می شوند: p برابر است با تعداد نتایج صحیح، تقسیم بر تعداد کل نتایج برگشت داده شده. r برابر است با تعداد نتایج صحیح، تقسیم بر تعداد نتایجی که باید برگشت داده می شد. در حالت کلی به ازای عدد نامنفی بتا داریم: 16
ترجمه معنایی • . این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند واژه معادل و هم معنا را در زبان دوم پیدا نماید. • یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوماً زبان مبدا و نه در قالب زبان مقصد به گونه ای باز نمایی می کند. • از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد. مثلا رابطه معادل بودن. 17
ترجمه معنایی سیستم Mikrokosmos • معماری سیستم برای تحلیل متون ورودی خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیلهیک ساختار مستقل با نام TMR ارایه می گردد. 19
ترجمه معناییسیستم Mikrokosmos • سه سطح اول نمودار سلسله مراتبی آنتولوژی : Object ،Event ،Property 20
ترجمه معنایی – نقش آنتولوژی El grupo Roche adquirioDocteurAndreu گروه روشهDocteurAndreu را”تملک کردند“ یا ”آموختند“ . • adquirio دارای دو معنای ACQUIRE و LEARN • محدودیت های انتخابی، در آنتولوژی بر روی مفاهیم ACQUIRE و LEARN مشخص کننده این نکته هستند که اگر موضوع عبارت یک شی انتزاعی Abstract Object نیست معنی واژه adquirio عبارت ”تملک کردن“ است و نه“ آموختن“. • بعد از اینکه نام DocteurAndreu به عنوان نام یک شرکت(یک شی ء اجتماعی) شناسایی شد .معلوم می گردد که یک Abstract Objectنبوده و لذا معنی تملک کردند انتخاب می گردد. 21
ترجمه معناییسیستم Mikrokosmos • نمایش فریم مفهوم ACQUIRE به همراه نمایش بخشی از رکورد فعل اسپانیایی ‘adquirir’ در لغتنامه با نگاشت معنایی با ACUIRE , LERAN 22
ترجمه معنایی-ویژگیهای سیستم Micrososmos • بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد • سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند. • یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش، فراهم نماید. • امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد. • محدودیت های انتخابی را ذخیره نماید. • ابهامات معنایی را ازبین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان شباهت معنایی را تفسیر نماید . 23
ترجمه معنایی-ترجمه معنایی مبتنی بر نوشتجات نمونه • ایده اصلی: اضافه کردن اطلاعات RDF به نمونه های موجود در روش EBMT • مزایا : • یافتن عبارات همتراز میان متن و ترجمه • افزودن معنا به نمونه ها ی ترجمه • رفع ابهام مثال : دو جمله زیر در پایگاه نمونه ها موجود است Große Besonderheiten ↔ important peculiarities Große Städte ↔ big cities سوال : ترجمه عبارت زیر چیست: große Schlößer 24
ترجمه معنایی-ترجمه معنایی مبتنی بر نوشتجات نمونه große Schlößer Important peculiarities Big castle Big cities 25
ترجمه معنایی-چالشهای سیستم های ترجمه معنایی • بالا بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی • حجم بالای اندازه پایگاه دانش زبان های طبیعی • ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش • عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا • چالشهای مربوط به مسئله انطباق آنتولوژی ها • ... 26
نتیجه گیری • فرآیند ترجمه، یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست. • سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های طبیعی و ازطرف دیگر به مسئله درک معانی، توجه داشته باشد. • سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ، مبتنی بر نوشتجات نمونه و ترجمه ماشینی مبتنی بر روشهای آماری، می باشند. هر کدام از این روشها دارای نقاط قوت و ضعف اساسی می باشند: • در روشهایی مبتنی بر قواعد پیچیدگی نسبتاً زیادی موجود است • قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای است که عمل استنتاج با توجه به آنها صورت می گیرد. • در حال حاضر، بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای اخیر هم مورد استفاده ماشینهای ترجمه آنلاین از قبیل google قرار گرفته است. 27
نتیجه گیری • با این وجود، یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم، با آن دست به گریبانند، موضوع عدم توجه به معنا و مفاهیم درون متن می باشد. • مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها، موضوع استنتاج هایی آنتولوژیکی است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد. اهمیت این موضوع آنجا روشنتر می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن توجه به مفاهیم و معانی باشد. 28
مراجع • [RYC 2007] Rychtyckyj, N, “Machine Translation for Manufacturing”: AI Magazine Vol 28 No 3, 2007. • [Slo1985] Sloculn, J, “Survey of Machine Translation, Its History, Current Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985 • [BAR 2007] Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Example-based Translation System”: ICTIS, 2007 • [LOP 2008] Lopez, A, “Statistical Machine Translation”: ACM Computing Surveys, Vol. 40, No. 3, 2008. • [HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong, 2007 • [MAH 1996] Mahesh, K, “Ontology Development for Machine Translation: Ideology and Methodology”: Technical report, Computer Research Laboratory, New Mexico State University, 1996. • [HAH 2005] Hahn, W, “Knowledge Representation in Machine Translation”: Technical report, Computer Science Department, University of Hamburg, 2005 29
مراجع • [VER 2004] Vertan, C, “Language Resources for the Semantic Web – perspectives for Machine Translation”: Proceedings of the Second International Workshop on Language Resources for Translation Work, Research and Training, Coling. Geneva.37:42, 2004 • [GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on experience”, ACACIA Team, Rapport de Recherche 2002 • [ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer Faculty of Sharif University, 2007 • [OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”, Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in Prague, 2007. • [BER 2001] Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web: Scientific American," Scientific American, pp. 34-43, 2001. • [AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic Society of America. 1325 18th St, NW, Suite 211 Washington, D.C. 2004 • [CAR 2003] A-Way, and Carl, M. “Introduction to Example-based machine Translation”, Kluwer Academic Press, 2003 30
مراجع • [PAP 2002] Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318 • [HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. P 107 31