1 / 39

⑨ ניתוח תחבירי

⑨ ניתוח תחבירי. סמינר בבלשנות חישובית חורף 2013, מדעי המחשב, הטכניון בלאל כבת ודור ניסנהאוז בהנחיית: פרופ' עוזי אורן. ניתוח תחבירי. ניתוח תחבירי של טקסט בשפה טבעית הוא תהליך ניתוח לפי חוקי השפה, לקבלת מידע אודות חלקי הדיבר והקשר ביניהם לצורך הבנת המשפט.

booth
Télécharger la présentation

⑨ ניתוח תחבירי

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ⑨ניתוח תחבירי סמינר בבלשנות חישוביתחורף 2013, מדעי המחשב, הטכניון בלאל כבת ודור ניסנהאוז בהנחיית: פרופ' עוזי אורן

  2. ניתוח תחבירי ניתוח תחבירי של טקסט בשפה טבעית הוא תהליך ניתוח לפי חוקי השפה, לקבלת מידע אודות חלקי הדיבר והקשר ביניהם לצורך הבנת המשפט. הדבר בולט יותר כאשר ניגשים למשפט בשפה זרה כאשר אין אנו מבינים את המשמעות הסמנטית שלו.

  3. דוגמה: ניתוח קלאסי ללטינית בלטינית, הפעלים מורכבים מ"שורש" המוטה ע"י הוספת סיומות שונות. לכן ניתן להסיק במבט אחד מהו חלק הדיבר של המילה ומה נטייתה.למשל, השורש VIDEO מוטה לגוף שלישי יחיד, פעיל, בעבר ל-VIDIT.בגוף ראשון נטה VIDI (כמו ב-VENI, VIDI, VICI=באתי, ראיתי, כבשתי). מילות שיעבוד נפוצות: אשר=QUOD, מי (נקבה)=QUAE, מי (זכר)=QUI, אם=SI, לא=NE, על מנת=UT, ב=CUM.

  4. דוגמה: ניתוח קלאסי ללטינית RESPONDIT PILATUS: QUOD SCRIPSI SCRIPSI תחילה מגלים את הפועל שאינו משועבד ע"י QUOD, QUAE, QUI ולא ע"י אחת מהמלים SI, NE, UT, CUM וכדומה. נציינו כפועל עיקרי: RESPONDIT PILATUS: QUOD SCRIPSISCRIPSI (הפעל השני, SCRIPSI, הוא היחיד שמשועבד ע"י QUOD) • נמצא את הנושא, שהוא שם המתאים בגוף במין ובמספר ונמצא ביחסת נומינטיב המתארת את הנושא (ולפעמים גם את הנשוא). RESPONDITPILATUS: QUOD SCRIPSI SCRIPSI (PILATUS שם ביחסת נומינטיב יחידה. כלומר שם בצורתו הבסיסית)

  5. דוגמה: ניתוח קלאסי ללטינית RESPONDITPILATUS: QUOD SCRIPSI SCRIPSI נמצא תארים, ביטויי מספר וכדומה הקשורים לשם זה. אלה יצוינו כלוואים. (במקרה זה אין כאלה). נשים לב כי QUOD משעבד את הפועל שאחריו (SCRIPSI) ונגיע למסקנה כי מדובר בפסוקית. ננתח את הפסוקית: (QUOD) SCRIPSI • הפסוקית מתארת את הנשוא SCRIPSI ולכן היא מושאו. • נושא המשפט הוא "אני" כיוון שמדובר בנטיית גוף ראשון יחיד. • פירוש: השיב פילאטוס:"כתבתי את אשר כתבתי" • מסקנה: מספיק להכיר חוקי דקדוק ותחביר כדי להגיע להבנת המשפט.

  6. דוגמה מיפנית בשפה היפנית ניתן להבחין בפעלים בקלות יחסית ע"י סימנים חיצוניים פשוטים: תחילה תופיע סימניית קאנג'י (אות ממע' הכתב הסינית), כדוגמת 信言読起聞書. לאחריה יהיה רצף אותיות מההיראגאנה (מע' כתב אחרת) כמו あいうえおかきくけこ.למשל: 言う,起きる (לקום, להגיד) קיימים מקרים ספורים בהם הפועל נכתב בהיראגאנה בלבד:くる,する,やる(לבוא, לעשות, לעשות [משלב לשוני נמוך]). ניתן גם ליצור פועל משם פועל ע"י הוספת する מיד אחריו כמו ב-料理する (בישול+לעשות=לבשל). ביפנית נטיות היחסה מצוינות ע"י מיליות הנכתבות בהיראגאנה בלבד: は/が(נושא),を(מושא).

  7. דוגמה מיפנית お前を信じる俺を信じろ! (omae o shinjiru ore o shinjiro!) גם עבור מי שלומד את השפה היפנית המשפט עצמו מבלבל ויש צורך לנתחו כדי להבין אותו טוב יותר. תחילה נאתר פעלים ונסמנם בכתום, דבר שנעשה בקלות ע"י סימנים חיצוניים פשוטים: お前を信じる俺を信じろ! (omae o shinjiru ore o shinjiro!) • רואים מיד שאחד הפעלים (信じる, shinjiru) צמוד לש"ע (俺, ore) ומסיקים כי מדובר בפועל משועבד. נסמן פסוקית זו בקו תחתון.

  8. דוגמה מיפנית お前を信じる俺を信じろ! (omae o shinjiruore o shinjiro!) נסמן בצהוב את המושאים של הפעלים ע"י מילית יחסת המושא を (o): お前を信じる俺を信じろ! (omae o shinjiruore o shinjiro!) • תרגום לעברית: האמן בי שמאמין בך!

  9. הוראת התחביר העברי בלימודי הלשון מקובל ללמד ניתוח תחבירי באופן סמנטי. בתחילה מגדירים תפקיד, והוא מודגם ברשימה של משפטי דוגמה.למשל: נושא -הדבר שעליו סובב המשפט. לאחר מכן מציעים זיהוי באמצעות שאלה מתאימה.למשל: נושא -על מי מדובר? התלמיד נדרש להבין את המשפט באופן סמנטי על מנת לנתח אותו.

  10. הקושי שבדרך זו כאשר ניתקל במשפט שאיננו מבינים כיצד נוכל לנתחו? אם נרצה לבנות מכונה שתנתח משפטים באופן זה, היא תצטרך להבין את המשפט לפני שניתחה אותו!

  11. הניתוח המכאני ניתוח מכאני הוא אלגוריתם אותו יכול להריץ מחשב או אדם על טקסט ולקבל את ניתוחו התחבירי. עליו להסתמך על סימנים חיצוניים בלבד. כלומר יש להימנע ממצב בו נדרשת הבנה של המשפט לצורך ניתוחו. שכן, מעשה זה הופך את הניתוח התחבירי לחסר ערך.

  12. מה מרגיש תלמיד לעברית? נניח שנרצה לנתח את המבע הבא:"רכון גחון יושב לו הפחר, כמין כסול שקלבוסתו רוצצה, ובקיחה ידוש מתוך הקוזזה פסכתר אחר פסכתר -והסמבוק נובל." אין אנו יכולים להבין את המשפט, שכן איננו מבינים אף מילה כמעט. ומכאן שלא ניתן לנתחו בצורה המסורתית. אבל לניתוח המבוסס על ידע דקדוקי ותחבירי דבר זה לא יפריע. למשל, נוכל לזהות את ה' היידוע של הפחר, הקוזזה והסמבוק מתוך ההיכרות עם ה' הידיעה בשפה העברית. נוכל גם להתאים מין ומספר: פחר->לו, קלבוסה/ת->רוצצה, כסול->קלבוסתו.

  13. הניתוח הוא אמצעי עזר בלבד לעיתים ההסתמכות על סימנים חיצוניים עלולה להטעות. לדוגמה, המשפט "אבנים שחקו מים." עשוי להביא אותנו לחשוב שהאבנים הם אלה שבצעו את הפעולה. הפתרון: המנתח התחבירי ייתן לנו את כל המבנים התחביריים האפשריים של המשפט הנתון. המשתמש (או אפילו שירות חיצוני, בשלב הבא בתוכנה המפענחת משפטים) יבחר את המשמעות המתאימה.

  14. יתרונות הניתוח התחביריהלא סמנטי לא צריך להבין את המשפט כולו על מנת להתחיל לנתחו. מציאת רב משמעות: - מניעת מצב בו רק משמעות אחת תתקבל. - מאלץ להתייחס ליתר הטקסט לבחירת המשמעות הנכונה ביותר. - יתרון דידקטי:אילוץ הרחבת הדעת - יתרון דידקטי נוסף: הלומד בדרך זו יהיה מודע לאפשרות של רב משמעות וידע להביע את עצמו ולבקר אחרים.

  15. כיצד ננתח משפטים בעברית? כיום אין מנתח תחבירי מושלם לשפה העברית. ובוודאי שאין מנתח כזה שיודע לנצל מידע מהעולם לטובת הניתוח. קיום מנתח תחבירי מכאני המנתח משפט בודד (פשוט יותר) עשוי להביא מספר ניתוחים תחביריים שונים הוא שימושי בכל זאת. מנתח כזה יפלוט את כל הניתוחים הקיימים. רב משמעות: יהיה על המשתמש לבחור את הניתוח הסביר בעזרת המידע שברשותו. כאשר המחשב יפעיל שירות זה ויצטרך לבחור מביניהם, לא תמיד יוכל להחליף את בני האדם בעניין זה (בכל אופן, לא בימינו).למשל, בהינתן המשפט "דנה התקשרה למרצה מהטכניון." נוכל לבחור בין המקרה בו מדובר בדנה שמחייגת מהטכניון או במקרה בו דנה מחייגת למרצה המרצה בטכניון. אם אנחנו יודעים שדנה הייתה בבית כל היום נבחר באפשרות השנייה, שכן נוכל לפסול את האפשרות הראשונה.

  16. כיצד ננתח משפטים בעברית? כיוון שלא קיים מנתח תחבירי מכאני מבוסס על סימנים חיצוניים בלבד, ניאלץ להשתמש בשיטות שונות לזיהוי חלקי המשפט. נאמץ שיטות אלה, המבוססות על ידע דקדוקי ותחבירי של דובר העברית או תוכנה יעודית (ולא על ידיעותיו הסמנטיות), בעת הפעלת אלגוריתם לניתוח תחבירי.

  17. זיהוי תפקידי מילים במשפט למנתח האנושי יש מספר כלים אינטואיטיביים לגילוי תפקידי מילים וצירופים במשפט. רובם מבוססים על היכולת לדעת מתי אוסף של מילים הוא משפט תקין או לא. דוגמה אחת לבעיה שמנתח מכאני צריך להתמודד איתה היא מקרים בהם הפועל במשפט אינו פועל אמיתי, אלא בצורת בינוני ("מקרר", "מאוורר"). הקושי הוא בכך שלא ניתן מיד לקבוע כי פעלים אלה הם אכן נשואים במשפט כיוון שהם עשויים להיות גם בעלי תפקידים אחרים ("הוא מאוורר את החדר." לעומת "היום קניתי מאוורר חדש."). נוכל להעביר לזמן עבר את המשפט ולבדוק אם הוא תקין. אם אכן תקין -זהו נשוא: "הוא אוורר את החדר." לעומת "היום קניתי אוורר חדש.".

  18. ניתוח לדוגמה נשוא נשוא אתמול ראיתי את הנער שעובד בצרכנייה הקטנה של הקיבוץ ונופפתי לו. שלב ראשון: סימון כל הנשואים נשוא

  19. ניתוח לדוגמה נשוא נשוא אתמול ראיתי את הנער שעובד בצרכנייה הקטנה של הקיבוץ ונופפתי לו. שלב שני: סימון סימני השעבוד בקו מאונך מימינם וסימון כל מילות החיבור ב+. נשוא +

  20. ניתוח לדוגמה מושא נשוא מושא תיאור זמן לואי לואי נשוא אתמול ראיתי את הנער שעובד בצרכנייה הקטנה של הקיבוץ ונופפתי לו. שלב שלישי: סימון גבולות חטיבות פנימיות משועבדות תוך זיהוי תפקידים מקוננים. בתוך החטיבות יש לזהות את הנושאים של הנשואים המשועבדים (כאשר לעיתים הוא חלק מהנשוא עצמו). מושא נשוא +

  21. ניתוח לדוגמה לואי נושא נשוא מושא נושא נשוא מושא תיאור זמן לואי לואי אתמול ראיתי את הנער שעובד בצרכנייה הקטנה של הקיבוץ ונופפתי לו. שלב רביעי: מהסוף להתחלה נזהה נושא כל אחד מן הנשואים הלא משועבדים. לאחר מכן, זיהוי תפקיד כל מילה שאינה משועבדת וכל חטיבה סגורה. נושא נשוא מושא +

  22. בלשנות מבנית הבלשנות המבנית היא גישה בלשנית המתמקדת במבנה המשפט הבודד והיא עוסקת בעיקר בשפה הכתובה. גישה זאת מגבילה את הדיון למידע שבתוך המשפט ומתעלמת ממידע ממחוצה לו ומהתאמות בין משפטיות (למשל במין ובמספר). אם נצא מתחומה אפשר להציע קבוצת כללים חדשה למבנים של יותר ממשפט אחד.

  23. תוויות בעברית, ה' היידוע היא תווית מידעת (לוואי תווית שמצביע על כך שיש התאמה בין העצם המסומן לבין עצם אחר שסומן קודם לכן בטקסט). יש להזכיר גם תוויות סותמות (שהן לוואי תווית שבאות להדגיש שלא בהכרח קיימת התאמה: "אנשים אחדים", "איש כלשהו"). יש לשים לב שהקשר אינו תחום למשפט, אלא לטקסט כולו, ובפרט למשפטים שבאו לפני המשפט המדובר. הערה: יתכן שלא קיים משפט כזה בטקסט או בפני השטח, אבל כוונת הכותב ברורה. לדוגמה, במשפט "על שפת הכביש עמד איש. האיש היה לבוש מעיל." יש סימון ברור לה' הידיעה המשמשת את המילה "איש", אבל אין סימון למילה "כביש". כלומר, הכביש קיים ויוצאים מתוך הנחה שידוע באיזה כביש מדובר.

  24. האפשרויות הגלומות בקשרי קבע בין מבנים תחביריים באמצעות היציאה מחוץ לתחום המשפט הבודד נוכל לפתור מקרים של דו-משמעות תחבירית שלא יכולנו לפתור קודם.לדוגמה: "אבנים שחקו מים. במשך השנים התפוררו האבנים."עתה ברור כי הכוונה היא שהמים הם אלו ששחקו את האבנים, וזאת מבלי להתייחס לידע שמחוץ למסגרת הטקסט. ניתן גם לקבוע תבנית גזירה של משפטים בדומה לדרך שבה אנו קובעים נטיות של מילים. למשל, נוכל להגיד שהמשפט "הילד אכל תפוח." קשור למשפט "התפוח נאכל על ידי הילד." בקשר של גלגול מפעיל לסביל.

  25. ניתוח דקדוקי לנטיות השם מוטיבציה: ניתן למצוא התאמות במין, מספר והטיות נוספות באמצעות ניתוח דקדוקי של כל אחת מהמילים במשפט. אם ניתן לגזור שם מוטה ע"י דקדוק (מתמטי) הרי שניתן יהיה לנתחו חזרה באמצעים שונים. אחד מהם הוא ניחוש ע"י מכונת מצבים סופית אי-דטרמיניסטית מייצגת של בניית מילים בשפה.

  26. שימוש במכונת מצבים ∑ \{#}:∑\{#] בעזרת FSM אי-דטרמיניסטית ניתן לבנות מילים נטויות לפי הוספת הצורנים ברמת התיאוריה. את המכונה ניתן להריץ "הפוך" (מהפלט לקלט) על מנת לקבל ניתוח של המילים. דוגמה: פלטים:sus susim קלטים:sus sus#CR #: ε CR:{im,ot} ε: ε

  27. שלבים בבנייה באלגוריתם לדוגמה 1) הצבת סימן + לאחר כל משתנה. $EM יסמן שם בצורתו המילונית. על מנת להציב את ערכו של השם, נכתוב אותו באותיות קטנות. צורה כללית: $EM  $EM+ 5 דוגמאות לבנייה כאשר ש"ע המטרה מעל לביטוי (אם לא הופעל כלל, יצבע בירוק כהה): מורִי מורַי סוסות more+ more+ susa+ סוסתכם סוסותיכם susa+ susa+

  28. שלבים בבנייה 2) אם ברצוננו להוסיף צורן נטייה נבצע שלב זה ונוסיף את סימן המשתנה CN אחרי השם. צורה כללית: $EM  $EM+CN+ 5 הדוגמאות: מורִי מורַי סוסות more+CN+ more+CN+ susa+CN+ סוסתכם סוסותיכם susa+CN+ susa+CN+

  29. שלבים בבנייה 3) אם השם מסתיים בתנועה e (יסומן ב$EMe) ויש אחריו צורן נטייה, מחק תנועה זו. הקו האלכסוני מציין מימינו את התנאי להפעלה. צורה כללית: e  φ/$EM_+CN+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN+ mor+CN+ susa+CN+ סוסתכם סוסותיכם susa+CN+ susa+CN+

  30. שלבים בבנייה 4) בחר אחת מקבוצות צורני הנטייה CN1 או CR כאשר CN1 מתאים לצורן שייכות המתחבר לשם יחיד, בעוד ה-CR יציין ריבוי של השם היחיד. צורה כללית: CN {CN1,CR}/$EM+_+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor+CR+ susa+CR+ סוסתכם סוסותיכם susa+CN1+ susa+CR+

  31. שלבים בבנייה 5+6) אם נבחר CR והשם מסתיים בתנועה a, מחק אותה.אם נבחר CN1 והשם מסתיים בתנועה a, הוסף t אחריה. צורה כללית: a φ/$EM_+CR+ aat/$EM_+CN1+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor+CR+ sus+CR+ סוסתכם סוסותיכם susat+CN1+ sus+CR+

  32. שלבים בבנייה 7) אם בחרת במשתנה CR, ניתן להוסיף צורן נטייה. במידה ולא מעוניינים, יש לדלג ישירות לשלב 9. צורה כללית: $EM+CR$EM+CR+CN+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor+CR+CN+ sus+CR+ סוסתכם סוסותיכם susat+CN1+ sus+CR+CN+

  33. שלבים בבנייה 8) צורן הנטייה שנבחר יהיה חייב להיות מהצורה CN2 (לשם בריבוי). צורה כללית: CNCN2/$EM+CR+_+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor+CR+CN2+ sus+CR+ סוסתכם סוסותיכם susat+CN1+ sus+CR+CN2+

  34. שלבים בבנייה 9) אם יש משתנה CR בביטוי, יש להמירו בצורן ריבוי ע"פ צורת השם המקורית. אם מסתיים ב-a נחליף ב-ot, אחרת ב-im. אם כתוב אחרת במילון, יש ללכת על פיו: CR{im,ot}/$EM+_+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor+im+CN2+ sus+ot+ סוסתכם סוסותיכם susat+CN1+ sus+ot+CN2+

  35. שלבים בבנייה 10) אם צורן הריבוי הוא im ויש אחריו צורן נטייה CN2, מחק את im: imφ/$EM+_+CN2+ 5 הדוגמאות: מורִי מורַי סוסות mor+CN1+ mor++CN2+ sus+ot+ סוסתכם סוסותיכם susat+CN1+ sus+ot+CN2+

  36. שלבים בבנייה 11-12) המר את CN2 ו-CN1: CN1 {i,ka,ek,o,ah,enu,kem,ken,am,an} CN2{ay,eika,ayk,aw,eiha,einu,eikem,eiken,eihem,eihen} 5 הדוגמאות: מורִי מורַי סוסות mor+i+ mor++ay+ sus+ot+ סוסתכם סוסותיכם susat+kem+ sus+ot+eikem+

  37. שלבים בבנייה 13) מחק את סימני ה-+ וסיים: + φ 5 הדוגמאות: מורִי מורַי סוסות mori moray susot סוסתכם סוסותיכם susatkem susoteikem

  38. ניתוח לפי האלגוריתם האלגוריתם שהוצג מאפשר לנו לנחש ניתוח מסוים ולבחון אותו. למשל, את המילה מורִי ניתן לנתח באופן הבא: בשלב הראשון נרצה להוסיף + במקומות המתאימים. לכן נחפש פתרון לפי שלבים 11-12. כיוון שזיהינו צורן נטייה אפשרי i השייך לCN1 (המוכל בCN). נפעיל לאחור את שלב 13: mori  mor+i+. ולאחריו את שלבים 11-12 לקבלת mor+i+  mor+CN1+ חוקים 5-10 לא פעלו. נבדוק אפשרות לפעולה של שלב 3: אם לא פעל, הרי שעלינו לחפש במילון את mor, אחרת את more. מסקנת הניתוח: השם המקורי היה "מור" או "מורה" וצורן הנטייה הוא של גוף I מדבר.

  39. ביבליוגרפיה מאמר על יציאה מתחום המשפט הבודד, המשפט הפשוט,14-22 הניתוח המכאני, המשפט הפשוט,167-197 (= לשוננו תשי"ט) ניתוח דקדוקי של נטיות השם,סוגיות דקדוק לדוגמה, 266-263 הערך "לטינית" בויקיפדיה

More Related