1 / 45

הומולוגים רחוקים

הומולוגים רחוקים. מציגים : ענת בר-סלע, ערן מריומה 18 במרץ, 2002 סמינריון בביולוגיה חישובית. חלבונים עם אותו אב קדמון קרויים הומולוגים. בעלי מבנה מרחבי משותף. בדרך כלל בעלי אתרים פעילים ואזורי קישור דומים. לעתים יש לחלבונים הומולוגיים תפקוד דומה. הסקה לגבי תכונות של רצף נתון.

Télécharger la présentation

הומולוגים רחוקים

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. הומולוגים רחוקים מציגים:ענת בר-סלע, ערן מריומה 18 במרץ, 2002 סמינריון בביולוגיה חישובית

  2. חלבונים עם אותו אב קדמון קרויים הומולוגים • בעלי מבנה מרחבי משותף. • בדרך כלל בעלי אתרים פעילים ואזורי קישור דומים. • לעתים יש לחלבונים הומולוגיים תפקוד דומה.

  3. הסקה לגבי תכונות של רצף נתון • מתכונות חלבונים הומולוגיים נובעת היכולת ללמוד על חלבון חדש ע"י מציאת חלבונים הדומים לו. • השיטה החזקה ביותר לצורך כך – השוואת הרצף למסד נתונים המכיל רצפים אחרים. • זהו הכלי החזק ביותר בשל השימור האבולוציוני של המבנה של חלבונים דומים המחייב שימור של הרצף. • שיטה זו התפתחה מאוד בתקופה האחרונה בשל שיפור המחשבים, האלגוריתמים ופיתוח מסדי הנתונים הביולוגיים.

  4. שתי שיטות לשימוש יעיל בדמיון רצפי להסקת מידע ולמציאת הומולוגים • חיפוש התאמה המתפרשת על אזור גדול ולא רק על מוטיב קצר. • בחינה מחדש של רצפים שבהתאמה ראשונית קיבלו ניקוד גבוה, אך לא היו בעלי חשיבות סטטיסטית מספקת.

  5. חיפוש התאמה על פני אזור גדול ולא במוטיבים קצרים • טעות נפוצה – דמיון מבני מתמקד באתר הפעיל. למעשה זה כך רק לעיתים נדירות. • עבור תכונות שנבעו מהצטלבות אבולוציונית רצפי מוטיבים מספקים מידע רב. • עבור תכונות של חלבונים הומולוגים, הנובעות מן האב הקדמון המשותף, רצפי מוטיבים הינם רק עדות לשימור הרצפים באותה משפחה. • רצפים המותאמים בקטע ארוך, בעלי משמעות ביולוגית גדולה מאשר רצפים המותאמים על קטע קצר, גם אם ההתאמה פחות מדויקת.

  6. חשיבות סטטיסטית לעומת חשיבות ביולוגית • חשיבות סטטיסטית מעידה לרוב על אב קדמון משותף, ולפיכך על הומולוגיה. • חוסר חשיבות סטטיסטית לא בהכרח מעיד על חוסר הומולוגיה. ניתן לבדוק מחדש רצפים שהיו בעלי חשיבות סטטיסטית נמוכה, כיוון שיתכן שהם בעלי חשיבות ביולוגית.

  7. דמיון רצפי בהעדר הומולוגיה • לא מספק מידע על דמיון מבני או תלת מרחבי – חלבונים בעלי ציון השוואה גבוה שאינם הומולוגיים, בדרך כלל אינם בעלי מבנה מרחבי דומה למרות הדמיון הרצפי. • ניתוח מדויק של רצפים כאלו מאפשר: • אישוש של אמינות החישובים הסטטיסטיים. • לשמש לזיהוי חלבונים בעלי הומולוגיה "חלשה", הרחוקים יותר באבולוציה במשפחת החלבונים מרצף השאילתא.

  8. BLAST

  9. מהו BLAST? • Basic Local Alignment Search Tool • מאפשר השוואה בין חלבונים ורצפי DNA בקומבינציות שונות. כאשר משווים DNA לחלבון יש לבדוק את כל 6 מסגרות הקריאה. • זהו למעשה אלגוריתם הסתברותי המשפר באופן ניכר את זמן הריצה של האלגוריתם המקורי (Smith & Waterman) אשר מתבסס על תכנות דינאמי – הסיכוי להחמיץ רצף כלשהו קטן ככל שציונו עולה. • משתמש בתיאוריה סטטיסטית ע"מ לקבוע האם התאמה מסוימת יכולה להתרחש במקרה.

  10. הגדרות • מטריצת החלפה (substitution matrix): מטריצה בגודל 2020 הנותנת ציון לכל התאמה של 2 ח. אמינו. עבור מרווחים (Gaps) נגדיר ציון באופן דומה. • מילה (word): תת-רצף קצר בעל אורך קבוע w. • סף התאמה ראשונית T: הציון המינימלי למילה, אשר עבורו נבצע הארכה לחיפוש אחר התאמה בקטע ארוך יותר.

  11. מטריצת BLOSUM62

  12. אופן פעולת ה- BLAST האלגוריתם מתבסס על ביצוע התאמות מקומיות: רק חלק מהרצף צריך להיות בהתאמה. • סורקים את מסד המידע עבור קטעים המתאימים למילים שעוברים בציונם את הסף T (“Hits”), כאשר הציון נקבע עפ"י מטריצת ההחלפה. • מבצעים הארכה של מילים אלו בחיפוש אחר אזורים בעלי ציון התאמה מקסימלי. אזור זה נקרא HSP – High Scoring Segment Pair

  13. גמישות האלגוריתם • האלגוריתם מאפשר לווסת בין רגישותו לבין זמן הריצה שלו – לפי ערך הפרמטר T: • T נמוך – סיכוי נמוך להחמצת התאמות רצפים אך זמן הריצה גדל. • T גבוה – סיכוי גבוה יותר להחמצת התאמות רצפים אך זמן הריצה מתקצר.

  14. זמן ריצה • זמן הריצה של BLAST הינו O(nm): • n = אורך החלבון הנבדק. • m = אורך הרצף אליו משווים (אורך מסד המידע). • זמן הריצה תלוי גם בהרכב החלבון הנבדק ובהרכב מסד המידע.

  15. מעט סטטיסטיקה כל החישובים הסטטיסטיים הבאים לא הוכחו עבור שיטות שנציג להלן, אך יש להן גיבוי אמפירי מבוסס. • הגדרנו באמצעות מטריצת ההחלפה ציון לכל התאמה בין 2 ח. אמינו. • ניתן באמצעות פרמטרים סטטיסטיים לנרמל את הציון שהתקבל מהתאמת 2 רצפים. • באמצעות הציון המנורמל ניתן להשוות בין ציונים שונים.

  16. E - value • ביחס לציון המנורמל S נקבע ערך E המייצג את הסיכוי למצוא 2 רצפים רנדומליים המותאמים עם ציון S ביניהם. • קירוב ל- E ניתן ע“י הנוסחא: • ככל שגודל מסד המידע עולה, כך גם הסיכוי ההסתברותי לקבל התאמה בעלת ציון מסוים S במקרה. • כלי זה עוזר לנו לצמצם את ה- “FALSE Positive rate”.

  17. תצוגה גרפית של תוצאות הרצת BLAST

  18. תאור כל התאמה בשורה

  19. התאמת זוגות חומצות האמינו

  20. שיפורים ל- BLAST המאמר מתאר 3 שיפורים שנעשו לאלגוריתם המקורי: • שיטת ה- Two Hit • יצירת התאמה עם רווחים (Gapped alignment) • PSI-BLAST

  21. שיטת ה- Two Hit • שלב ההארכה דורש את מרבית זמן הריצה (כ- 90%). • העיקרון שעומד בבסיס השיטה: עבור HSPs בעלי חשיבות סטטיסטית, ההסתברות למצוא Hit נוסף באותו אזור גבוהה. • בשיטה זו נאריך רק Hits אשר יש עבורן Hit נוסף באותה מסגרת קריאה ובמרחק מספיק קטן. • באופן זה נאריך רק חלק קטן מה- Hits ונחסוך זמן ריצה יקר.

  22. ביצוע הארכה עם רווחים (Gapped Alignment) • מספר HSPs בעלי ציון נמוך יחסית יכולים לקבל חשיבות סטטיסטית גבוהה בעת שילוב ביניהם – לכן, יש להימנע כמה שיותר מפספוסים. • ע"י הארכה תוך כדי התחשבות ברווחים, ניתן למעשה להסתפק במציאת HSP אחד מבין אלו המרכיבים את ההתאמה (עם הרווחים), וכך הסיכוי שנפספס התאמה כזו בעלת חשיבות סטטיסטית יורד בהרבה.

  23. ביצוע הארכה עם רווחים (המשך) • הארכה עם רווחים דורשת זמן ריצה הגדול מהארכה ללא רווחים פי 500 לערך. • לכן, נבצע הארכה זו רק עבור HSPs בעלי ציון סף מסוים Sg, וההארכה תבדוק רק חלק מצומצם מההתאמות האפשריות. • מכיוון שמעט מאד הארכות מתבצעות, סה"כ זמן הריצה נשמר.

  24. שיטת הפעולה עד כה... • מציאת 2 Hits באותה מסגרת קריאה ובמרחק קטן ביניהם. • הארכה ללא רווחים של אחד ה- Hits. • אם נוצר HSP בעל ציון גבוה מ- Sg, הפעלת ההארכה עם רווחים. • דיווח על התוצאה רק אם ה- E-value נמוך מספיק. • סה"כ זמן ריצה: כ- 1/3 מה- BLAST המקורי.

  25. הבעיה במשפחה מורכבת של חלבונים יכול להיות קושי בהבדלה בין חלבונים השייכים למשפחה, אך רחוקים מחלבון השאילתא, לבין חלבונים שכלל אינם שייכים למשפחה. בנוסף, נרצה להרחיב את התוצאות כך שיכללו את ה"קרובים הרחוקים" של חלבון הייחוס.

  26. דרך להבדיל בין חלבונים דומים ורחוקים, לחלבונים שונים • נשווה רצף שנרצה לקבוע האם הוא בן משפחה או לא: • לרצפים שידוע שאינם במשפחה. • לרצפים אחרים במשפחה הרחוקים מחלבון הייחוס. • לפי התוצאות נשייך את הרצף בו אנו עוסקים.

  27. טרנזיטיביותA~B, B~C  A~C • בעזרת השוואה נוספת לרצפי חלבונים בעלי ציון גבוה וחשיבות סטטיסטית נמוכה, ניתן למצוא חלבונים נוספים במשפחה אף אם הם רחוקים מאוד בעץ האבולוציוני. • הסקות כאלה לגבי קרבה בין חלבונים, הינן אמינות יותר אם משיגים תוצאות בעלות חשיבות סטטיסטית מכמה השוואות וכמה שיטות ניקוד. • הבעייתיות – התבדרות טרנזיטיבית לחלבונים רחוקים, שאינם באמת הומולוגיים לרצף המקורי, ובהם החשיבות הסטטיסטית לא מעידה על חשיבות ביולוגית.

  28. דוגמא: משפחת חלבוניtrypsin like serine proteases • אתר פעיל שמור היטב. • רצף החלבונים במשפחה שמור לכל אורכו ולא רק באתר הפעיל. • ישנן חלבונים ממשפחות אחרות עם אותו אתר פעיל, אך מבנה מרחבי שונה, ולכן אינם דומים. • ישנם שני מוטיבים בעזרתם ניתן לזהות כל חבר במשפחת ה- serine proteases הנמצאים באתר הפעיל. • ישנם חלבונים חסרי המוטיב GDSGG המופיע באתר הפעיל של הקבוצה, שדומים לקבוצה. סביר להניח שחלבונים אלו הומולוגיים ל- serine proteases אך איבדו את תפקודם הקטליטי.

  29. המשך - משפחת חלבוניtrypsin like serine proteases • כל חלבוני המשפחה האוקריוטים דומים מרחבית ל-bovine trypsin, אך חלק מן הפרוקריוטים שונים ושויכו למשפחה על סמך מבנה תלת מימדי. • השתמשו בשיטת ההשוואה הטרנזיטיבית בכדי להבחין בין הומולוגיות רחוקות במשפחה זו, וכן למצוא ענפים רחוקים בעץ המשפחה הזה.

  30. PSI-BLAST • הרעיון הכללי: אוטומטיזציה של חיפוש אחר מוטיבים/פרופילים, ע"מ להגביר את היכולת להבחין בהומולוגיה חלשה בין חלבונים בעת חיפוש במסד הנתונים.

  31. PSI-BLAST (המשך) • Position SpecificIteratedBLAST. • שיטת חיפוש זו דומה לחלוטין לשיטת החיפוש ב- BLAST המקורי, כאשר ההבדל העיקרי הוא שימוש ב- Position-Specific Score Matrix (להלן PSM) במקום במטריצת ההחלפה. • תהליך החיפוש מתבצע במחזורים (איטרציות) כאשר בכל איטרציה נבנית מטריצת ה- PSM מחדש.

  32. PSI-BLAST (המשך) • עקרון פעולת האלגוריתם: • תחילה מריצים BLASTP (protein-protein)רגיל. • יצירת מטריצת ניקוד תלויית מיקום - PSM בעזרת ההתאמות בעלי החשיבות הסטטיסטית הגדולה ביותר. • מריצים מחדש את תוכנת ה- BLAST כאשר הפעם משתמשים ב- PSM במקום במטריצת ההחלפה. • ניתן לחזור על תהליך זה מספר פעמים עד שמקבלים הצטלבות של התוצאות. • התוצאה הסופית היא למעשה מטריצה של רצפים המותאמים לרצף השאילתא.

  33. PSI-BLAST (המשך) • חיפוש ב- PSI-BLAST רגיש למציאת דמיון חלש בין רצפים הרבה יותר מה- BLAST הרגיל, בעלות זמן דומה. • בשיטה זו, ה- E-value של רצפים שאינם הומולוגיים עולה בעוד שעבור רצפים בעלי הומולוגיה רחוקה ערך זה יורד. • כך, לאחר מספר איטרציות נוכל להגיע גם לרצפים בקרבה רחוקה שלא היו מתגלים בשיטות החיפוש האחרות, ורצפים שאינם הומולוגיים לא יכללו בתוצאה הסופית.

  34. PSI-BLAST (המשך) • מבנה ה- PSM: • כל חומצה אמינית מקבלת ניקוד לפי מיקומה. • זוהי מטריצה בגודל 20 L, כאשר L הוא אורך רצף השאילתא. • עלויות של Gaps מוגדרות באופן דומה לעלויות במטריצת החלפה (עמודה נוספת). • חשיבות ה- PSM: • ניתנת הערכה מדויקת יותר לגבי ההסתברות שח. אמינו מסוימת תופיע בתבנית רצפית מסוימת. • ניתן לתחום באופן מדויק יותר מיקום של מוטיבים מסוימים ברצף.

  35. PSI-BLAST (המשך) • אופן בניית ה- PSM: • מתוך תוצאות האיטרציה הקודמת נבחרות תחילה רק התאמות בעלות E-value נמוך מספיק (לרוב  0.02). • התאמות אלו עוברות סינון נוסף: • הרצפים מחולקים לקבוצות של רצפים דומים, ורק נציג של כל קבוצה נבחר. • נבחרים רק רצפים שהתאימו ללא יצירת רווחים ברצף השאילתא. • לבסוף, לכל עמודה (מיקום ברצף השאילתא) נבנית תת-מטריצה Mc המכילה את כל הרצפים בעלי התאמה כלשהי לח. אמינית באותו מיקום ברצף השאילתא. • אוסף הרצפים נקרא Multiple Alignment.

  36. PSI-BLAST (המשך) • מילוי ערכי ה- PSM – מתן ניקוד (weight): • לעמודות (מיקומים) עבורם Mc מכילה יותר שורות, ניתן חשיבות רבה יותר. • ע"מ לקבוע ציון להופעת ח. אמינית במקום מסוים נבחן את תדירות הופעתה ומספר ההופעות באותה עמודה, ביחס להסתברות הכללית למוצאה שם. • נשקלל את כל הנתונים לצורך קביעת הציונים.

  37. PSI-BLAST (המשך) • אופן היישום: • בעזרת שינויים קלים, ניתן להתאים את האלגוריתם המקורי של BLAST לאלגוריתם שיקבל כקלט PSM במקום מטריצת החלפה (ungapped ו- gapped). • ניתן להעריך באופן מדויק יחסית את חשיבות ההתאמות בין המטריצה לרצף. • הגדרות הפרמטרים הסטטיסטים השונים נשארות דומות למקור.

  38. PSI-BLAST (המשך) • הבעייתיות ביישום: • החשיבות הביולוגית של התוצאות הניתנות ע“י PSI-BLAST תלויה באופן מהותי בהכללה חכמה של רצפים ב- Multiple Alignment. הכללה של רצפים בעלי אזור "משוחד" מבחינת הרכב ח. האמינו בו פוגמת מיידית ביעילות וערך ה- PSM.

  39. PSI-BLAST (המשך) • הערכת זמן הריצה: • הרצה עם איטרציה אחת של PSI-BLAST משופר (כלומר, הכולל את השיטות שהוזכרו לעיל), מהירה מעט יותר מה- BLAST המקורי ובעלת רגישות גבוהה יותר לתוצאות. • יש לקחת בחשבון את זמן הריצה הדרוש לבניית ה- PSM, אשר תלוי המספר ההתאמות שהתקבלו באיטרציה הקודמת.

  40. השוואת זמני ריצה ורגישות

  41. תמונות מהחיים... חיפוש אחר התאמה לחלבון PMS1

  42. תוצאות הרצת BLASTP(protein-protein)

More Related