E N D
Ähnlichkeitssuche Überblick: Anforderung an Algorithmus sucht in DB nach gleichen oder ähnliche Spektren. Die Unterschiede zwischen den Spektren liegen an verschiedenen Geräte Typen oder homologe und isomere Proteine [Stein]. Weitere Ursache theoretische Spektrum beachtet nicht alle einflüsse die nur im realen Spektrum vorhanden sind. Weitere Ursache Cofragmentierung von mehreren Peptiden. • Scoring • Hängt ab von • Qualität des Scores • Quality of thespectra • Size of thedatabase • Correlationbetweenobservedandtheoreticalspectrum [Frank 2005, p965] • Wahrscheinlichkeit für beobachtetes Spektrum (likelihood Test) Wahrscheinlichkeitsnetze, Markovketten [Frank 2005p, 965] • Scoring über 2 Metrics: dotproduct top Hit/ DotProductAbweicher durch DotProduct top hit [Lam 2007] • Überprüfen ob Dominranz von Sehr großen [LAM 2007] • Plotten Peptide Score againstfrequency Normalverteilung[Stehen 2004, p 706] • Target Decoy für Ähnlichkeitssuche Spektrendatenbank durchwürfeln und schauen wieviel gefunden wird (Lam2010b) • Soringschemes [Nesvizskii 2007]: • Spectralcorrelation ( Sequest) • Sharedfragmentcount, dotproduct (TANDEM, OMSSA, MASCOT) • Empericallyobservedrules (Spectrum MILL) • Statisticallyderivedfragmentationrules (PHENYX) • Based on arbitraryscale (Xscorr bei SEQUEST) • E-valueexpectednumber of peptidesexpectedwithscoresequalorbetter (Annahme databasesearchfollowscertaindistribution) • Nutzen von zusätzlichen Infos: Massengenauigkeit, Peptide separationinfospI, MW [Nesvizskii 2007, p791]: • Vorfilterung • Consensus spectrallibary • Consensus spectren • Signal tonoiseratio • Best x peaks • Normaliseren der Intensitäten [Yates 1998, p3559] • Kleine mz unter 100 rauschmeisen [Yates 1998, p3559] • Filtern der Peaks größer als Mittelwert +1-2 Standardabweichung • Wichtung mit inverser Normalverteilung [me] • Grass Intensität [Frank 2005] average 33% schwächster Peaks und Rest dadurch Teilen Gruppen • Remove regionsaroundParentpeak [SpectraST] • Entfernen von Spektren mit weniger als 6 peaks und Precursor unter 500 [LAM 2007] • Ähnlichkeitssuche • Algorithmen: • Hertz similarityindex [Stein 1994] (64 % accuracy) • Eucledeandistance [Stein 1994] (72 % accuracy) • Absolute valuedistance [Stein 1994] (68% accuracy) • Probabilitybasedmatching [Stein 1994] (65% accuracy) • Dotproduct [Stein 1994] (75% accuracy) [Frank 2011]] • ImproveddotProductbyfactorof relative intensities [Stein 1994 p. 865] • Fourier-Trafo Crosscorelation Correlation Score(Yates 1998 p 3559) • DotProduct + Abstandswichtung???[me] • DotProduct aber nur top 20 Peaks bei X!Hunter []Lam 2010 • Wichtung • Masse • Weightingwithsquaricorcubic, orbestexp(mass/50) optimal [Stein 1994] • Intensität • 0.5-0.6 power [Stein 1994] • Logaritmicscaling [Stein 1994] eher schlecht da Peaks mit geriner Intensität übertrieben werden m/z-gate? • +- 5 mz [Yates 1998, p3559] • Anregungen • Implementingspecialcomments [Stein 1994, p862]: implementierung von Besonderheiten beim PBM Algorithmus, spectralcompression, contaminationcorrection, peakflagging, reliabilityranking, quadraticscaling • Ideale Spektren erzeugen mit allen Sonderionen (nach BLAST suche, oder wenn Sequence bekannt) • Ursachen warum die Ähnlichkeitssuche scheitert: Signal tonoise, fehlen von Peptideion/ Supression, Homologe oder Isoformen, untypische Fragmemte starkes Signal von Wasser oder Neutralitätsverlust aber schwaches y oder b Ion • Aufbauprinzip der Spektrendatenbank [Craig2006] • WeitererSuchlaufmit PTMs zulassen • Für das Scoring basierenfd auf FDR: 2 Strategien Bayes Ansatz (Score Distribution) und targetdecoy