Regression-Based KNN for Gene Function Prediction Utilizing Heterogeneous Data Sources

Regression based KNN for gene function prediction using heterogeneous data sources Zizhen Yao, Larry Ruzzo yzizhen, ruzzo @cs.washington.edu

Background • E. Coli classification schemes • KEGG , COG, MultiFun • Common functional classes (10-19 classes) • Metabolism, Translation, Transporter, Cell Motility • Biological information used for inference • Microarray expression, protein interaction, evolutionary history • Methods • Support vector machine, Bayesian, Rule-based

Introduction to KNN • Idea – for each query instance • Choose k nearest neighbors • Choose the class voted by majority of the neighbors. • Design issues • Similarity / Distance metric • Voting schemes

Algorithm Flow Chart Training Testing Training Data Testing Data For every pair of training genes, calculate the predictors. Calculate the predictors values using and training data Learn Similarity Metric Choose k nearest neighbors Voting A list of predictions with confidence scores.

Predictors • Microarray Expression Data • Expression correlation • Sequencing Data • Chromosomal position • Chromosomal distance • Transcription direction • Block indicator • Protein sequence similarity • Paralog indicator

Similarity (Distance) Metric • Classical metrics are not appropriate because predictors are • heterogeneous data type, scale • different relevance • correlated • Goal: estimate the likelihood that a pair of genes are in the same class based on predictors

Learning Similarity Metric • Regression methods • Response • Find f • Logistic regression • Local regression

Probabilistic voting scheme • Goal: estimate the probability that the query gene belong to each class. • Range: [0 ~ 1] • Assigns higher confidence score to predictions voted by more neighbors, or neighbors with higher credibility. • Report predictions that are above certain threshold value.

Performance comparison

Functional Classes ROC analysis (KEGG)

Confidence Score vs. Accuracy

Results Summary • Combining all 4 predictors yields the best result. • Using expression data only, regression based KNN methods outperforms SVM. • Performance varies with different function classes • Confidence scores are strongly correlated with accuracy.

Contribution • KNN • Simplicity, efficiency, flexibility • Easy to interpret the results, useful to guide case studies • Similarity metric • integrate heterogeneous data sources • voting scheme • Statistic inference • A general framework to incorporate other information.

Regression-Based KNN for Gene Function Prediction Utilizing Heterogeneous Data Sources

Regression-Based KNN for Gene Function Prediction Utilizing Heterogeneous Data Sources

Presentation Transcript

Improving Gene Function Prediction Using Gene Neighborhoods

Gene Prediction: Similarity-Based Approaches

Gene Function

Predicting protein function from heterogeneous data

Gene Prediction

Gene Prediction: Similarity-Based Approaches

Predicting protein function from heterogeneous data

Regression-Based Prediction for Artifacts in JPEG-Compressed Images

Gene Prediction

Mediator Cost Models for Heterogeneous Data Sources

Reconstruction of regulatory modules based on heterogeneous data sources

Inference of gene regulatory networks using regression based network method

gene prediction

Gene prediction

Phylogenetic prediction of gene function

Hierarchical multilabel classification trees for gene function prediction

Gene Prediction

Gene Prediction

Gene Prediction

Regression using serial data

Gene Prediction

Gene Prediction: Similarity-Based Methods