A Combinatorial Approach to the Analysis of Differential Gene Expression Data

A Combinatorial Approach to the Analysis of Differential Gene Expression Data The Use of Graph Algorithms for Disease Prediction and Screening

The Goal • To classify patients based on expression profiles • Presence of cancer • Type of cancer • Response to treatment • To identify the genes required for accurate classification • Too many = unnecessary noise • Too few = insufficient information

Classic Clustering Problem • Current techniques: • Hierarchical Clustering • K-Means Clustering • Self-Organizing Maps • Others • Drawbacks: • Determining cluster boundaries difficult with diffuse data • Objects can only belong to one group

Algorithmic Training Raw Data Gene Scoring Dominating Set Eliminate Poorly Discriminating Genes Eliminate Poorly Covering Genes Calculate Sample Similarities Apply Threshold Maximal Cliques Verify by Classification Set of Discriminatory Genes Gene Scores

Algorithmic Training Raw Data Eliminate Poorly Discriminating Genes

The Gene Scoring Function: Identifying Discriminators vs.

Algorithmic Training Raw Data Eliminate Poorly Discriminating Genes Eliminate Poorly Covering Genes

Eliminate Poorly Covering Genes Samples Genes Class 2 Class 1

Algorithmic Training Raw Data Eliminate Poorly Discriminating Genes Eliminate Poorly Covering Genes Calculate Sample Similarities Apply Threshold

Create Unweighted Graph • Complete, edge-weighted graph • Vertices = samples • Edge weight = similarity metric • Remove edge weights • If edge weight < threshold, remove edge from graph • Otherwise, keep edge, ignore weight • Result: incomplete unweighted graph

The Edge Weight Function where, expression valueij = expression value of genei for samplej

Algorithmic Training Raw Data Eliminate Poorly Discriminating Genes Eliminate Poorly Covering Genes Calculate Sample Similarities Apply Threshold Verify by Classification Set of Discriminatory Genes Gene Scores

What is a Clique? • A completely connected subset of vertices in a graph • Maximal clique = local optimization • NP-complete

Classification Using Clique GRAPH Class 1 Class 2 Class 1 Class 3 Class2

A Selection of Discriminators

The Algorithm - Unsupervised Raw Data Set of Discriminatory Genes, Scores Calculate Sample Similarities Apply Threshold Classify Unknown Samples

Summary • Intersection of clique and dominating set techniques improves results • Combined orthogonal scoring identifies limited number of discriminatory genes • Clique offers means of validating obtained scores and weights • Our technique identifies differing set of discriminatory genes from original paper • Clique-based classification a viable complement to present clustering methods

Ongoing and Future Research • Reverse Training • Train to distinguish among types of cancer • Experiment with different weight functions (ex. Pearson’s coefficient) • Investigate using less stringent techniques • Near-cliques • Neighborhood search • K-dense subgraphs • Port codes to SGI Altix supercomputer

Our Research Group Mike Langston, Ph. D. Lan Lin Chris Symons Xinxia Peng Bing Zhang, Ph. D.

A Combinatorial Approach to the Analysis of Differential Gene Expression Data

A Combinatorial Approach to the Analysis of Differential Gene Expression Data

Presentation Transcript

Clustering analysis of microarray gene expression data

Differential Gene Expression

Accurate differential gene expression analysis for RNA- Seq data without replicates

Microarray Gene Expression Data Analysis

Analysis of Gene Expression Data

Differential Expression Analysis

Introduction to Differential Expression Analysis

Next lectures: Differential Gene expression

Testing for differential gene expression

Introduction to Statistical Analysis of Gene Expression Data

A Novel Approach to Identifying Differential Gene Expression

Microarray Data Analysis Differential Gene Expression

Gene expression: Microarray data analysis

Differential gene expression

Analysis of time-course gene expression data

4. Gene Expression Data Analysis

More Analysis of Gene Expression Data

Differential Gene Expression

Differential Gene Expression Analysis of RNA Seq and Microarray Data highlights role of Hfq gene in expression regulatio

Clustering analysis of microarray gene expression data

Bioinformatics : Gene Expression Data Analysis

Analysis of Differential Expression