80 likes | 93 Vues
This project explores supervised gene selection methods for DNA microarrays, focusing on the challenges of high dimensionality and variable class labels. Various classification techniques, including SVM, Discriminant Analysis, K-NN, Naive Bayes, and Decision Trees, are utilized. The goal is to develop interpretable models and computationally efficient algorithms for gene selection. Related areas of research include attribute weighting, gene expression analysis, and causal network inference. Relevant references and resources are provided.
E N D
Trabajo del grupo ISG UPV-EHU en clasificación supervisada para DNA microarrays (mayo’00-junio’02) Proyecto Elvira II Albacete, Junio 2002
DNA microarray Filas genes; Columnas casos, muestras, biopsias, ejemplos, ‘cell-lines’...
¿Selección de genes en DNA microarray ‘supervisados’? • Area ‘pequeña’ dentro de la Bioinformática. • Dimensionalidad altísima (> 1,000). • Problemas supervisados: existe la variables clase. • Literatura: Brazma & Vilo’00, CAMDA’00-01, Golub’99, Beibel’00... • En CAMDA se cita la ‘selección de variables’ (Feature Subset Selection = FSS) como un ‘topic’. • Coincidencias: pocos genes... ¿soprendente? No tanto... Y buen porcentaje de bien clasificados. • Técnicas de clasificación supervisada utilizadas: SVM, Discriminant Analysis,..., K-NN, Naive-Bayes, Arboles de decision, Reglas de decisión (IF-THEN). • Explicatividad & comprensibilidad: árboles, reglas.
Nuestras líneas de trabajo • Algoritmo de búsqueda: búsqueda secuencial, algoritmos EDAs. • Función de evaluación: wrapper más que filter son posibles los tiempos de cómputo búsqueda en el ‘areas’ de pocos genes. • Algoritmos de clasificación: K-NN, Naive-Bayes, árboles de clasificación, reglas IF-THEN... • Software: propio y MLC++ (Stanford – SGI). • Nuestro ‘Talón de Aquiles’: • Interpretación ‘biológica’ de los resultados (modelos clasificatorios, genes escogidos, porcentajes de error...). • ‘Formación’ & ‘creación’ de las matrices de datos desde SMD.
Trabajos desarrollados • R. Blanco, P. Larrañaga, I. Inza, B. Sierra (2001). “Selection of highly accurate genes for cancer classification by estimation of distribution algorithms”. Workshop of Bayesian Models in Medicine (AIME). • I. Inza, B. Sierra, R. Blanco, P. Larrañaga (2002). “Gene selection by sequential search wrapper approaches in microarray cancer class prediction”. Journal of Intelligent and Fuzzy Systems.
Otras líneas aparte de la selección de genes • Algoritmo K-NN: pesado de atributos, búsqueda de los pesos óptimos. • 3 estados de relevancia en genes: underexpressed, baseline, overexpressed. • Redes Genéticas: • Dimensionalidades ingentes ¿Red Bayesiana? • Red Bayesiana “con simplificaciones”: número máximo de padres... Aproximaciones por bootstrap. • CAUSALIDAD en vez de “atacarlo” directamente, se plantea estudiar las propiedades de las relaciones: • Relaciones de padre hijo o “esposos” “fuertes”. • Gen que “media” la relación directa entre otros dos: CI(X,Y|Z) • Activar / Inhibir: influencia directa de uno de los padres al mantener los valores de los demás “fijos”. • Detección de “subredes funcionales”.
Referencias de interés • Congresos: • CAMDA: Critical Assesment of Microarray Data Analysis • ISMB: International Symposium on Molecular Biology • Revista: “Bioinformatics” • Lugares web: • Stanford Genomic Resources Stanford Microarray Database • http://www.gene-chips.com/ • Hebrew University (N. Friedman, D. Pe’er, I. Nachman...) • Tel Aviv University (R. Shamir) • Human Genome Working Draft: http://genome.ucsc.edu