CRoss Industry Standard Process for Data Mining

CRISP-DM (http://www.crisp-dm.org/) CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso Marcelo A. Soria soria@agro.uba.ar

La metodología CRISP es un modelo jerárquico compuesto por cuatro niveles de abstracción: • Fases: etapas del proceso • Tareas genéricas: tareas generales, completas y estables • Tareas especializadas: especificación de las tareas generales • Instancias de procesos: acciones y decisiones concretas Fases Tareas genéricas Tareas especializadas Instancias de procesos Marcelo A. Soria soria@agro.uba.ar

El modelo de referencia y la guía del usuario Fases, descripción general de las tareas del proyecto y salidas esperadas Modelo de referencia Instrucciones más detalladas de cada fase y tarea Guía del usuario Marcelo A. Soria soria@agro.uba.ar

Mapeando tareas generales y específicas ¿Cómo mapear? • Describir y analizar el contexto específico de una aplicación • Eliminar detalles innecesarios y que no se apliquen al contexto • Agregar aquellos detalles específicos del modelo • Especializar las partes genéricas del modelo de acuerdo al contexto Marcelo A. Soria soria@agro.uba.ar

Mapeando tareas generales y específicas Contextos de data mining Dominio de aplicación Area específica de aplicación del proyecto de data mining (p.ej. bioinformática) Objetivos del proyecto de data-mining (p.ej., clasificación) Temas específicos de data-mining que se refieren a las dificultades y particularidades del proyecto (p.ej., presencia de genes con secuencias desconocidas) Herramientas y técnicas de data mining que se utilizan en el proyecto (p.ej, Blast, Bioconductor) Tipo de problema Aspectos técnicos Técnicas y herramientas Marcelo A. Soria soria@agro.uba.ar

Mapeando tareas generales y específicas Mapeando con contextos Mapeando para el presente Se aplica un modelo de procesos genéricos para resolver un problema único. Se mapean los procesos genérícos a tareas específicas para un único uso Mapeando para el futuro Los procesos genéricos se especializan continuamente de acuerdo a los requerimientos de un contexto pre-existente o se generalizan las experiencias de casos únicos. Marcelo A. Soria soria@agro.uba.ar

El modelo de referencia Contiene las fases del proyecto, sus tareas respectivas y algunas relaciones entre tareas. A este nivel no es posible identificar todas las relaciones. Fases Comprensión del dominio Comprensión de los datos Preparación de los datos Modelado Evaluación Despliegue / implementación Marcelo A. Soria soria@agro.uba.ar

1. Comprensión del dominio 1. Determinar objetivos 1.1 Información general del dominio 1.2 Definir objetivos 1.3 Definir el criterio de éxito 2. Evaluar la situación 2.1 Recursos 2.2 Requerimientos, supuestos, condicionantes 2.3 Condiciones de riesgo y contingencias 2.4 Terminología 2.5 Determinar costos y beneficios 3. Objetivos de data mining 3.1 Determinar los objetivos 3.2 Definir el criterio de éxito 4. Producir el plan del proyecto 4.1 Redacción del proyecto 4.2 Evaluación inicial de técnicas y herramientas Marcelo A. Soria soria@agro.uba.ar

2. Comprensión de los datos 1. Colección inicial de datos Informe inicial de colección de datos 2. Describir los datos Informe de descripción de datos 3. Exploración de datos Informe de exploración de datos 4. Verificar la calidad de los datos Informe de calidad de los datos Marcelo A. Soria soria@agro.uba.ar

3. Preparación de los datos 1. Obtener / Seleccionar el conjunto inicial de datos 2. Limpiar datos 3. Construir datos Crear atributos derivados Crear nuevos registros Aplicar transformaciones 4. Integración de los datos 5. Formateo de los datos Conjunto de datos listo para el análisis Marcelo A. Soria soria@agro.uba.ar

4. Modelado 1. Seleccionar la técnica de modelado 2. Generar el diseño de prueba Crear conjuntos de entrenamiento y de prueba 3. Construir el modelo Determinar parámetros del modelo Modelar Describir el modelo 4. Analizar el modelo Evaluación (comportamiento, ranking de modelos) Reajuste de los parámetros del modelo Modelos Marcelo A. Soria soria@agro.uba.ar

5. Evaluación 1. Evaluación de resultados Análisis de los resultados de DM Selección de modelos 2. Proceso de revisión 3. ¿Próximos pasos? Lista de posibles acciones Decisiones Marcelo A. Soria soria@agro.uba.ar

5. Despliegue / Implementación 1. Plan de despliegue / implementación Análisis de los resultados de DM Selección de modelos 2. Plan de monitoreo y mantenimiento Informe de descripción de datos 3. Preparación del informe final 4. Revisión del proyecto Proyecto terminado Marcelo A. Soria soria@agro.uba.ar

Data Mining Group (http://www.dmg.org/) Es otra iniciativa, en este caso activa, para establecer estandares en DM. Este consorcio no intenta producir una metodología de data-mining, sino establecer estandares para las herramientas y el modelado. Su producto principal es el Predictive Model Markup Language (PMML) PMML permite describir en forma estandarizada con esquemas XML un modelo de análisis, que luego se puede implementar con cualquier herramienta que lo soporte Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS, Salford Systems, NASA, VISA, etc..

CRoss Industry Standard Process for Data Mining

CRoss Industry Standard Process for Data Mining

Presentation Transcript

Payment Card Industry Data Security Standard

Regression for Data Mining

Data Mining in the Pharmaceutical Industry

Process mining

Data mining and the knowledge discovery process

Data Mining: Proses Data Mining

Process Data Mining

Data mining and the knowledge discovery process

Data Mining: Proses Data Mining

The Process of Data Mining

Process Mining

MINING INDUSTRY

Payment Card Industry Data Security Standard

Mining for ADE Data

Payment Card Industry Data Security Standard

Data Mining: A KDD Process

Process Industry Data Integration Strategies

Dendrograms for Data Mining

MXML A Meta model for process mining data

Mining Industry

Data Mining for Data Streams

The CRISP Data Mining Process