370 likes | 525 Vues
GRUPO 4 Nicoletti , Mariela Quiroga, Cinthia Romero, Melisa Sgrinzi , agustina. Data mining utilizando SQL Server 2008 R2. Sistemas de inteligencia de negocios y soporte de decisiones. Tabla de Contenidos. ¿ Que es el data mining?.
E N D
GRUPO 4 Nicoletti, Mariela Quiroga, Cinthia Romero, Melisa Sgrinzi, agustina Data mining utilizando SQL Server 2008 R2 Sistemas de inteligencia de negocios y soporte de decisiones
¿ Que es el data mining? • Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos con el objetivo de encontrar patrones o tendencias, transformando los datos en conocimiento.
Fases del Proceso de Data mining I 1. Entendimiento del negocio • entender claramente los objetivos del negocio y asegurarse de conocer lo que el cliente realmente quiere lograr. • crear los objetivos de minería de datos para lograr el objetivo de negocio • establecer un plan de minería para lograr los objetivos empresariales y de minería de datos.
Fases del Proceso de Data mining II 2. Entendimiento de los datos • se inicia con la recolección de datos iniciales de fuentes disponibles. • los datos obtenidos deben ser examinados cuidadosamente.
Fases del Proceso de Data mining III 3. Preparación de los datos • Una vez que los datos están disponibles, estos necesitan ser seleccionados, depurados y estructurados. • La exploración de datos en mayor profundidad se debe llevar a cabo para identificar patrones en base a reglas de negocio.
Fases del Proceso de Data mining IV 4. Modelado • Las técnicas de modelado son seleccionadas para ser utilizadas por el conjunto de datos preparados. • uno o más modelos son creados con el conjunto de datos preparados mediante herramientas de modelado.
Fases del Proceso de Data mining V 5. Evaluación • El modelo resultante debe ser evaluado en el contexto de los objetivos del negocio. • Adquirir conocimiento del negocio es un proceso iterativo en la minería de datos.
Fases del Proceso de Data mining VI 6. Implementación • El conocimiento que se obtiene a través del proceso de data mining se tiene que presentar de manera tal que los interesados puedan usarla cuando lo requieran. • El reporte final del proyecto necesita sumarizar las experiencias del proyecto para mejorarlo.
Extensiones de data mining • Web mining: consiste en aplicar las técnicas de minería de datos a documentos y servicios Web. Las herramientas de Web mining analizan y procesan los logs para producir información significativa. • Text mining: se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección.
¿Por qué usar Data Mining? • Proporciona un punto de encuentro entre los investigadores y las personas de negocios. • Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. • Contribuye a la toma de decisiones tácticas y estratégicas. • Permite a los usuarios dar prioridad a decisiones y acciones. • Proporciona poderes de decisión a los usuarios del negocio.
Herramientas para Data Mining en SQL Server 2008 R2 • Microsoft SQL Server AnalysisServices (SSAS) Proporciona a los usuarios una amplia gama de herramientas que puede utilizar para diseñar, crear y visualizar modelos de minería de datos: • Diseñador de Data Mining: Es el entorno primario en el que se trabaja con modelos de minería de Microsoft SQL Server AnalysisServices. • Lenguaje DMX: es una extensión del lenguaje SQL que permite crear y trabajar con modelos de minería de datos en SSAS.
Herramientas para Data Mining en SQL Server 2008 R2 • Algoritmos de Data Mining • Algoritmos de Clasificación • Algoritmos de Regresión • Algoritmos de Segmentación • Algoritmos de Asociación • Algoritmos de Análisis de Secuencia
Business IntelligenceDevelopment Studio • Es la IDE de Microsoft utilizada para el desarrollo de análisis de datos y soluciones de Business Intelligence. • Utiliza el Microsoft SQL Server AnalysisServices, ReportingServices e IntegrationServices.
Arquitectura del modelo de Data Mining Un modelo de minería de datos recibe los datos de una estructura de minería de datos y los analiza utilizando un algoritmo de minería de datos. • Los metadatos especifican el nombre del modelo y el servidor donde están almacenados, así como una definición del mismo. • Los resultados que están almacenados en el modelo varían dependiendo del algoritmo, pero pueden incluir patrones, conjuntos de elementos, reglas y fórmulas. • Los enlaces señalan a los datos almacenados en memoria caché en la estructura de minería de datos.
Caso de Estudio: Cáncer de mama. • El índice de superación de esta enfermedad depende de la fase en que se encuentra el tumor en el momento de su detección. • No existe indicios para determinar la presencia de este cáncer. • Otro inconveniente es determinar características necesarias para predecir, a partir de un conjunto de microcalcificaciones, si el paciente puede desarrollar la enfermedad.
Escenario • Basado en un estudio de investigación desarrollado en Wiscosin. • Pacientes vistos por el Dr. Woldberg desde 1984, se incluyen solo los que presentan cáncer de mama invasivo. • Cada núcleo de las células poseen 10 atributos que se representan en las tablas.
Datos de las tablas: Pronóstico Mismos datos que la tabla Diagnóstico, excepto el atributo diagnóstico.
Escenario: Problemas encontrados • El cáncer de mama es un tema muy interesante pero fue necesario investigar sobre los términos médicos utilizados. • Importación de datos de la tabla
Metodología Para el desarrollo de este informe se utilizaron dos de los algoritmos que ofrece SQL Server 2008: • Algoritmo de árboles de decisión. • Algoritmo de regresión logística.
Algoritmo de árboles de decisión I • Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual es una decisión que es tomada a partir de las entradas. • Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos (clasificación) o continuo (regresión).
Algoritmo de árboles de decisión II Nodo Hoja Nodos internos
Algoritmo de Regresión Logística • Es usada extensamente en las ciencias médicas y sociales. • Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.
Algoritmo de Regresión Logística Objetivos de la regresión logística • Investigar como influyen en la probabilidad de ocurrencia de un suceso, la presencia de diversos factores • Determinar el modelo más apropiado
Algoritmo de Regresión Logística Algoritmo de regresión logística de Microsoft • Es una variación del algoritmo de red neuronal de Microsoft. La regresión logística es una técnica estadística conocida que se usa para modelar los resultados binarios, como los resultados sí-no.