E N D
Minería de Datos Presentado por: Dhavian Fernando Hernández - 20121078007 Rodrigo Andrés Góngora – 20121078057 Universidad Distrital - FJC
Concepto. La minería de datos (o Datamining en ingles) es un área de estudio que surge de la convergencia de otra disciplina: ciencias de la computación, estadística, aprendizaje automático, inteligencia artificial, tecnología de bases de datos y reconocimiento de patrones, entre otros.
Concepto. Comprende el análisis de grandes conjuntos de datos y la búsqueda de relaciones entre variables, a través de métodos computacionales intensivos. Muchas veces se encuentran relaciones o coincidencias no esperadas y, por lo general, los métodos involucran el análisis de enormes cantidades de datos multidimensionales.
Generalidades. • La minería de datos es predictiva • Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente • El entorno de la minería de datos suele tener una arquitectura cliente servidor. • Explora los datos que se encuentran en las profundidades de las bases de datos.
Ventajas. . Ayudan a descubrir y a identificar patrones ocultos (no evidentes y, en ocasiones, inesperados) en los datos . Auxilia a los usuarios en el proceso de reservas de datos. . La información obtenida a través de la minería de datos ayuda a los usuarios a elegir cursos de acción . Poder examinar gran cantidad de datos y encontrar patrones a simple vista.
Tarea de la MD. La tarea de minería de datos real es el análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis cluster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación). Esto generalmente implica el uso de técnicas de bases de datos como los índices espaciales.
Proceso de MD. • Selección del conjunto de datos • Análisis de las propiedades de los datos • Transformación del conjunto de datos de entrada • Seleccionar y aplicar la técnica de minería de datos • Extracción de conocimiento • Interpretación y evaluación de datos
Técnicas de MD. Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
Técnicas de MD. Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
Algoritmos. • C4.5. Este algoritmo genera clasificadores expresados en términos de árboles de decisión. • El algoritmo de k-medias. Es un método simple iterativo que particiona un conjunto de datos en un número pre-especificado de conglomerados. • SVM (Support Vector Machine). Mediante el aprendizaje, este algoritmo trata de encontrar la mejor función de clasificación para distinguir en miembros de distintas clases. • El algoritmo a priori. Este método encuentra conjuntos de ítems frecuentes usando generación candidata. • El algoritmo EM. Es utilizado para clasificar datos de naturaleza continua y para estimar su correspondiente función de densidad.
Algoritmos. 6. PageRank. Es un algoritmo de búsqueda sobre hipervínculos en la web. Gracias a este método es que Google funciona. 7. AdaBoost. Emplea métodos que utilizan múltiples learners para resolver un problema. 8. kNN. Memoriza el conjunto de datos de entrenamiento y realiza una clasificación sólo si los atributos del objeto de prueba coinciden exactamente con los ejemplos del entrenamiento. 9. Bayes ingenuo (Naive Bayes). Dado un conjunto de objetos, que pertenecen a una clase conocida, construye una regla que permite asignar objetos futuros a una clase. 10. CART (Classification and Regression Trees). Se trata de un procedimiento recursivo de partición capaz de procesar atributos nominales y continuos como objetivos o predictores.
Otras Relaciones. Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta.
Aplicaciones de la MD. Actualmente se aplica en áreas tales como: • Aspectos climatológicos: predicción de tormentas, etc. • Medicina: encontrar la probabilidad de una respuesta satisfactoria a un tratamiento médico. • Mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por correo, fidelidad de clientes, afinidad de productos, etc. • Inversión en casas de bolsa y banca: análisis de clientes, aprobación de prestamos, determinación de montos de crédito, etc.
Aplicaciones de la MD. . Detección de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de crédito, de evasión fiscal, electricidad, etc. . Análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de mercado (clustering). . Determinación de niveles de audiencia de programas televisivos: industria y manufactura: diagnóstico de fallas.
Importancia de la MD. Actualmente el valor de la información se ha acrecentado hasta convertirse en un activo estratégico para la competitividad de una empresa. La MD ayuda a los directivos a obtener una visión mas completa y detallada de su negocio ya que les permite buscar datos de sus operaciones cotidianas que se salen de los tangos que están considerados como normales de lo que, en parte, depende la confiabilidad de la información para la toma de decisiones.
Importancia de la MD. La MD tiene futuro dentro de las empresas, debido a que existen grandes bases de datos que contienen valores desaprovechados; los mercado están mas saturados y se requieren de análisis intensos para captar la atención de los clientes. En todo el proceso de la minería de datos, el ser humano es el factor mas importante, ya que solo el tiene la capacidad de analizar y decidir si los patrones, normas o funciones encontrados tienen importancia, pertinencia y utilidad para su empresa.