ITRODUCCIÓ A LA MIERÍA DE DATOS MIERÍA DE DATOS INTRODUCCIÓNA A LA MINERÍA DE DATOS DATOS.. EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS ALGORITMOS.. FASE DE SELECCIÓN EN MINERÍA DE DATOS DATOS.. FASE DE EXPLORACIÓN EN MINERÍA DE DATOS DATOS.. FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS DATOS.. FASE DE MINERÍA DE DATOS – TÉCNICAS PREDICTIVAS DE MODELIZACIÓN.. TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE MODELIZACIÓN CLASIFICACIÓN.. CLUSTERS Y ÁRBOLES DE DECISIÓN CLASIFICACIÓN DECISIÓN.. REDES NEURONALES.. NEURONALES MINERÍA WEB - TÉCNICAS Y PRINCIPALES ALGORITMOS ALGORITMOS.. MINERÍA DE DATOS 1 ITRODUCCIÓ A LA MIERÍA DE DATOS 2 ITRODUCCIÓ A LA MIERÍA DE DATOS EL OBJETIVO ES EL AÁLISIS DE GRADES VOLÚMEES DE DATOS PARA LA OBTENCIÓN DE MODELOS Y PATROES PREDICTIVOS O DESCRIPTIVOS DESCRIPTIVOS:: SE BUSCA EL DESCUBRIMIENTO DE COOCIMIETO EN LAS BASES DE DATOS DATOS.. SE EMPLEAN TÉCNICAS DE APREDIZAJE AUTOMÁTICO Y ESTADÍSTICAS.. ESTADÍSTICAS MINERÍA DE DATOS 3 ITRODUCCIÓ A LA MIERÍA DE DATOS MINERÍA DE DATOS 4 ITRODUCCIÓ A LA MIERÍA DE DATOS MOTIVACIÓ: MOTIVACIÓ: NUEVAS NECESIDADES DEL AÁLISIS DE GRANDES VOLÚMENES DE DATOS DATOS.. EL AUMETO DEL VOLUME Y VARIEDAD DE IFORMACIÓ QUE SE ENCUENTRA INFORMATIZADA EN BASES DE DATOS DIGITALES HA CRECIDO ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA DÉCADA.. GRAN PARTE DE ESTA IFORMACIÓ ES HISTÓRICA HISTÓRICA,, ES DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE HAN PRODUCIDO PRODUCIDO.. APARTE DE SU FUNCIÓN DE “MEMORIA DE LA ORGAIZACIÓ”, ORGAIZACIÓ ”, LA INFORMACIÓN HISTÓRICA ES ÚTIL PARA PREDECIR LA IFORMACIÓ FUTURA FUTURA.. MINERÍA DE DATOS MINERÍA DE DATOS 5 LA MAYORÍA DE DECISIOES DE EMPRESAS, ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN INFORMACIÓN DE EXPERIECIAS PASADAS EXTRAÍDAS DE FUENTES MUY DIVERSAS DIVERSAS.. LAS DECISIOES COLECTIVAS SUELEN TENER CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN VOLÚMEES DE DATOS QUE DESBORDA LA CAPACIDAD HUMAA.. HUMAA EL ÁREA DE LA EXTRACCIÓ (SEMI (SEMI--)AUTOMÁTICA DE COOCIMIETO DE BASES DE DATOS HA ADQUIRIDO RECIENTEMENTE UNA IMPORTANCIA CIENTÍFICA Y ECONÓMICA INUSUAL INUSUAL.. MINERÍA DE DATOS 6 ITRODUCCIÓ A LA MIERÍA DE DATOS ITRODUCCIÓ A LA MIERÍA DE DATOS TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS CLÁSICOS:: CLÁSICOS NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (1081012 BYTES) BYTES).. DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS / ATRIBUTOS):: 102-104. ATRIBUTOS) EL USUARIO FIAL NO ES UN EXPERTO EN APRENDIZAJE AUTOMÁTICO NI EN ESTADÍSTICA ESTADÍSTICA.. EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO LOS DATOS DATOS:: IDUSTRIA IDUSTRIA:: VENTAJAS COMPETITIVAS, DECISIONES MÁS EFECTIVAS.. EFECTIVAS CIECIA CIECIA:: DATOS NUNCA ANALIZADOS, BANCOS NO CRUZADOS, ETC ETC.. PERSOAL PERSOAL:: “INFORMATION OVERLOAD” OVERLOAD”... ... MINERÍA DE DATOS 8 KDD NACE COMO INTERFAZ Y SE UTRE DE DIFERENTES DISCIPLINAS:: DISCIPLINAS ESTADÍSTICA ESTADÍSTICA.. SISTEMAS DE INFORMACIÓN / BASES DE DATOS DATOS.. APRENDIZAJE AUTOMÁTICO / IA. IA. VISUALIZACIÓN DE DATOS DATOS.. COMPUTACIÓN PARALELA / DISTRIBUIDA. DISTRIBUIDA. INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS DATOS.. MINERÍA DE DATOS 10 ITRODUCCIÓ A LA MIERÍA DE DATOS LA MINERÍA O PROSPECCIÓN DE DATOS (DM) DM) NO ES MÁS QUE UA FASE DEL KDD KDD:: FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y ESTADÍSTICOS PARA OBTEER HIPÓTESIS DE PATRONES Y MODELOS MODELOS.. AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS, VULGARMENTE SE ASIMILA KDD CON DM. DM. ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO FÁCIL DEL TÉRMINO “MIERÍA DE DATOS DATOS”” HAN HECHO QUE ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA. ÁREA. MINERÍA DE DATOS MINERÍA DE DATOS 9 ITRODUCCIÓ A LA MIERÍA DE DATOS LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES DE USAR Y O ESCALA AL ÚMERO DE DATOS TÍPICOS EN BD. BD. APARECE EL “DESCUBRIMIETO DE COOCIMIETO A PARTIR DE BASES DE DATOS DATOS””: KDD KDD:: KOWLEDGE DISCOVERY FROM DATABASES. DATABASES. ITRODUCCIÓ A LA MIERÍA DE DATOS RELACIÓ DEL DM CO OTRAS DISCIPLIAS DISCIPLIAS:: KDD KDD:: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS DATOS”:: DATOS” FAYYAD, 1996 1996.. DIFERECIA CLARA CON MÉTODOS ESTADÍSTICOS ESTADÍSTICOS:: LA ESTADÍSTICA SE UTILIZA PARA VALIDAR O PARAMETRIZAR UN MODELO SUGERIDO Y PREEXISTETE,, O PARA GENERARLO PREEXISTETE GENERARLO.. DIFERECIA SUTIL SUTIL:: EL “ANÁLISIS INTELIGENTE DE DATOS” (IDA IDA:: ITELLIGET DATA AALYSIS AALYSIS)) QUE CORRESPONDÍA CON EL USO DE TÉCNICAS DE ITELIGECIA ARTIFICIAL EN EL ANÁLISIS DE LOS DATOS DATOS.. MINERÍA DE DATOS 7 ITRODUCCIÓ A LA MIERÍA DE DATOS 11 LA MINERÍA DE DATOS O ES UA EXTESIÓ DE LOS SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP (OO-LIE AALYTICAL PROCESSIG PROCESSIG)). LA MIERÍA DE DATOS ASPIRA A MÁS MÁS.. OTRAS HERRAMIETAS HERRAMIETAS,, P.EJ. EJ. CONSULTAS SOFISTICADAS O ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS COMO:: COMO “¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?” JUNIO?”.. “¿LAS VENTAS DEL PRODUCTO X BAJAN CUANDO PROMOCIONAMOS EL PRODUCTO Y?” Y?”.. PERO SÓLO CO TÉCICAS DE MIERÍA DE DATOS PODREMOS RESPONDER A PREGUNTAS DEL ESTILO: ESTILO: “¿QUÉ FACTORES INFLUYEN EN LAS VENTAS DEL PRODUCTO X?” X?”.. “¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS UNA DELEGACIÓN EN PORTUGAL? PORTUGAL?””. MINERÍA DE DATOS 12 ITRODUCCIÓ A LA MIERÍA DE DATOS VISIÓ CO LAS HERRAMIETAS TRADICIOALES TRADICIOALES:: EL ANALISTA EMPIEZA CON UNA PREGUNTA, UNA SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA LOS DATOS Y CONSTRUYE UN MODELO MODELO.. EL AALISTA PROPOE EL MODELO. MODELO. VISIÓ CO LA MIERÍA DE DATOS DATOS:: AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE PROPONER MODELOS, EL SISTEMA ECUETRA Y SUGIERE MODELOS MODELOS.. VETAJAS:: VETAJAS GENERAR UN MODELO REQUIERE MENOS ESFUERZO MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES DE DATOS DATOS.. SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS AUTOMÁTICAMENTE, Y ESTO AUMENTA LA PROBABILIDAD DE ENCONTRAR UN BUEN MODELO MODELO.. EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA EXPERIENCIA.. MINERÍA DE DATOS 13 ITRODUCCIÓ A LA MIERÍA DE DATOS 14 SOPORTE AL DISEÑO DE BASES DE DATOS DATOS.. REVERSE EGIEERIG EGIEERIG:: DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA QUE LUEGO EL SISTEMA LA NORMALICE NORMALICE.. MEJORA DE CALIDAD DE DATOS DATOS.. MEJORA DE COSULTAS COSULTAS:: SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS U OTRAS CONDICIONES EVITABLES EVITABLES.. MINERÍA DE DATOS 16 ITRODUCCIÓ A LA MIERÍA DE DATOS ÁREAS DE APLICACIÓ – PROBLEMAS TIPO: TIPO: APLICACIOES DE KDD PARA TOMA DE DECISIOES, SEGÚ DILLY – 1996 1996:: COMERCIO / MARKETIG: MARKETIG: • IDETIFICAR PATROES DE COMPRA DE LOS CLIENTES.. CLIENTES • BUSCAR ASOCIACIOES ENTRE CLIENTES Y CARACTERÍSTICAS DEMOGRÁFICAS DEMOGRÁFICAS.. • PREDECIR RESPUESTA A CAMPAÑAS DE MAILIG MAILIG.. • AÁLISIS DE CESTAS DE LA COMPRA COMPRA.. MINERÍA DE DATOS 15 ITRODUCCIÓ A LA MIERÍA DE DATOS MINERÍA DE DATOS ITRODUCCIÓ A LA MIERÍA DE DATOS ÁREAS DE APLICACIÓ APLICACIÓ:: TOMA DE DECISIOES DECISIOES:: BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS SANITARIAS / DEMOGRÁFICAS, ETC ETC.. PROCESOS IDUSTRIALES IDUSTRIALES:: COMPONENTES QUÍMICOS, COMPUESTOS, MEZCLAS, ESMALTES, PROCESOS, ETC ETC.. IVESTIGACIÓ CIETÍFICA CIETÍFICA:: MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA, ETC.. ETC AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE IMPORTANTE.. MINERÍA DE DATOS ITRODUCCIÓ A LA MIERÍA DE DATOS 17 BACA: BACA: • DETECTAR PATROES DE USO FRAUDULENTO DE TARJETAS DE CRÉDITO CRÉDITO.. • IDETIFICAR CLIENTES LEALES. LEALES. • PREDECIR CLIENTES CON PROBABILIDAD DE CAMBIAR SU AFILIACIÓN AFILIACIÓN.. • DETERMIAR GASTO EN TARJETA DE CRÉDITO POR GRUPOS.. GRUPOS • ECOTRAR CORRELACIOES ENTRE INDICADORES FINANCIEROS.. FINANCIEROS • IDETIFICAR REGLAS DE MERCADO DE VALORES A PARTIR DE HISTÓRICOS HISTÓRICOS.. MINERÍA DE DATOS 18 ITRODUCCIÓ A LA MIERÍA DE DATOS ITRODUCCIÓ A LA MIERÍA DE DATOS SEGUROS Y SALUD PRIVADA PRIVADA:: • AÁLISIS DE PROCEDIMIENTOS MÉDICOS SOLICITADOS CONJUNTAMENTE CONJUNTAMENTE.. • PREDECIR QUÉ CLIENTES COMPRAN NUEVAS PÓLIZAS.. PÓLIZAS • IDETIFICAR PATROES DE COMPORTAMIENTO PARA CLIENTES CON RIESGO RIESGO.. • IDETIFICAR COMPORTAMIETO FRAUDULENTO FRAUDULENTO.. TRASPORTES:: TRASPORTES • DETERMINAR LA PLAIFICACIÓ DE LA DISTRIBUCIÓN ENTRE TIENDAS. TIENDAS. • AALIZAR PATROES DE CARGA CARGA.. MINERÍA DE DATOS 19 21 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 20 APLICACIOES DE KDD PARA PROCESOS IDUSTRIALES IDUSTRIALES:: EXTRACCIÓ DE MODELOS SOBRE COMPORTAMIENTO DE COMPUESTOS COMPUESTOS.. DETECCIÓ DE PIEZAS CON FALLAS FALLAS.. PREDICCIÓ DE FALLOS FALLOS.. MODELOS DE CALIDAD CALIDAD.. ESTIMACIÓ DE COMPOSICIOES ÓPTIMAS EN MEZCLAS.. MEZCLAS EXTRACCIÓ DE MODELOS DE COSTE COSTE.. EXTRACCIÓ DE MODELOS DE PRODUCCIÓN PRODUCCIÓN.. SIMULACIÓ COSTES/BENEFICIOS SEGÚN NIVELES DE CALIDAD.. CALIDAD MINERÍA DE DATOS MEDICIA: MEDICIA: • IDETIFICACIÓ DE TERAPIAS MÉDICAS SATISFACTORIAS PARA DIFERENTES ENFERMEDADES. ENFERMEDADES. • ASOCIACIÓ DE SÍNTOMAS Y CLASIFICACIÓ DIFERENCIAL DE PATOLOGÍAS PATOLOGÍAS.. • ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES, HÁBITOS, ALIMENTICIOS, ETC ETC..) DE RIESGO / SALUD EN DISTINTAS PATOLOGÍAS PATOLOGÍAS.. • SEGMETACIÓ DE PACIETES PARA UNA ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO GRUPO.. • PREDICCIOES TEMPORALES DE LOS CENTROS ASISTENCIALES PARA EL MEJOR USO DE RECURSOS, CONSULTAS, SALAS Y HABITACIONES HABITACIONES.. • ESTUDIOS EPIDEMIOLÓGICOS EPIDEMIOLÓGICOS,, ANÁLISIS DE RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN, PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC ETC.. EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS ITRODUCCIÓ A LA MIERÍA DE DATOS MINERÍA DE DATOS 22 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS KDD: KDD: KOWLEDGE DISCOVERY FROM DATABASES: DATABASES: DESCUBRIMIETO DE COOCIMIETO DESDE BD. BD. FASES Y TÉCICAS DEL KDD KDD:: LAS DISTINTAS TÉCICAS DE DISTINTAS DISCIPLIAS SE UTILIZAN EN DISTINTAS FASES FASES:: SE INDICAN EN EL GRÁFICO SIGUIENTE SIGUIENTE.. MINERÍA DE DATOS 23 MINERÍA DE DATOS 24 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS MINERÍA DE DATOS 25 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS FASES DEL KDD KDD:: SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN DE DATOS DATOS.. MINERÍA DE DATOS DATOS.. EVALUACIÓN Y VALIDACIÓN VALIDACIÓN.. INTERPRETACIÓN Y DIFUSIÓN DIFUSIÓN.. ACTUALIZACIÓN Y MONITORIZACIÓN MONITORIZACIÓN.. MINERÍA DE DATOS FASE DE MIERÍA DE DATOS (SE AMPLIARÁ MÁS ADELATE) ADELATE):: CARACTERÍSTICAS ESPECIALES DE LOS DATOS DATOS:: APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON DIRECTAMETE APLICABLES? APLICABLES?:: • LOS DATOS RESIDEN EN EL DISCO; DISCO; NO SE PUEDEN ESCANEAR MÚLTIPLES VECES. VECES. • ALGUNAS TÉCNICAS DE MUESTREO NO SON COMPATIBLES CON ALGORITMOS NO INCREMENTALES.. INCREMENTALES • MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS) CAMPOS).. • EVIDENCIA POSITIVA POSITIVA.. • DATOS IMPERFECTOS IMPERFECTOS... ... AUQUE ALGUOS SE APLICA CASI DIRECTAMETE, EL ITERÉS E LA IVESTIGACIÓ E MIERÍA DE DATOS ESTÁ E SU ADAPTACIÓ ADAPTACIÓ.. MINERÍA DE DATOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS FASES DE SELECCIÓ, EXPLORACIÓ, TRASFORMACIÓ DE DATOS DATOS:: SE DETALLARÁN MÁS ADELANTE ADELANTE.. 27 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS 29 26 MINERÍA DE DATOS LIMPIEZA Y 28 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS PATROES A DESCUBRIR DESCUBRIR:: UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓ QUIERE DESCUBRIR DESCUBRIR.. EL TIPO DE COOCIMIETO QUE SE DESEA EXTRAER VA A MARCAR CLARAMENTE LA TÉCICA DE MINERÍA DE DATOS A UTILIZAR UTILIZAR.. SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE PUEDE DISTINGUIR ENTRE ENTRE:: • DIRECTED DATA MIIG MIIG:: SE SABE CLARAMENTE LO QUE SE BUSCA, GENERALMENTE PREDECIR UNOS CIERTOS DATOS O CLASES CLASES.. • UDIRECTED DATA MIIG MIIG:: NO SE SABE LO QUE SE BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE APAREZCA ALGO ITERESATE!) ITERESATE!). EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA UN DETERMINADO TIPO DE PATRÓN A BUSCAR BUSCAR.. MINERÍA DE DATOS 30 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS FASE DE EVALUACIÓ Y VALIDACIÓ VALIDACIÓ:: LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE MODELOS.. MODELOS PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES NECESARIO EL USO DE CRITERIOS DE EVALUACIÓ DE HIPÓTESIS.. HIPÓTESIS MINERÍA DE DATOS MINERÍA DE DATOS 33 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS FASE DE ACTUALIZACIÓ Y MOITORIZACIÓ MOITORIZACIÓ:: LOS PROCESOS DERIVAN EN UN MATEIMIETO MATEIMIETO:: ACTUALIZACIÓ ACTUALIZACIÓ:: • UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN CAMBIO DE CONTEXTO CONTEXTO:: – CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN LAS FUENTES DE DATOS, ETC ETC.. MOITORIZACIÓ MOITORIZACIÓ:: • CONSISTE EN IR REVALIDANDO EL MODELO CON CIERTA FRECUENCIA SOBRE NUEVOS DATOS DATOS:: – EL OBJETIVO ES DETECTAR SI EL MODELO REQUIERE UNA ACTUALIZACIÓN ACTUALIZACIÓN.. PRODUCEN REALIMENTACIONES EN EL PROCESO KDD KDD.. MINERÍA DE DATOS 35 EL MODELO PUEDE TENER MUCHOS USUARIOS Y NECESITA DIFUSIÓ DIFUSIÓ:: • EL MODELO PUEDE REQUERIR SER EXPRESADO DE UNA MANERA COMPRENSIBLE PARA SER DISTRIBUIDO EN LA ORGANIZACIÓN ORGANIZACIÓN.. • P.EJ. EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒ PONERLOS EN ESTANTES DISTANTES. DISTANTES. MINERÍA DE DATOS 34 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS 32 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS FASE DE ITERPRETACIÓ Y DIFUSIÓ DIFUSIÓ:: EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO OTRAS VECES REQUIERE UN PROCESO DE IMPLEMETACIÓ O ITERPRETACIÓ ITERPRETACIÓ:: EL MODELO PUEDE REQUERIR IMPLEMETACIÓ IMPLEMETACIÓ:: • P.EJ. EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS FRAUDULENTAS.. FRAUDULENTAS EL MODELO ES DESCRIPTIVO Y REQUIERE ITERPRETACIÓ:: ITERPRETACIÓ • P.EJ. EJ. UNA CARACTERIZACIÓN DE ZONAS GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS PRODUCTOS VENDIDOS VENDIDOS.. MINERÍA DE DATOS POR EJEMPLO EJEMPLO:: 1ª FASE: FASE: • COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN UN BACO DE EJEMPLOS IDEPEDIETE DEL QUE SE HA UTILIZADO PARA APRENDER EL MODELO. MODELO. • SE PUEDE ELEGIR EL MEJOR MODELO MODELO.. 2ª FASE: FASE: • SE PUEDE REALIZAR UNA EXPERIECIA PILOTO CON ESE MODELO. MODELO. • POR EJEMPLO, SI EL MODELO ENCONTRADO SE QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE ENVIAR UN MAILING A UN SUBCONJUNTO DE CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO MODELO.. 31 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS TIPOLOGÍA DE TÉCICAS DE MIERÍA DE DATOS DATOS:: LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE SON PREDICTIVOS Y/O DESCRIPTIVOS. DESCRIPTIVOS. UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE DATOS FUTUROS FUTUROS:: ¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO? PRÓXIMO?.. ¿ES ESTA TRANSACCIÓN FRAUDULENTA? FRAUDULENTA?.. ¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE EL CLIENTE “X”?. UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN SOBRE LAS RELACIOES ETRE LOS DATOS Y SUS CARACTERÍSTICAS;; GENERA INFORMACIÓN DEL TIPO: CARACTERÍSTICAS TIPO: LOS CLIENTES QUE COMPRAN PAÑALES SUELEN COMPRAR CERVEZA CERVEZA.. EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS IMPORTANTES EN LA ENFERMEDAD “Y”. LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN CARACTERÍSTICAS MUY DIFERENCIADAS DEL RESTO. RESTO. MINERÍA DE DATOS 36 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS EJEMPLO DE MODELO PREDICTIVO: PREDICTIVO: SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL TENIS.. TENIS SE HAN RECOGIDO DATOS DE EXPERIENCIAS ANTERIORES:: ANTERIORES MINERÍA DE DATOS 37 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 39 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS 41 SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE APREDIZAJE DE ÁRBOLES DE DECISIÓ DECISIÓ,, SEÑALANDO EL ATRIBUTO “PLAYTEIS PLAYTEIS”” COMO LA CLASE (OUTPUT). (OUTPUT). EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE MUESTRA EN EL GRÁFICO SIGUIENTE SIGUIENTE.. AHORA SE PUEDE UTILIZAR ESTE MODELO PARA PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS TENIS:: • EJ.: EJ.: LA INSTANCIA ES O O:: – (OUTLOOK = SUNNY, TEMPERATURE = HOT, HUMIDITY = HIGH, WIND = STRONG) STRONG).. MINERÍA DE DATOS 40 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 38 EJEMPLO DE MODELO DESCRIPTIVO: DESCRIPTIVO: SE QUIERE CATEGORIZAR LOS EMPLEADOS EMPLEADOS.. SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS EMPLEADOS:: MINERÍA DE DATOS 42 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE CLUSTERIG K-MEAMS MEAMS.. SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL GRÁFICO SIGUIENTE, DONDE DONDE:: • GRUPO 1: SIN HIJOS Y DE ALQUILER ALQUILER.. POCO SINDICADOS.. MUCHAS BAJAS SINDICADOS BAJAS.. • GRUPO 2: SIN HIJOS Y CON COCHE COCHE.. MUY SINDICADOS SINDICADOS.. POCAS BAJAS BAJAS.. NORMALMENTE DE ALQUILER Y MUJERES.. MUJERES • GRUPO 3: CON HIJOS, CASADOS Y CON COCHE COCHE.. PROPIETARIOS.. POCO SINDICADOS PROPIETARIOS SINDICADOS.. HOMBRES HOMBRES.. MINERÍA DE DATOS 43 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS TIPOS DE COOCIMIETO COOCIMIETO:: ASOCIACIOES ASOCIACIOES:: UNA ASOCIACIÓN ENTRE DOS ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE DEN DOS VALORES DETERMINADOS DE CADA UNO CONJUNTAMENTE ES RELATIVAMENTE ALTA: ALTA: • EJEMPLO EJEMPLO:: EN UN SUPERMERCADO SE ANALIZA SI LOS PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN CONJUNTAMENTE.. CONJUNTAMENTE DEPEDECIAS DEPEDECIAS:: UNA DEPENDENCIA FUNCIONAL (APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL VALOR DE OTRO OTRO.. OJO! EXISTEN MUCHAS DEPENDENCIAS NADA INTERESANTES (CAUSALIDADES IVERSAS IVERSAS)): • EJEMPLO EJEMPLO:: QUE UN PACIENTE HAYA SIDO INGRESADO EN MATERNIDAD DETERMINA SU SEXO SEXO.. LA BÚSQUEDA DE ASOCIACIOES Y DEPEDECIAS SE COOCE A VECES COMO AÁLISIS EXPLORATORIO EXPLORATORIO.. MINERÍA DE DATOS MINERÍA DE DATOS AGRUPAMIETO / SEGMETACIÓ SEGMETACIÓ:: • EL AGRUPAMIENTO (O CLUSTERING) ES LA DETECCIÓ DE GRUPOS DE IDIVIDUOS IDIVIDUOS.. • SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE O SE COOCE I LAS CLASES I SU ÚMERO (APRENDIZAJE NO SUPERVISADO) SUPERVISADO).. • EL OBJETIVO ES DETERMIAR GRUPOS O RACIMOS (CLUSTERS CLUSTERS)) DIFERENCIADOS DEL RESTO. RESTO. 46 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS 47 CLASIFICACIÓ: UNA CLASIFICACIÓN SE PUEDE VER CLASIFICACIÓ: COMO EL ESCLARECIMIETO DE UA DEPEDECIA DEPEDECIA,, EN LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN VALOR ENTRE VARIAS CLASES, YA CONOCIDAS CONOCIDAS:: • EJEMPLO EJEMPLO:: – SE SABE (POR UN ESTUDIO DE DEPENDENCIAS) QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS Y ASTIGMATISMO HAN DETERMINADO LOS PACIENTES PARA LOS QUE SU OPERACIÓN DE CIRUGÍA OCULAR HA SIDO SATISFACTORIA SATISFACTORIA.. – PODEMOS INTENTAR DETERMINAR LAS REGLAS EXACTAS QUE CLASIFICAN UN CASO COMO POSITIVO O NEGATIVO A PARTIR DE ESOS ATRIBUTOS.. ATRIBUTOS MINERÍA DE DATOS MINERÍA DE DATOS 44 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS 45 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS TEDECIAS / REGRESIÓ REGRESIÓ:: EL OBJETIVO ES PREDECIR LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA, GENERALMENTE EL TIEMPO: TIEMPO: • EJEMPLO EJEMPLO:: SE INTENTA PREDECIR EL NÚMERO DE CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS, GANANCIAS, COSTES, ETC ETC.. A PARTIR DE LOS RESULTADOS DE SEMANAS, MESES O AÑOS ANTERIORES.. ANTERIORES IFORMACIÓ DEL ESQUEMA ESQUEMA:: DESCUBRIR CLAVES PRIMARIAS ALTERNATIVAS, R.I. REGLAS GEERALES GEERALES:: PATRONES NO SE AJUSTAN A LOS TIPOS ANTERIORES ANTERIORES;; RECIENTEMENTE LOS SISTEMAS INCORPORAN CAPACIDAD PARA ESTABLECER OTROS PATRONES MÁS GENERALES GENERALES.. MINERÍA DE DATOS 48 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS TAXOOMÍA DE TÉCICAS DE MIERÍA DE DATOS DATOS:: MINERÍA DE DATOS 49 EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS LA SELECCIÓ COMPRENDE LA RECOLECCIÓ E ITEGRACIÓ DE LA INFORMACIÓN INFORMACIÓN.. LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL ORIGINAL.. GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE ENCUENTRA:: ENCUENTRA EN BASES DE DATOS Y OTRAS FUETES MUY DIVERSAS DIVERSAS:: TANTO INTERNAS COMO EXTERAS EXTERAS.. MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN PARA EL TRABAJO TRASACCIOAL TRASACCIOAL.. EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA FUENTE ES UIFICADA,, UIFICADA ACCESIBLE (INTERNA) Y DESCONECTADA DEL TRABAJO TRASACCIOAL TRASACCIOAL.. MINERÍA DE DATOS 53 SISTEMAS DE MIERÍA DE DATOS DATOS:: MINERÍA DE DATOS 50 FASE DE SELECCIÓ E MIERÍA DE DATOS TIPOS DE SISTEMAS SISTEMAS:: STADALOE STADALOE:: LOS DATOS SE DEBEN EXPORTAR / CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE DATA MINING MINING:: • KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL LIMITED, GROUPE BULL) BULL).. OO-TOP TOP:: PUEDEN FUNCIONAR SOBRE UN SISTEMA PROPIETARIO:: PROPIETARIO • CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE ORACLE.. ORACLE EMBEDDED EMBEDDED:: PROPIETARIOS: PROPIETARIOS: • ORACLE DISCOVERER, ORACLE DARWIN, IBM INTELLIGENT MINER, ETC ETC.. EXTESIBLE (TECNOLOGÍA PLUG PLUG--IS) IS): PROPORCIONAN UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO CON PLUG PLUG--INS INS:: • EJ. EJ. KEPLER KEPLER.. MINERÍA DE DATOS 51 FASE DE SELECCIÓ E MIERÍA DE DATOS EL PROCESO DE KDD – TÉCICAS DE MIERÍA DE DATOS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 52 FASE DE SELECCIÓ E MIERÍA DE DATOS EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS DATOS:: DEPENDE MUCHO DE LA FUETE FUETE:: OLAP U OLTP OLTP.. DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL ORIGINAL.. ROLAP O MOLAP MOLAP.. DEPENDE TAMBIÉN DEL TIPO DE USUARIO USUARIO:: “PICAPEDREROS” (O “GRANJEROS”) “GRANJEROS”):: SE DEDICAN FUNDAMENTALMENTE A REALIZAR INFORMES PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC ETC.. “EXPLORADORES” “EXPLORADORES”:: ENCARGADOS DE ENCONTRAR NUEVOS PATRONES SIGNIFICATIVOS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS DATOS.. MINERÍA DE DATOS 54 FASE DE SELECCIÓ E MIERÍA DE DATOS RECOLECCIÓN DE INFORMACIÓN EXTERA EXTERA:: APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN, LOS ALMACENES DE DATOS PUEDEN RECOGER IFORMACIÓ EXTERA EXTERA:: DEMOGRAFÍAS (CENSO), PÁGINAS AMARILLAS, PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET, INFORMACIÓN DE OTRAS ORGANIZACIONES ORGANIZACIONES.. DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE NEGOCIO, ORGANIZACIONES Y COLEGIOS PROFESIONALES, CATÁLOGOS, ETC ETC.. DATOS RESUMIDOS DE ÁREAS GEOGRÁFICAS, DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA ECONOMÍA, INFORMACIÓN DE CALENDARIOS Y CLIMATOLÓGICAS, PROGRAMACIONES TELEVISIVAS TELEVISIVAS-DEPORTIVAS, CATÁSTROFES, ETC ETC.. BD EXTERAS COMPRADAS A OTRAS COMPAÑÍAS COMPAÑÍAS.. MINERÍA DE DATOS 55 FASE DE EXPLORACIÓ E MIERÍA DE DATOS FASE DE EXPLORACIÓ E MIERÍA DE DATOS LA EXPLORACIÓ DE LOS DATOS CONSISTE EN LA UTILIZACIÓN DE TÉCICAS FORMALES DE AÁLISIS EXPLORATORIO EXPLORATORIO:: SE BUSCA CONOCER LA DISTRIBUCIÓ DE LOS DATOS, SU SIMETRÍA Y ORMALIDAD Y LAS CORRELACIOES EXISTENTES EN LA INFORMACIÓN. INFORMACIÓN. SE UTILIZA: UTILIZA: AÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS DATOS.. MEDIDAS DE DIAGÓSTICO FORMAL ESTADÍSTICO ESTADÍSTICO:: EJ.: EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA DISTRIBUCIÓN, CONTRASTES DE ASIMETRÍA, CONTRASTES DE ALEATORIEDAD, ETC ETC.. MINERÍA DE DATOS 57 FASE DE EXPLORACIÓ E MIERÍA DE DATOS MINERÍA DE DATOS 56 FASE DE EXPLORACIÓ E MIERÍA DE DATOS SE DEBE REALIZAR LA COMPROBACIÓ DE LOS SUPUESTOS SUBYACETES EN LOS MÉTODOS MULTIVARIANTES PARA LA MINERÍA DE DATOS DATOS;; ESTOS SUPUESTOS SUELEN SER SER:: EL COTRASTE DE LA ORMALIDAD DE TODAS Y C / U DE LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO. ESTUDIO. EL TESTEO DE LA LIEALIDAD DE LAS RELACIONES ENTRE LAS VARIABLES VARIABLES.. LA COMPROBACIÓ DE LA HOMOCEDASTICIDAD DE LOS DATOS:: DATOS CONSISTE EN VER QUE LA VARIACIÓ DE LA VARIABLE DEPEDIETE QUE SE INTENTA EXPLICAR A TRAVÉS DE LAS VARIABLES INDEPENDIENTES O SE COCETRA EN UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES INDEPENDIENTES.. MINERÍA DE DATOS 58 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS LA COMPROBACIÓ DE LA MULTICOLIEALIDAD O EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES INDEPENDIENTES.. INDEPENDIENTES LA COTRASTACIÓ DE LA AUSECIA DE CORRELACIÓ SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓ AUTOCORRELACIÓ:: CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO CON EL RESTO. RESTO. MINERÍA DE DATOS 59 MINERÍA DE DATOS 60 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS LIMPIEZA (DATA CLEASIG CLEASIG)) Y CRIBA (SELECCIÓ SELECCIÓ)) DE DATOS DATOS:: SE DEBEN ELMIIAR EL MAYOR NÚMERO POSIBLE DE DATOS ERRÓEOS O ICOSISTETES (LIMPIEZA) E IRRELEVATES (CRIBA) (CRIBA).. SE UTILIZAN MÉTODOS ESTADÍSTICOS CASI EXCLUSIVAMENTE:: EXCLUSIVAMENTE HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS) ANÓMALOS).. SELECCIÓ DE DATOS (MUESTREO, YA SEA VERTICALMENTE, ELIMINANDO ATRIBUTOS, U HORIZONTALMENTE, ELIMINANDO TUPLAS) TUPLAS).. REDEFIICIÓ DE ATRIBUTOS (AGRUPACIÓN O SEPARACIÓN).. SEPARACIÓN) MINERÍA DE DATOS 61 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS 62 ACCIONES ANTE DATOS FALTATES (MISSIG VALUES VALUES)): IGORAR IGORAR:: ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS FALTANTES (P. (P.EJ. EJ. ÁRBOLES) ÁRBOLES).. FILTRAR (ELIMIAR O REEMPLAZAR) LA COLUMA COLUMA:: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD.. PREFERIBLE A ELIMINAR LA COLUMNA ES CALIDAD REEMPLAZARLA POR UNA COLUMNA BOOLEANA DICIENDO SI EL VALOR EXISTÍA O NO. NO. FILTRAR LA FILA FILA:: CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES ESPECIALES.. MINERÍA DE DATOS 64 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS REEMPLAZAR EL VALOR VALOR:: POR MEDIAS MEDIAS.. A VECES SE PUEDE PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML ML.. SEGMETAR:: SEGMETAR SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE TIENEN DISPONIBLES. DISPONIBLES. SE OBTIENEN MODELOS DIFERENTES PARA CADA SEGMENTO Y LUEGO SE COMBINAN.. COMBINAN MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y ESPERAR HASTA QUE LOS DATOS FALTATES ESTÉ DISPOIBLES.. DISPOIBLES MINERÍA DE DATOS MINERÍA DE DATOS 63 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS ACCIONES ANTE DATOS AÓMALOS (OUTLIERS OUTLIERS)): IGORAR IGORAR:: ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS ANÓMALOS (P. (P.EJ. EJ. ÁRBOLES) ÁRBOLES).. FILTRAR (ELIMIAR O REEMPLAZAR) LA COLUMA COLUMA:: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD.. PREFERIBLE A ELIMINAR LA COLUMNA ES CALIDAD REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O POR DEBAJO) DEBAJO).. FILTRAR LA FILA FILA:: PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES ESPECIALES.. FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS REEMPLAZAR EL VALOR VALOR:: POR EL VALOR “ULO ULO”” SI EL ALGORITMO LO TRATA BIEN O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE ES EL OUTLIER, O POR MEDIAS MEDIAS.. A VECES SE PUEDE PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML ML.. DISCRETIZAR:: DISCRETIZAR TRASFORMAR UN VALOR CONTINUO EN UNO DISCRETO (P. (P.EJ. EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY BAJO” SIN MAYORES PROBLEMAS PROBLEMAS.. MINERÍA DE DATOS 65 RAZONES SOBRE DATOS FALTATES (MISSIG VALUES VALUES)): A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS DATOS FALTANTES Y ACTUAR EN CONSECUENCIA CONSECUENCIA:: ALGUOS VALORES FALTATES EXPRESA CARACTERÍSTICAS RELEVATES RELEVATES:: • P.EJ. EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR EN MUCHOS CASOS UN DESEO DE QUE NO SE MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO DE DOMICILIO RECIENTE RECIENTE.. VALORES O EXISTETES EXISTETES:: • MUCHOS VALORES FALTANTES EXISTEN EN LA REALIDAD, PERO OTROS NO. NO. P.EJ. EJ. EL CLIENTE QUE SE ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO DE LOS ÚLTIMOS 12 MESES MESES.. DATOS ICOMPLETOS ICOMPLETOS:: • SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO. RESTO. MINERÍA DE DATOS 66 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS MINERÍA DE DATOS 67 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS MINERÍA DE DATOS 68 ITERCAMBIO DE DIMESIOES DIMESIOES:: (FILAS POR COLUMNAS) COLUMNAS):: EJEMPLO EJEMPLO:: UNA TABLA DE CESTAS DE LA COMPRA COMPRA,, DONDE CADA ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O NO. NO. OBJETIVO OBJETIVO:: VER SI DOS PRODUCTOS SE COMPRAN CONJUNTAMENTE (REGLA DE ASOCIACIÓ ASOCIACIÓ)). ES MUY COSTOSO COSTOSO:: HAY QUE MIRAR AL MENOS LA RAÍZ CUADRADA DE TODAS LAS RELACIONES (CESTAS) (CESTAS):: • PUEDE HABER MILLONES EN UNA SEMANA SEMANA... ... • SIN EMBARGO EMBARGO... ... PRODUCTOS SÓLO HAY UNOS 10 10..000 000.. SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA SABER SI HAY ASOCIACIÓ ASOCIACIÓ.. 69 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS MINERÍA DE DATOS 70 FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS TRASFORMACIÓ DE LOS CAMPOS: CAMPOS: UMERIZACIÓ / ETIQUETADO ETIQUETADO:: VETAJAS VETAJAS:: • SE REDUCE ESPACIO ESPACIO:: – EJ: EJ: APELLIDO ⇒ ETERO ETERO.. • SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES SIMPLES.. DESVETAJAS DESVETAJAS:: • SE NECESITA META--IFORMACIÓ META PARA DISTINGUIR LOS DATOS INICIALMENTE NO NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES RELEVANTE:: PRECIOS, UNIDADES, ETC RELEVANTE ETC..). • A VECES SE PUEDE “SESGAR SESGAR”” EL MODELO (BIASIG BIASIG)). MINERÍA DE DATOS TABLA UIVERSAL UIVERSAL:: CUALQUIER ESQUEMA RELACIOAL SE PUEDE COVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA TABLA UIVERSAL UIVERSAL:: VETAJAS VETAJAS:: • MODELOS DE APRENDIZAJE MÁS SIMPLES (PROPOSICIONALES).. (PROPOSICIONALES) DESVETAJAS DESVETAJAS:: • MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES) INGENTES).. LA INFORMACIÓN DEL ESQUEMA SE PIERDE PIERDE.. MUCHAS DEPENDENCIAS FUNCIONALES SE VUELVEN A RE RE-DESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN METAINFORMACIÓN.. FASE DE LIMPIEZA Y TRASFORMACIÓ DE DATOS DESORMALIZADO TIPO ESTRELLA O COPO DE IEVE (DATAMARTS DATAMARTS)): VETAJAS VETAJAS:: • SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN COMPROBAR CON LA INFORMACIÓN DETALLADA DETALLADA.. SE UTILIZAN OPERADORES PROPIOS PROPIOS:: ROLL ROLL--UP, DRILL DRILL-DOW, SLICIG AD DICIG DICIG.. DESVETAJAS DESVETAJAS:: • ORIENTADAS A EXTRAER U TIPO DE INFORMACIÓN INFORMACIÓN.. MINERÍA DE DATOS TRASFORMACIÓ DEL ESQUEMA ESQUEMA:: ESQUEMA ORIGIAL ORIGIAL:: VETAJAS VETAJAS:: • LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE MANTIENEN (NO HAY QUE REAPRENDERLAS, NO DESPISTAN).. DESPISTAN) ICOVEIETES ICOVEIETES:: • MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR UTILIZAR.. 71 DISCRETIZACIÓ: DISCRETIZACIÓ: VETAJAS VETAJAS:: • SE REDUCE ESPACIO: ESPACIO: – EJ. EJ. 0..10 ..10 ⇒ (PEQUEÑO, MEDIAO, GRADE) GRADE).. • SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓ Y CONSTRUIR REGLAS DISCRETAS DISCRETAS.. DESVETAJAS DESVETAJAS:: • UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS RESULTADOS.. RESULTADOS MINERÍA DE DATOS 72 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS – TÉCICAS PREDICTIVAS DE MODELIZACIÓ. TÉCICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓ. CLUSTERS Y ÁRBOLES DE DECISIÓ. REDES EUROALES MINERÍA DE DATOS 73 EL PROBLEMA DE LA EXTRACCIÓ AUTOMÁTICA DE COOCIMIETO:: COOCIMIETO LA MIERÍA DE DATOS O ES MÁS QUE U CASO ESPECIAL DE APREDIZAJE COMPUTACIOAL IDUCTIVO IDUCTIVO.. ¿QUÉ ES APREDIZAJE APREDIZAJE??: VISIÓ GEÉRICA GEÉRICA:: • ES MEJORAR EL COMPORTAMIENTO A PARTIR DE LA EXPERIENCIA.. EXPERIENCIA • APRENDIZAJE = INTELIGENCIA INTELIGENCIA.. VISIÓ MÁS ESTÁTICA ESTÁTICA:: • ES LA IDETIFICACIÓ DE PATROES PATROES,, DE REGULARIDADES,, EXISTENTES EN LA EVIDENCIA. REGULARIDADES EVIDENCIA. VISIÓ EXTERA EXTERA:: • ES LA PREDICCIÓ DE OBSERVACIONES FUTURAS CON PLAUSIBILIDAD PLAUSIBILIDAD.. VISIÓ TEÓRICO TEÓRICO--IFORMACIOAL IFORMACIOAL:: • ES ELIMIACIÓ DE REDUDACIA = COMPRESIÓ DE IFORMACIÓ IFORMACIÓ.. MINERÍA DE DATOS 74 APREDIZAJE IDUCTIVO IDUCTIVO:: RAZOAMIETO HIPOTÉTICO DE CASOS PARTICULARES A CASOS GENERALES GENERALES.. ¿CÓMO SE VALIDA / DESCARTA LAS HIPÓTESIS PARA COFORMAR EL COOCIMIETO ADQUIRIDO? ADQUIRIDO?:: PRICIPIO DE LA IDUCCIÓ IDUCCIÓ:: • LAS HIPÓTESIS PUEDEN SER REFUTADAS, PERO NUNCA CONFIRMADAS CONFIRMADAS.. PARA LAS QUE TODAVÍA O HA SIDO REFUTADAS, ¿CUÁL SE ELIGE? ELIGE?:: • NECESIDAD DE CRITERIOS DE SELECCIÓN SELECCIÓN:: – SIMPLICIDAD, REFUERZO, ETC. ETC. • EXISTENCIA DE MÉTODOS DE VALIDACIÓN VALIDACIÓN:: – ESTADÍSTICOS, CROSS VALIDATION, INFORMACIONALES, ETC ETC.. ¿CUÁTO AFECTA A LA PLAUSIBILIDAD EL ÚMERO DE EJEMPLOS?.. EJEMPLOS? ¿CÓMO AFECTA LA PRESECIA DE RUIDO? RUIDO?.. MINERÍA DE DATOS 76 FASE DE MIERÍA DE DATOS TAXOOMÍA DE TÉCICAS DE DM (DATA MIIG) MIIG):: LOS PROBLEMAS DE APREDIZAJE SE PUEDEN CLASIFICAR COMO SIGUE SIGUE:: IDUCTIVOS IDUCTIVOS:: • PREDICTIVOS PREDICTIVOS:: – INTERPOLACIÓN INTERPOLACIÓN.. – PREDICCIÓN SECUENCIAL SECUENCIAL.. – APRENDIZAJE SUPERVISADO SUPERVISADO.. • DESCRIPTIVOS DESCRIPTIVOS:: – APRENDIZAJE NO SUPERVISADO SUPERVISADO.. ABDUCTIVOS ABDUCTIVOS:: • EXPLICATIVOS EXPLICATIVOS:: – ABDUCCIÓN O APRENDIZAJE ANALÍTICO ANALÍTICO.. MINERÍA DE DATOS 75 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS SU ESTUDIO COMPREDE COMPREDE:: EL PROBLEMA DE LA EXTRACCIÓ AUTOMÁTICA DE COOCIMIETO.. COOCIMIETO EVALUACIÓ DE HIPÓTESIS HIPÓTESIS.. TÉCNICAS O SUPERVISADAS Y DESCRIPTIVAS DESCRIPTIVAS.. TÉCNICAS SUPERVISADAS Y PREDICTIVAS PREDICTIVAS.. 77 CLASIFICACIÓ DE LAS TÉCICAS DE APREDIZAJE APREDIZAJE:: ITERPOLACIÓ ITERPOLACIÓ:: • UNA FUNCIÓN CONTINUA SOBRE VARIAS DIMENSIONES.. DIMENSIONES PREDICCIÓ SECUECIAL SECUECIAL:: • LAS OBSERVACIONES ESTÁN ORDENADAS SECUENCIALMENTE.. SECUENCIALMENTE • SE PREDICE EL SIGUIENTE VALOR DE LA SECUENCIA SECUENCIA.. • CASO PARTICULAR DE INTERPOLAC INTERPOLAC.. CON 2 DIM DIM.., UNA DISCRETA Y REGULAR REGULAR.. MINERÍA DE DATOS 78 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS APREDIZAJE SUPERVISADO SUPERVISADO:: • CADA OBSERVACIÓN INCLUYE UN VALOR DE LA CLASE A LA QUE CORRESPONDE CORRESPONDE.. • SE APRENDE UN CLASIFICADOR CLASIFICADOR.. • CASO PARTICULAR DE INTERPOLACIÓN INTERPOLACIÓN:: – LA CLASE (IMAG. (IMAG. FUNCIÓN) ES DISCRETA DISCRETA.. APREDIZAJE O SUPERVISADO SUPERVISADO:: • EL CONJUNTO DE OBSERVACIONES NO TIENEN CLASES ASOCIADAS ASOCIADAS.. • EL OBJETIVO ES DETECTAR REGULARIDADES EN LOS DATOS DE CUALQUIER TIPO TIPO:: – AGRUPACIONES, CONTORNOS, ASOCIACIONES, VALORES ANÓMALOS ANÓMALOS.. ABDUCCIÓ O APREDIZAJE AALÍTICO AALÍTICO:: • EL CONTEXTO B ES MUY IMPORTANTE IMPORTANTE.. • EL OBJETIVO ES EXPLICAR LA EVIDENCIA RESPECTO A B. MINERÍA DE DATOS PREDICCIÓ SECUECIAL SECUECIAL:: • 1, 2, 3, 5, 7, 11 11,, 13 13,, 17 17,, 19 19,, ... ?. APREDIZAJE SUPERVISADO SUPERVISADO:: • 1 3 → 4. • 3 5 → 8. • 7 2 → 9. • 4 2 → ?. MINERÍA DE DATOS 80 FASE DE MIERÍA DE DATOS APREDIZAJE O SUPERVISADO SUPERVISADO:: AÁLISIS EXPLORATORIO EXPLORATORIO:: • CORRELACIONES, ASOCIACIONES Y DEPENDENCIA DEPENDENCIA.. MINERÍA DE DATOS 81 FASE DE MIERÍA DE DATOS EJEMPLOS DESCRIPTIVOS: DESCRIPTIVOS: SEGMETACIÓ (APREDIZAJE O SUPERVISADO) SUPERVISADO):: • ¿CUÁNTOS GRUPOS HAY? HAY?.. • ¿QUÉ GRUPOS FORMO? FORMO?.. EJEMPLOS PREDICTIVOS: PREDICTIVOS: ITERPOLACIÓ ITERPOLACIÓ:: 79 FASE DE MIERÍA DE DATOS 82 FASE DE MIERÍA DE DATOS PREDICTIVO: PREDICTIVO: ITERPOLACIÓ Y PREDICCIÓ SECUECIAL:: SECUECIAL GENERALMENTE LAS MISMAS TÉCNICAS TÉCNICAS:: • DATOS COTIUOS (REALES) (REALES):: – REGRESIÓ LIEAL LIEAL:: – * REGRESIÓN LINEAL GLOBAL (CLÁSICA) (CLÁSICA).. – * REGRESIÓN LINEAL PONDERADA LOCALMENTE LOCALMENTE.. – REGRESIÓ O LIEAL LIEAL:: – * LOGARÍTMICA, PICK & MIX, ... • DATOS DISCRETOS DISCRETOS:: – NO HAY TÉCNICAS ESPECÍFICAS ESPECÍFICAS:: – * SE SUELEN UTILIZAR TÉCNICAS DE ALGORITMOS GENÉTICOS O ALGORITMOS DE ENUMERACIÓN REFINADOS REFINADOS.. MINERÍA DE DATOS MINERÍA DE DATOS 83 PREDICTIVO: APREDIZAJE SUPERVISADO PREDICTIVO: SUPERVISADO:: DEPENDIENDO DE SI SE ESTIMA UNA FUCIÓ O UNA CORRESPODECIA:: CORRESPODECIA • CLASIFICACIÓ CLASIFICACIÓ:: – SE ESTIMA UNA FUCIÓ FUCIÓ.. – LAS CLASES SON DISJUTAS DISJUTAS.. • CATEGORIZACIÓ CATEGORIZACIÓ:: – SE ESTIMA UNA CORRESPODECIA CORRESPODECIA.. – LAS CLASES PUEDEN SOLAPAR SOLAPAR.. MINERÍA DE DATOS 84 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS DEPENDIENDO DEL ÚMERO Y TIPO DE CLASES CLASES:: • CLASE DISCRETA:: DISCRETA SE CONOCE COMO “CLASIFICACIÓ CLASIFICACIÓ””: – EJEMPLO EJEMPLO:: DETERMINAR EL GRUPO SANGUÍNEO A PARTIR DE LOS GRUPOS SANGUÍNEOS DE LOS PADRES.. PADRES – SI SÓLO TIENE DOS VALORES (V (VERDADERO) Y F (FALSO)) SE CONOCE COMO “COCEPT LEARIG””: LEARIG – * EJEMPLO EJEMPLO:: DETERMINAR SI UN COMPUESTO QUÍMICO ES CANCERÍGENO CANCERÍGENO.. • CLASE COTIUA O DISCRETA ORDEADA ORDEADA:: SE CONOCE COMO “ESTIMACIÓ ESTIMACIÓ”” (O TAMBIÉN “REGRESIÓ REGRESIÓ”) ”):: – EJEMPLO EJEMPLO:: ESTIMAR EL NÚMERO DE HIJOS DE UNA FAMILIA A PARTIR DE OTROS EJEMPLOS DE FAMILIAS.. FAMILIAS MINERÍA DE DATOS 85 FASE DE MIERÍA DE DATOS 87 86 DESCRIPTIVO: DESCRIPTIVO: SEGMETACIÓ (APREDIZAJE O SUPERVISADO):: SUPERVISADO) TÉCNICAS DE CLUSTERIG : • K-MEANS (COMPETITIVE LEARNING) LEARNING).. • REDES NEURONALES DE KOHONEN KOHONEN.. • EM (ESTIMATED MEANS) (DEMPSTER ET AL. AL. 1977) 1977). • COBWEB (FISHER 1987 1987)). • AUTOCLASS AUTOCLASS.. • ... MINERÍA DE DATOS 88 FASE DE MIERÍA DE DATOS SIMILITUD / DISTACIA DISTACIA:: UN CONCEPTO IMPORTANTE EN EL APREDIZAJE SUPERVISADO (CLASIFICACIÓ) Y O SUPERVISADO (SEGMETACIÓ) ES EL CONCEPTO DE SIMILITUD SIMILITUD:: LA RAZÓN DE ESTE USO ES QUE, INTUITIVAMETNE, DATOS SIMILARES TENDRÁN CLASES / GRUPOS SIMILARES SIMILARES:: • ¿CÓMO SE MIDE LA SIMILITUD SIMILITUD??. DISTACIA INVERSA A SIMILITUD SIMILITUD.. LOS MÉTODOS DE SIMILITUD (O DE DISTANCIA) SE BASAN EN: EN: • ALMACENAR LOS EJEMPLOS VISTOS, Y. • CALCULAR LA SIMILITUD / DISTANCIA DEL NUEVO CASO CON EL RESTO DE EJEMPLOS EJEMPLOS.. MINERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS PREDICTIVO: PREDICTIVO: APREDIZAJE SUPERVISADO (CLASIFICACIÓ):: (CLASIFICACIÓ) TÉCICAS TÉCICAS:: • SIMILARITY SIMILARITY--BASED BASED:: – K-NN (NEAREST NEIGHBOR) NEIGHBOR).. • FECE AD FILL FILL:: – K-MEANS (COMPETITIVE LEARNING) LEARNING).. – PERCEPTRON LEARNING LEARNING.. – MULTILAYER ANN (ARTIFITIAL NEURAL NETWORK) METHODS (E (E..G. BACKPROPAGATION) BACKPROPAGATION).. – RADIAL BASIS FUNCTIONS FUNCTIONS.. – DECISION TREE LEARNING. LEARNING. – BAYES CLASSIFIERS CLASSIFIERS.. – CENTER SPLITTING METHODS METHODS.. – RULES RULES.. • PSEUDO PSEUDO--RELATIOAL RELATIOAL:: SUPERCHARGING, PICK PICK--AND AND-MIX.. MIX • RELATIOAL RELATIOAL:: ILP, IFLP, SCIL SCIL.. FASE DE MIERÍA DE DATOS DESCRIPTIVO: AÁLISIS EXPLORATORIO DESCRIPTIVO: EXPLORATORIO:: TÉCICAS TÉCICAS:: • ESTUDIOS CORRELACIONALES CORRELACIONALES.. • ASOCIACIONES ASOCIACIONES.. • DEPENDENCIAS DEPENDENCIAS.. • DETECCIÓN DATOS ANÓMALOS ANÓMALOS.. • ANÁLISIS DE DISPERSIÓN DISPERSIÓN.. MINERÍA DE DATOS 89 EXISTEN MUCHAS FORMAS DE CALCULAR LA DISTACIA DISTACIA:: CON VALORES COTIUOS (CONVENIENTE ORMALIZAR ENTRE 0-1 ANTES): ANTES): • DISTACIA EUCLÍDEA EUCLÍDEA.. • DISTACIA DE MAHATTA MAHATTA.. • DISTACIA DE CHEBYCHEV CHEBYCHEV.. CON VALORES COTIUOS (O ES NECESARIO ORMALIZAR)): ORMALIZAR • DISTACIA DEL COSEO COSEO.. CON VALORES DISCRETOS DISCRETOS:: • DISTACIAS POR DIFERECIA. DIFERECIA. • DISTACIA DE EDICIÓ EDICIÓ.. • DISTACIAS ESPECÍFICAS ESPECÍFICAS.. MINERÍA DE DATOS 90 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS DISTACIA EUCLÍDEA EUCLÍDEA:: n DISTACIA DE CHEBYCHEV CHEBYCHEV:: maxi =1..n xi − yi ∑ (x − y ) 2 i i i =1 DISTACIA DE MAHATTA MAHATTA:: n ∑x −y i i i =1 MINERÍA DE DATOS 91 FASE DE MIERÍA DE DATOS DISTACIA DEL COSEO COSEO:: CADA EJEMPLO ES UN VECTOR VECTOR.. LA DISTANCIA ES EL COSENO DEL ÁNGULO QUE FORMAN FORMAN.. DISTACIAS POR DIFERECIA: DIFERECIA: EJEMPLO EJEMPLO:: IF X=Y THEN D=0 D=0 ELSE D=1 D=1. DISTACIAS ESPECÍFICAS ESPECÍFICAS:: PARA LOS EJEMPLOS COMPLEJOS DE CBR (CASE(CASE-BASED REASONING).. REASONING) MINERÍA DE DATOS FASE DE MIERÍA DE DATOS EVALUACIÓ DE HIPÓTESIS HIPÓTESIS:: EL PROBLEMA DEL APRENDIZAJE NO ESTÁ ESPECIFICADO COMPLETAMENTE.. COMPLETAMENTE SI SÓLO NOS BASAMOS EN LA EVIDENCIA, UNA SOLUCIÓN AL PROBLEMA SERÍA CUALQUIER HIPÓTESIS QUE CUBRE LA EVIDECIA.. EVIDECIA SI EL LENGUAJE ES EXPRESIVO, PUEDEN EXISTIR IFIITAS HIPÓTESIS.. HIPÓTESIS OBJETIVO OBJETIVO:: ELEGIR LA HIPÓTESIS H QUE MINIMIZA EL ERROR DE LA HIPÓTESIS H RESPECTO LA FUNCIÓN OBJETIVO F: • ¿QUÉ ERROR? ERROR?.. MEDIDAS DE ERROR PARA EVALUAR HIPÓTESIS HIPÓTESIS:: SE CONSIDERA: CONSIDERA: • D: DOMIIO DOMIIO.. • S: SAMPLE SAMPLE:: MUESTRA MUESTRA.. TRUE ERROR ERROR:: • CASO DISCRETO DISCRETO:: error D(h) = Pr [ f ( x) ≠ h( x)] x∈ D • CASO COTIUO (P. (P.EJ. EJ.ERROR CUADRÁTICO MEDIO) MEDIO):: error D(h) = lim S→ D MINERÍA DE DATOS 93 FASE DE MIERÍA DE DATOS 1 ∑ ( f ( x) − h( x))2 n x∈S MINERÍA DE DATOS 94 FASE DE MIERÍA DE DATOS SAMPLE ERROR: ERROR: • CASO DISCRETO DISCRETO:: errortrain (h) = 92 1 ∑ ∂( f ( x) ≠ h( x)) n x∈trainSet PROBLEMAS TÍPICOS: TÍPICOS: UDER UDER--FITTIG FITTIG:: SUBAJUSTE):: SUBAJUSTE) (SOBREGENERALIZACIÓN O • CASO COTIUO (P. (P.EJ. EJ.ERROR CUADRÁTICO MEDIO) MEDIO):: errortrain (h) = 1 ∑ ( f ( x) − h( x)) 2 n x∈trainSet OVER-FITTIG OVERFITTIG:: SUPERAJUSTE):: SUPERAJUSTE) (SOBREESPECIALIZACIÓN O – DONDE (δ(TRUE)= (TRUE)=1 1, δ(FALSE)= (FALSE)=0 0) Y n= |TRAINSET|. |TRAINSET|. MINERÍA DE DATOS 95 MINERÍA DE DATOS 96 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS DEFIICIÓ DE OVER OVER--FITTIG FITTIG:: UNA HIPÓTESIS h ∈ H SOBRE SOBRE--ESPECIALIZA O SUPERAJUSTA SI EXISTE UNA HIPÓTESIS ALTERNATIVA h’ ∈ H TAL QUE: QUE: • SAMPLE OR TRAIN ERROR ERROR:: errortrain (h) < errortrain (h' ) • TRUE ERROR: ERROR: error D( h) > error D( h' ) MINERÍA DE DATOS 97 FASE DE MIERÍA DE DATOS 98 EVALUACIÓ POR TÉCICAS BAYESIAAS BAYESIAAS:: LA MEJOR HIPÓTESIS ES LA MÁS PROBABLE PROBABLE.. BASADAS EN EL TEOREMA DE BAYES BAYES:: • DESPEJAN P(h|D) h|D). LA DISTRIBUCIÓN DE HIPÓTESIS A PRIORI P(h) Y LA PROBABILIDAD DE UNAS OBSERVACIONES RESPECTO A CADA HIPÓTESIS P(D|h) D|h) DEBEN SER CONOCIDAS. CONOCIDAS. SON SÓLO TÉCNICAS EVALUADORAS AUNQUE SI EL CONJUNTO DE HIPÓTESIS H ES REDUCIDO SE PUEDEN UTILIZAR EN ALGORITMOS DE APRENDIZAJE APRENDIZAJE.. PERMITEN ACOMODAR HIPÓTESIS PROBABILÍSTICAS TALES COMO “ESTE PACIENTE DE NEUMONÍA TIENE UN 93% 93 % DE POSIBILIDADES DE RECUPERARSE” RECUPERARSE”.. MUCHAS VECES NO SE CONOCE P(h) O INCLUSO P(D|h) D|h): • SE HACEN SUPOSICIONES SUPOSICIONES:: DISTRIBUCIÓN UNIFORME, NORMAL O UNIVERSAL UNIVERSAL.. 99 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS ¿QUÉ HIPÓTESIS SE ELIGE ELIGE??: APROXIMACIONES EN FRÍO FRÍO:: • ASUMIR DISTRIBUCIONES A PRIORI PRIORI.. • SEPARAR SEPARAR:: TRAINING SET Y TEST SET: SET: – CROSS CROSS--VALIDATION VALIDATION.. APROXIMACIONES EN CALIENTE CALIENTE:: • CRITERIO DE SIMPLICIDAD, DE DESCRIPCIÓN O TRANSMISIÓN MÍNIMAS MÍNIMAS.. • BASADAS EN REFUERZO REFUERZO.. OTRA PREGUNTA IMPORTANTE IMPORTANTE:: CÓMO SE SABE LO BIEN QUE SE COMPORTARÁ EN EL FUTURO.. FUTURO MINERÍA DE DATOS PROBLEMA: F (LA FUNCIÓN OBJETIVO) NO SE CONOCE!!! PROBLEMA: CONOCE!!!.. SE PUEDE CALCULAR EL SAMPLE ERROR PERO NO EL TRUE ERROR.. ERROR SI SE CONSIDERA SÓLO LA MUESTRA Y SE MIIMIZA EL SAMPLE ERROR, ERROR, APARECERÁN DOS PROBLEMAS PROBLEMAS:: SI LA EVIDENCIA ES SÓLO POSITIVA POSITIVA:: • UDER UDER--FITTIG O SOBREGENERALIZACIÓN SOBREGENERALIZACIÓN.. SI LA EVIDENCIA TIENE MÁS DE UNA CLASE CLASE:: • OVER OVER--FITTIG O SOBREESPECIALIZACIÓN SOBREESPECIALIZACIÓN.. MINERÍA DE DATOS 100 FASE DE MIERÍA DE DATOS TEOREMA DE BAYES, MAP Y MAXIMUM LIKELIHOOD LIKELIHOOD:: P(h|D) h|D): • PROBABILIDAD DE UNA HIPÓTESIS DADO UN CJTO CJTO.. DE DATOS.. DATOS P(h): • PROBABILIDAD A PRIORI DE LAS HIPÓTESIS HIPÓTESIS.. P(D|h) D|h): • PROBABILIDAD DE D DADA LA HIPÓTESIS HIPÓTESIS.. P(D): • PROBABILIDAD A PRIORI DE LOS DATOS (SIN OTRA INFORMACIÓN).. INFORMACIÓN) TEOREMA DE BAYES BAYES:: (PROB. (PROB. A POSTERIORI A PARTIR DE A PRIORI):: PRIORI) P(h | D) = P ( D | h) P ( h) P( D) CRITERIO MAP (MAXIMUM A POSTERIORI) (h ES INDEP. INDEP. DE P(D)): hMAP = arg max P(h | D ) = arg max h∈H h∈H P ( D | h) P ( h) = arg max P ( D | h) P(h) P ( D) h∈H MAXIMUM LIKELIHOOD (ASUMIENDO P(h) UNIFORME) UNIFORME):: hML = arg max P ( D | h) h∈H MINERÍA DE DATOS 101 MINERÍA DE DATOS 102 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS EVALUACIÓ BAYESIAA BAYESIAA:: SI EL CJTO. CJTO. DE HIPÓTESIS H ES PEQUEÑO Y CONOCIDO CONOCIDO:: • SE PUEDE ASUMIR LA DISTRIBUCIÓN UNIFORME UNIFORME:: P ( h) = EL PRICIPIO MDL (MIIMUM DESCRIPTIO LEGTH) LEGTH):: SE ASUME P(h) COMO LA DISTRIBUCIÓN UNIVERSAL (OCCAM’S RAZOR) RAZOR):: P ( h) = 2 − K ( h ) 1 |H | SI H ES INFINITO: INFINITO: • LA DISTRIBUCIÓN UNIFORME NO ESTÁ BIEN DEFINIDA (P=0 (P=0). • AUNQUE EL MAXIMUM LIKELIHOOD SE PUEDE SEGUIR UTILIZANDO UTILIZANDO.. • K(·) ES LA COMPLEJIDAD DESCRIPCIONAL (KOLMOGOROV) DE H. FORMALIZACIÓN DE LA NAVAJA DE OCCAM OCCAM:: • “LAS HIPÓTESIS CON MÍNIMA DESCRIPCIÓN MÁS PEQUEÑA SON MÁS PROBABLES” PROBABLES”.. SE ASUME P(D|h) D|h) DE LA MISMA MANERA MANERA:: P ( D | h ) = 2 − K ( D| h ) MINERÍA DE DATOS 103 FASE DE MIERÍA DE DATOS hMAP = arg max P( D | h) P(h ) = arg max log[P( D | h) P(h )] = k∈H = arg max log P( D | h) + log P( h) = arg max log 2 − K ( D|h ) + log 2 − K ( h ) = k∈H k∈H = arg max (− K ( D | h) − K ( h)) k∈H RESULTA EN: EN: hMDL = arg min( K (h) + K ( D | h)) k∈H MINERÍA DE DATOS PARTICIÓ DE LA MUESTRA MUESTRA:: EVALUAR UNA HIPÓTESIS SOBRE LOS MISMOS DATOS QUE HAN SERVIDO PARA GENERARLA DA SIEMPRE RESULTADOS MUY OPTIMISTAS OPTIMISTAS.. SOLUCIÓ SOLUCIÓ:: PARTIR E: E: TRAIIG SET Y TEST SET SET.. SI LOS DATOS DISPONIBLES SON GRANDES (O ILIMITADOS):: ILIMITADOS) • TRAIIG SET SET:: CJTO. CJTO. CON EL QUE EL ALGORITMO APRENDE UNA O MÁS HIPÓTESIS HIPÓTESIS.. • TEST SET SET:: CJTO. CJTO. CON EL QUE SE SELECCIONA LA MEJOR DE LAS ANTERIORES Y SE ESTIMA SU VALIDEZ VALIDEZ.. PARA PROBLEMAS CON CLASE DISCRETA DISCRETA:: • SE CALCULA LA “ACCURACY”, QUE SE MIDE COMO EL PORCENTAJE DE ACIERTOS SOBRE EL TEST SET. SET. PARA PROBLEMAS CON CLASE COTIUA COTIUA:: • SE UTILIZA LA MEDIA DEL ERROR CUADRÁTICO U OTRAS MEDIDAS SOBRE EL TEST SET. SET. MINERÍA DE DATOS 106 FASE DE MIERÍA DE DATOS PARTICIÓ DE LA MUESTRA (CROSS (CROSS--VALIDATIO) VALIDATIO):: SI LOS DATOS DISPOIBLES SO PEQUEÑOS PEQUEÑOS,, PARTIR LOS DATOS EN DOS CJTOS CJTOS.. RESTRINGE EL NÚMERO DE EJEMPLOS DISPONIBLES PARA EL ALGORITMO → PEORES RESULTADOS.. RESULTADOS SOLUCIOES SOLUCIOES:: • 2-FOLD CROSSCROSS-VALIDATIO VALIDATIO.. • K-FOLD CROSSCROSS-VALIDATIO VALIDATIO.. • LEAVE OE OUT CROSSCROSS-VALIDATIO VALIDATIO.. 2-FOLD CROSSCROSS-VALIDATIO VALIDATIO:: • SE PARTE EN 2 CJTOS CJTOS.. S1 Y S2 DE IGUAL TAMAÑO TAMAÑO.. • SE ENTRENA EL ALGORITMO CON S1 Y SE EVALÚAN LAS HIPÓTESIS H1 CON S2. • SE ENTRENA LUEGO EL ALGORITMO CON S2 Y SE EVALÚAN LAS HIPÓTESIS H2 CON S1. • SE SELECCIONA LA HIPÓTESIS CON LA MEJOR PRECISIÓN O EL MENOR ERROR ERROR.. MINERÍA DE DATOS 105 FASE DE MIERÍA DE DATOS 104 FASE DE MIERÍA DE DATOS LA HIPÓTESIS MÁS PROBABLE ES LA QUE MINIMIZA LA SUMA DE SU DESCRIPCIÓN Y LA DESCRIPCIÓN DE LOS DATOS RESPECTO A ELLA ELLA.. A PARTIR DE MAP (MAXIMUM A POSTERIORI) SE TIENE TIENE:: k∈H MINERÍA DE DATOS 107 K-FOLD CROSSCROSS-VALIDATIO VALIDATIO:: • LOS n DATOS SE PARTEN k VECES (k<n k<n)) EN 2 SUBCJTOS SUBCJTOS.. • NORMALMENTE SE USA n/k PARA TEST Y n-n/k PARA ENTRENAMIENTO, EXCLUYENDO CADA VEZ UN SUBCONJUNTO DISTINTO DISTINTO.. • EL ALGORITMO SE EJECUTA k VECES VECES.. • SE ELIGE LA MEJOR SOLUCIÓN DE LAS k VECES VECES.. LEAVE OE OUT CROSSCROSS-VALIDATIO VALIDATIO:: • CUANDO k = n. • NORMALMENTE NO HACE FALTA APURAR TANTO Y CON K-FOLD PARA UN k SUFICIENTE ESTÁ BIEN. BIEN. • ADEMÁS, LA ACCURACY MEDIA OBTENIDA DE LOS k CASOS DA UNA ESTIMACIÓN DE CÓMO SE VA A COMPORTAR LA HIPÓTESIS PARA DATOS NUEVOS NUEVOS.. MINERÍA DE DATOS 108 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS UA VEZ OBTEIDA UA HIPÓTESIS HIPÓTESIS... ... ¿CÓMO OBTENER SU PRECISIÓN (ACCURACY) PARA DATOS FUTUROS? FUTUROS?.. UTILIZAR LA PRECISIÓN PARA EL TRAIIG DATA PUEDE SER UNA APROXIMACIÓN, ¿PERO CUÁN BUENA? BUENA?.. LA ESTADÍSTICA NOS DA SOLUCIONES PARA ESTO ESTO:: • SUPONIENDO LA MUESTRA S DE n EJEMPLOS, LA HIPÓTESIS h ES DISCRETA Y SON INDEPENDIENTES INDEPENDIENTES.. • SI n ≥ 30, 30, NOS PERMITE APROXIMAR LA DISTRIBUCIÓN BINOMIAL CON LA NORMAL NORMAL.. • CALCULADO EL ERRORS(h) SOBRE LA MUESTRA COMO º ERRORES / n. MINERÍA DE DATOS DONDE Zc ES LA CONSTANTE OBTENIDA DE LA TABLA DE CONFIANZAS DE LA NORMAL NORMAL.. ALGUNOS VALORES DE LA TABLA NORMAL NORMAL:: NIVEL DE CONFIANZA c: CONSTANTE ZC: 50 50% % 0.67 68 68% % 1.00 80 80% % 1.28 90 90% % 1.64 95 95% % 1.96 98% 98% 2.33 MINERÍA DE DATOS 99% 99% 2.58 110 DATOS IMPERFECTOS (COSECUECIAS): (COSECUECIAS): RUIDO O DISPERSIÓN DE DATOS ⇒ OVERFITTIG OVERFITTIG:: • ES NECESARIO PODAR LAS HIPÓTESIS, ELIMINADO PARTES DE LA HIPÓTESIS MUY ADAD-HOC (CUBREN UNO O POCOS EJEMPLOS) EJEMPLOS).. • EL CRITERIO MDL ES UN BUEN MÉTODO PARA ESTO ESTO.. CONOCIMIENTO PREVIO IAPROPIADO ⇒ ITRATABILIDAD:: ITRATABILIDAD • DEMASIADO CONOCIMIENTO PREVIO PREVIO:: – SE NECESITA METACONOCIMIENTO O PRIORIZACIÓN DE LOS PREDICADOS PREDICADOS.. • POCO CONOCIMIENTO PREVIO O DEL DOMINIO: DOMINIO: – SE NECESITA INVENCIÓN DE NUEVOS FUNCIONES / CONCEPTOS / PREDICADOS PREDICADOS.. ARGUMENTOS FALTANTES EN LOS EJEMPLOS ⇒ SE PIERDE TAMAÑO DE MUESTRA SI NO SE ES CAPAZ DE APROVECHARLOS:: APROVECHARLOS • LOS SISTEMAS BASADOS EN ÁRBOLES DE DECISIÓN LOS TRATAN TRATAN.. 111 MINERÍA DE DATOS 112 FASE DE MIERÍA DE DATOS EVALUACIÓ DE MODELOS DESCRIPTIVOS: DESCRIPTIVOS: REGLAS DE ASOCIACIÓN ASOCIACIÓN:: • EVALUACIÓN SENCILLA SENCILLA:: – DOS PARÁMETROS (SUPPORT, COFIDECE) COFIDECE).. NO SUPERVISADOS SUPERVISADOS:: • MUCHO MÁS COMPLEJA QUE EN LOS PREDICTIVOS PREDICTIVOS.. • COCEPTO DE ERROR DIFÍCIL DE DEFIIR DEFIIR.. EN LOS MÉTODOS BASADOS EN DISTANCIA SE PUEDEN MIRAR CIERTOS PARÁMETROS: PARÁMETROS: • DISTANCIA ENTRE BORDES DE LOS CLUSTERS CLUSTERS.. • DISTANCIA ENTRE CENTROS (DE HABERLOS) HABERLOS).. • RADIO Y DENSIDAD (DESV (DESV.. TÍPICA DE LA DIST DIST..) DE LOS CLUSTERS CLUSTERS.. PARA CADA EJEMPLO A AGRUPAR SE COMPRUEBA SU DISTANCIA CON EL CENTRO O CON EL BORDE DE CADA CLUSTER.. CLUSTER MINERÍA DE DATOS errorS ( h)(1 − errorS ( h)) n FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS errorS ( h) ± Z c · DATOS IMPERFECTOS (TIPOS): (TIPOS): RUIDO RUIDO:: • EN EL CONOCIMIENTO PREVIO PREVIO.. • EN LA EVIDENCIA O EJEMPLOS DE ENTRENAMIENTO ENTRENAMIENTO:: – VALORES ERRÓNEOS DE ARGUMENTOS DE LOS EJEMPLOS.. EJEMPLOS – CLASIFICACIÓN ERRÓNEA DE ALGÚN EJEMPLO EJEMPLO.. EJEMPLOS DE ETREAMIETO MUY DISPERSOS DISPERSOS.. COOCIMIETO PREVIO CORRECTO PERO IAPROPIADO:: IAPROPIADO • EXISTENCIA DE MUCHO CONOCIMIENTO PREVIO IRRELEVATE PARA EL PROBLEMA A APRENDER APRENDER.. • CONOCIMIENTO PREVIO ISUFICIETE PARA EL PROBLEMA A APRENDER (ALGUNOS PREDICADOS AUXILIARES SERÍAN NECESARIOS) NECESARIOS).. ARGUMETOS FALTATES E LOS EJEMPLOS. EJEMPLOS. MINERÍA DE DATOS SE PUEDE OBTENER UN ITERVALO DE COFIAZA A UN NIVEL c: 109 FASE DE MIERÍA DE DATOS 113 TÉCICAS O SUPERVISADAS Y DESCRIPTIVAS DESCRIPTIVAS:: MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: CORRELACIÓ ASOCIACIOES (AÁLISIS EXPLORATORIO O AALYSIS):: AALYSIS) COEFICIETE DE CORRELACIÓ CORRELACIÓ:: Cor ( x , y ) = Y LIK Cov ( x , y ) σ x ·σ y • DONDE DONDE:: Cov ( x , y ) = 1 n ∑ ( xi − µ x )( yi − µ y ) n i =1 MINERÍA DE DATOS 114 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • ASOCIACIOES: ASOCIACIOES: CUADO LOS ATRIBUTOS SO DISCRETOS:: DISCRETOS – EJEMPLO EJEMPLO:: TABAQUISMO Y ALCOHOLISMO ESTÁN ASOCIADOS.. ASOCIADOS • DEPEDECIAS FUCIOALES FUCIOALES:: ASOCIACIÓ UIDIRECCIOAL:: UIDIRECCIOAL – EJEMPLO EJEMPLO:: EL NIVEL DE RIESGO DE ENFERMEDADES CARDIOVASCULARES DEPENDE DEL TABAQUISMO Y ALCOHOLISMO (ENTRE OTRAS COSAS) COSAS).. MINERÍA DE DATOS 116 MATRIZ DE CORRELACIOES CORRELACIOES:: Health 1 -0.7378 0.3116 0.3116 0.2771 0.22008 0.3887 0.3955 Need Transp’tion Child Care Sick Time Satisfaction Ease No-Show 1 -01041 -01041 0.0602 -0.1337 -0.0334 -0.5416 1 1 0.6228 0.6538 0.6504 -0.5031 1 0.6228 0.6538 0.6504 -0.5031 1 0.6257 0.6588 -0.7249 1 0.8964 -0.3988 1 -0.3278 1 COEFICIETES DE REGRESIÓ REGRESIÓ:: Independent Variable Health Need Transportation Child Care Sick Time Satisfaction Ease Coefficient .6434 .0445 -.2391 -.0599 -.7584 .3537 -.0786 • INDICA QUE UN INCREMENTO DE 1 EN EL FACTOR HEALTH AUMENTA LA PROBABILIDAD DE QUE NO APAREZCA EL PACIENTE EN UN 64 64..34 34% %. MINERÍA DE DATOS 118 FASE DE MIERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: REGLAS DE ASOCIACIÓ Y DEPEDECIA:: DEPEDECIA LA TERMINOLOGÍA NO ES MUY COHERENTE EN ESTE CAMPO.. CAMPO FAYYAD, P.EJ. EJ. SUELE LLAMAR ASOCIACIOES A TODO Y REGLA DE ASOCIACIÓN A LAS DEPEDECIAS DEPEDECIAS.. ASOCIACIOES ASOCIACIOES:: • SE BUSCAN ASOCIACIONES DE LA SIGUIENTE FORMA FORMA:: – (X1 = a) ↔ (X4 = b). • DE LOS n CASOS DE LA TABLA, QUE LAS DOS COMPARACIOES SEA VERDADERAS O FALSAS SERÁ CIERTO E RC CASOS CASOS.. • EL PARÁMETRO TC (COFIDECE COFIDECE)) ES ES:: – TC= CERTEZA DE LA REGLA = RC/n /n.. • SI CONSIDERAMOS VALORES NULOS, TENEMOS TAMBIÉN UN NÚMERO DE CASOS EN LOS QUE SE APLICA SATISFACTORIAMENTE (DIFERENTE DE TC) Y DENOMINADO TS. MINERÍA DE DATOS Health Need Transportation Child Care Sick Time Satisfaction Ease No-Show 117 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS EJEMPLO: ESTUDIO DE VISITAS EJEMPLO: VISITAS:: 11 PACIENTES, 7 FACTORES:: FACTORES • HEALTH HEALTH:: SALUD DEL PACIENTE (REFERIDA A LA CAPACIDAD DE IR A LA CONSULTA) CONSULTA).. (1-10) 10). • NEED NEED:: CONVICCIÓN DEL PACIENTE QUE LA VISITA ES IMPORTANTE.. (1-10) IMPORTANTE 10). • TRANSPORTATION TRANSPORTATION:: DISPONIBILIDAD DE TRANSPORTE DEL PACIENTE AL CENTRO CENTRO.. (1-10) 10). • CHILD CARE CARE:: DISPONIBILIDAD DE DEJAR LOS NIÑOS A CUIDADO.. (1-10) CUIDADO 10). • SICK TIME TIME:: SI EL PACIENTE ESTÁ TRABAJANDO, PUEDE DARSE DE BAJA BAJA.. (1-10) 10). • SATISFACTION SATISFACTION:: SATISFACCIÓN DEL CLIENTE CON SU MÉDICO.. (1-10) MÉDICO 10). • EASE EASE:: FACILIDAD DEL CENTRO PARA CONCERTAR CITA Y EFICIENCIA DE LA MISMA MISMA.. (1-10) 10). • NONO-SHOW SHOW:: INDICA SI EL PACIENTE NO SE HA PASADO POR EL MÉDICO DURANTE EL ÚLTIMO AÑO (0-SE HA PASADO, 1 NO SE HA PASADO) PASADO).. MINERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: CORRELACIOES Y ESTUDIOS FACTORIALES:: FACTORIALES PERMITEN ESTABLECER RELEVACIA / IRRELEVACIA DE FACTORES Y SI AQUÉLLA ES POSITIVA O NEGATIVA RESPECTO A OTRO FACTOR O VARIABLE A ESTUDIAR ESTUDIAR.. 115 FASE DE MIERÍA DE DATOS 119 DEPEDECIAS DE VALOR VALOR:: • SE BUSCAN DEPENDENCIAS DE LA SIGUIENTE FORMA (IF ATE THEN COS COS)): – P.EJ.: EJ.: IF (X1 (X1= a, X3=c, X5=d) THEN (X4 (X4=b, X2=a) =a).. • DE LOS n CASOS DE LA TABLA, EL ATECEDETE SE PUEDE HACER CIERTO E ra CASOS Y DE ESTOS E rc CASOS SE HACE TAMBIÉ EL COSECUETE, TEEMOS LOS PARÁMETROS PARÁMETROS:: – TC (COFIDECE/ACCURACY COFIDECE/ACCURACY)) Y TS (SUPPORT SUPPORT)). – TC= CERTEZA DE LA REGLA =rc/ra, FUERZA O COFIAZA P(COS|ATE COS|ATE)). – TS = MÍIMO º DE CASOS O PORCETAJE E LOS QUE SE APLICA SATISFACTORIAMETE (rc O rc /n RESPECTIVAMETE):: RESPECTIVAMETE) – TAMBIÉN SE LO DENOMINA PREVALECIA PREVALECIA:: P(COS ∧ ATE ATE)). MINERÍA DE DATOS 120 FASE DE MIERÍA DE DATOS DNI 11251545 30512526 22451616 25152516 23525251 FASE DE MIERÍA DE DATOS EJEMPLO: EJEMPLO: • ASOCIACIOES ASOCIACIOES:: – CASADO E (HIJOS > 0) ESTÁN ASOCIADOS (80 80% %, 4 CASOS).. CASOS) – OBESO Y CASADO ESTÁN ASOCIADOS (80 80% %, 4 CASOS).. CASOS) • DEPEDECIAS DEPEDECIAS:: – (HIJOS > 0) CASADO (100 100% %, 2 CASOS) CASOS).. – CASADO OBESO (100 100% %, 3 CASOS) CASOS).. Renta Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Barcelona Melilla León Valencia Benidorm Profesión Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temático Edad 45 25 35 30 30 Hijos 3 0 2 0 0 MINERÍA DE DATOS Obeso S S S S N 121 123 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 122 PROPIEDAD: PROPIEDAD: • CUALQUIER SUBCONJUNTO DE GRANDE ES TAMBIÉN GRANDE GRANDE.. UN MINERÍA DE DATOS CONJUNTO 124 FASE DE MIERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE ASOCIACIOES:: ASOCIACIOES FASE A: • MÉTODO GENÉRICO DE BÚSQUEDA DE “LARGE ITEMSETS”.. ITEMSETS” • DADO UN SUPPORT MÍNIMO smin: – 1. i= i=1 1 (TAMAÑO DE LOS CONJUNTOS) CONJUNTOS).. – 2. GENERAR UN CONJUNTO UNITARIO PARA CADA ATRIBUTO EN Si. – 3. COMPROBAR EL SUPPORT DE TODOS LOS CONJUNTOS EN Si. ELIMINAR AQUELLOS CUYO SUPPORT < smin. – 4. COMBINAR LOS CONJUNTOS EN Si PARA CREAR CONJUNTOS DE TAMAÑO i+ i+1 1 EN Si+ i+1 1. – 5. SI Si NO ES VACÍO ETOCES i:= i+ i+1 1. IR A 3. – 6. SI O O,, RETORNAR S2 ∪ S3 ∪ ... ∪ Si MINERÍA DE DATOS CODICIOES QUE SE SUELE IMPOER IMPOER:: • TC > 95 95% %. • TS > 20 (ABSOLUTO) O 50 50% % (RELATIVO) (RELATIVO).. • LA BÚSQUEDA DE ASOCIACIONES CON ESTAS CONDICIONES NO ES UN PROBLEMA INDUCTIVO, YA QUE SE TRATA DE UN PROBLEMA COMPLETAMENTE DETERMINADO, SIN CRITERIOS DE EVALUACIÓN Y RELATIVAMENTE SIMPLE. SIMPLE. COMPLEJIDAD DE LOS ALGORITMOS DE ASOCIACIONES Y DEPENDENCIAS:: DEPENDENCIAS • TEMPORAL TEMPORAL:: – BAJO CIERTAS CONDICIONES DE DISPERSIÓN Y PARA ATRIBUTOS DISCRETOS SE PUEDEN ENCONTRAR EN CASI TIEMPO LINEAL LINEAL.. FASE DE MIERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE ASOCIACIOES Y DEPEDECIAS DEPEDECIAS:: LA MAYORÍA SE BASA EN DESCOMPONER EL PROBLEMA EN DOS FASES FASES:: • FASE A: – BÚSQUEDA DE “LARGE ITEMSETS” ITEMSETS”.. – SE BUSCAN CONJUNTOS DE ATRIBUTOS CON ‘SUPPORT’ >= AL SUPPORT DESEADO, LLAMADOS ‘LARGE ITEMSETS’ (CONJUNTOS DE ATRIBUTOS GRANDES).. GRANDES) – DE MOMENTO NO SE BUSCA SEPARARLOS EN PARTE IZQUIERDA Y PARTE DERECHA. DERECHA. • FASE B: – ESCLARECIMIETO DE DEPEDECIAS (REGLAS).. (REGLAS) – SE HACEN PARTICIONES BINARIAS Y DISJUNTAS DE LOS ITEMSETS Y SE CALCULA LA CONFIANZA DE CADA UNO UNO.. – SE RETIENEN AQUELLAS REGLAS QUE TIENEN CONFIANZA >= A LA CONFIANZA DESEADA DESEADA.. MINERÍA DE DATOS Casado S N S S N FASE DE MIERÍA DE DATOS 125 • HAY REFINAMIENTOS QUE PERMITEN UNA MEJOR PARALELIZACIÓN (DIVIDEN EN SUBPROBLEMAS CON MENOS TUPLAS Y LUEGO COMPRUEBAN PARA TODO EL PROBLEMA): PROBLEMA): – EL MÁS FAMOSO ES EL ALGORITMO “APRIORI” (AGRAWAL & SRIKANT) SRIKANT).. MINERÍA DE DATOS 126 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS EJEMPLO: EJEMPLO: FASE A: • SUPPORT = 2; CONFIDENCE = 0.75. 75. • TABLA TABLA:: Fila 1 2 3 4 1 x x 2 x x x S1= { {1}, {2}, {3}, {4}, {5} } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } 3 x x x 4 x FASE B: • SE EVALÚA LA CONFIANZA CONFIANZA:: {1}→{3} : 1 {2}→{3} : 0.67 {2}→{5} : 1 {3}→{5} : 0.67 {2,3}→{5} : 1 5 x x x {3}→{1} : 0.67 {3}→{2} : 0.67 {5}→{2} : 1 {5}→{3} : 0.67 {2,5}→{3} : 0.67 {3,5}→{2} : 1 S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S’3:support = { {2,3,5}:2 } Sfinal = S’2 ∪ S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} } MINERÍA DE DATOS 127 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 128 FASE DE MIERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: PATROES SECUECIALES SECUECIALES:: SE TRATA DE ESTABLECER ASOCIACIONES DEL ESTILO: ESTILO: • “SI COMPRA X E T COMPRARÁ Y E T+P T+P””. EJEMPLO EJEMPLO:: MINERÍA DE DATOS 129 FASE DE MIERÍA DE DATOS 130 FASE DE MIERÍA DE DATOS MÉTODOS REPRESETATIVOS (AGRAWAL SRIKAT) SRIKAT):: • APRIORIALL APRIORIALL.. • APRIORISOME APRIORISOME.. • DYAMICSOME DYAMICSOME.. • PROBLEMA PROBLEMA:: – LOS USUARIOS QUIEREN ESPECIFICAR RESTRICCIOES SOBRE EL TIEMPO MÁXIMO Y MÍNIMO ENTRE EVENTOS SECUENCIALES SECUENCIALES.. • EXTESIOES EXTESIOES:: – MINERÍA DE PATRONES SECUENCIALES CON RESTRICCIOES.. RESTRICCIOES – P.EJ. EJ. SÓLO PERMITIR LAS SECUENCIAS SI LOS ELEMENTOS ADYACENTES (P. (P.EJ. EJ. COMPRAS) SUCEDEN EN UN INTERVALO MENOR A DOS MESES.. MESES MINERÍA DE DATOS MINERÍA DE DATOS 131 MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: DEPEDECIAS FUCIOALES FUCIOALES:: A ^ B ^ C → D. SIGNIFICA QUE PARA LOS MISMOS VALORES DE A, B Y C TENEMOS UN SOLO VALOR DE D, ES DECIR D ES FUCIÓ DE A, B Y C. SI REPRESENTAMOS LA PARTE IZQUIERDA COMO UN CONJUNTO DE CONDICIONES, PODEMOS ESTABLECER UNA RELACIÓ DE ORDE ENTRE LAS DEPENDENCIAS FUNCIONALES.. FUNCIONALES ESTO GENERA UN SEMI SEMI--RETÍCULO RETÍCULO:: • LA BÚSQUEDA SE REALIZA EN ESTE RETÍCULO. RETÍCULO. • SEGÚN MANNILA & RÄIHÄ TIENE COSTE EXPOECIAL.. EXPOECIAL • SEGÚN FLACH & SAVNIK FDEP INCLUYE INCLUYE:: – SIMPLE TOPTOP-DOW ALGORITHM ALGORITHM.. – BOTTOM BOTTOM--UP ALGORITHM. ALGORITHM. – BIBI-DIRECTIOAL ALGORITHM ALGORITHM.. MINERÍA DE DATOS 132 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS A^B^C A^B B^ C A A^C B C MINERÍA DE DATOS 133 FASE DE MIERÍA DE DATOS 134 MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: APREDIZAJE O SUPERVISADO:: SUPERVISADO CLUSTERIG (SEGMETACIÓ) (SEGMETACIÓ):: • SE TRATA DE BUSCAR AGRUPAMIETOS NATURALES EN UN CONJUNTO DE DATOS TAL QUE TENGAN SEMEJANZAS.. SEMEJANZAS MINERÍA DE DATOS 136 FASE DE MIERÍA DE DATOS MÉTODOS DE AGRUPAMIETO AGRUPAMIETO:: • JERÁRQUICOS JERÁRQUICOS:: – LOS DATOS SE AGRUPAN DE MANERA ARBORESCENTE (P. (P.EJ. EJ. EL REINO ANIMAL) ANIMAL).. • O JERÁRQUICOS: JERÁRQUICOS : GENERAR PARTICIONES A UN NIVEL:: NIVEL – PARAMÉTRICOS PARAMÉTRICOS:: SE ASUMEN QUE LAS DENSIDADES CONDICIONALES DE LOS GRUPOS TIENEN CIERTA FORMA PARAMÉTRICA CONOCIDA (P. (P.E. GAUSSIANA), Y SE REDUCE A ESTIMAR LOS PARÁMETROS PARÁMETROS.. – O PARAMÉTRICOS: PARAMÉTRICOS : NO ASUMEN NADA SOBRE EL MODO EN EL QUE SE AGRUPAN LOS OBJETOS OBJETOS.. MINERÍA DE DATOS 135 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS CLASIFICACIÓ: CLASIFICACIÓ: • ESTABLECEN (CLARIFICAN) UNA DEPENDENCIA FUNCIONAL.. FUNCIONAL • PUEDE SER UN CONJUNTO DE DEPENDENCIAS DE VALOR (1). MINERÍA DE DATOS MÉTODOS DESCRIPTIVOS: DESCRIPTIVOS: DIFERECIAS ASOCIACIOES / DEPEDECIAS, DEPEDECIAS FUCIOALES Y CLASIFICACIÓ:: CLASIFICACIÓ ASOCIACIOES Y DEPEDECIAS DEPEDECIAS:: • A=a ^ B=b ^ C=c → D=d ^ E=e E=e.. ASOCIACIOES EGATIVAS EGATIVAS:: • A=a ^ B=b ^ C=c → D<>d ^ E<>e E<>e.. DEPEDECIAS FUCIOALES FUCIOALES:: • A ^ B ^ C → D. • SI EXISTE UNA TUPLA TAL QUE A=X ^ B=Y ^ C=Z ^ D=W ENTONCES PARA CUALQUIER OTRA TUPLA QUE A=X ^ B=Y ^ C=Z ENTONCES D=W D=W.. • O DICHO DE OTRA MANERA MANERA:: – ( SELECT MAX(COUNT(DISTINCT D)) – FROM R – GROUP BY A, B, C; ) = 1; 137 CLUSTERIG (SEGMETACIÓ) (SEGMETACIÓ).. MÉTODOS JERÁRQUICOS:: JERÁRQUICOS • UN MÉTODO SENCILLO CONSISTE EN IR SEPARANDO INDIVIDUOS SEGÚN SU DISTANCIA (EN CONCRETO MEDIDAS DERIVADAS DE ENLAZADO, LIKAGE LIKAGE)) E IR AUMENTANDO EL LÍMITE DE DISTANCIA PARA HACER GRUPOS.. GRUPOS • ESTO NOS DA DIFERENTES AGRUPACIONES A DISTINTOS NIVELES, DE UNA MANERA JERÁRQUICA JERÁRQUICA:: – SE DENOMINA DEDOGRAMA O HIERARCHICAL TREE PLOT PLOT:: MINERÍA DE DATOS 138 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS 139 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 140 FASE DE MIERÍA DE DATOS 141 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 142 FASE DE MIERÍA DE DATOS • MIIMAL SPAIG TREE CLUSTERIG ALGORITHM.. ALGORITHM • ALGORITMO (DADO UN NÚMERO DE CLUSTERS DESEADO C) C).. • INICIALMENTE CONSIDERA CADA EJEMPLO COMO UN CLÚSTER:: CLÚSTER – AGRUPA EL PAR DE CLUSTERS MÁS CERCANOS PARA FORMAR UN NUEVO CLUSTER CLUSTER.. – REPITE EL PROCESO ANTERIOR HASTA QUE EL NÚMERO DE CLUSTERS = C. MINERÍA DE DATOS MINERÍA DE DATOS 143 CLUSTERIG (SEGMETACIÓ) (SEGMETACIÓ).. MÉTODOS PARAMÉTRICOS:: PARAMÉTRICOS • EL ALGORITMO EM (EXPECTATIO MAXIMIZATIO MAXIMIZATIO,, MAXIMUM LIKELIHOOD ESTIMATE) O ALGORITMO DE DEMPSTER.. DEMPSTER MINERÍA DE DATOS 144 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS CLUSTERIG (SEGMETACIÓ) (SEGMETACIÓ).. MÉTODOS O PARAMÉTRICOS:: PARAMÉTRICOS • MÉTODOS MÉTODOS:: – K-NN. NN. – K-MEANS CLUSTERING CLUSTERING.. – ONLINE K-MEANS CLUSTERING CLUSTERING.. – CENTROIDES CENTROIDES.. – SOM (SELF (SELF--ORGANIZING MAPS) O REDES KOHONEN.. KOHONEN • OTROS ESPECÍFICOS ESPECÍFICOS:: – EL ALGORITMO COBWEB (FISHER). (FISHER). – EL ALGORITMO AUTOCLASS (CHEESEMAN & STUTZ).. STUTZ) MINERÍA DE DATOS 145 FASE DE MIERÍA DE DATOS – LA CONECTIVIDAD ENTRE PUNTOS GENERA LOS GRUPOS.. GRUPOS – A VECES HACE GRUPOS PEQUEÑOS PEQUEÑOS.. – EXISTEN VARIANTES VARIANTES:: k-NN O COMO EL SPANNING TREE QUE PARA DE AGRUPAR CUANDO LLEGA A UN NÚMERO DE GRUPOS GRUPOS.. MINERÍA DE DATOS 146 FASE DE MIERÍA DE DATOS • k-MEAS CLUSTERIG CLUSTERIG:: – SE UTILIZA PARA ENCONTRAR LOS k PUNTOS MÁS DENSOS EN UN CONJUNTO ARBITRARIO DE PUNTOS.. PUNTOS – ALGORITMO ALGORITMO:: – 1. DIVIDIR ALEATORIAMENTE LOS EJEMPLOS EN k CONJUNTOS Y CALCULAR LA MEDIA (EL PUNTO MEDIO) DE CADA CONJUNTO CONJUNTO.. – 2. REASIGNAR CADA EJEMPLO AL CONJUNTO CON EL PUNTO MEDIO MÁS CERCANO CERCANO.. – 3. CALCULAR LOS PUNTOS MEDIOS DE LOS k CONJUNTOS.. CONJUNTOS – 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS CONJUNTOS NO VARÍEN VARÍEN.. MINERÍA DE DATOS • 1- (EAREST EIGHBOUR) EIGHBOUR):: – DADO UNA SERIE DE EJEMPLOS EN UN ESPACIO, SE CONECTA CADA PUNTO CON SU PUNTO MÁS CERCANO:: CERCANO 147 FASE DE MIERÍA DE DATOS – EL VALOR DE k SE SUELE DETERMINAR HEURÍSTICAMENTE.. HEURÍSTICAMENTE – PROBLEMAS PROBLEMAS:: – 1- SI SE SABE QUE HAY n CLASES, HACER k=n PUEDE RESULTAR EN QUE, ALGUNAS VECES, ALGÚN GRUPO USE DOS CENTROS Y DOS GRUPOS SEPARADOS TENGAN QUE COMPARTIR CENTRO CENTRO.. – 2- SI k SE ELIGE MUY GRANDE, LA GENERALIZACIÓN ES POBRE Y LAS AGRUPACIONES FUTURAS SERÁN MALAS MALAS.. – 3- DETERMINAR EL k IDEAL ES DIFÍCIL DIFÍCIL.. MINERÍA DE DATOS 148 FASE DE MIERÍA DE DATOS – 1: – 2: – 3: MINERÍA DE DATOS 149 MINERÍA DE DATOS 150 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS 151 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 152 FASE DE MIERÍA DE DATOS 153 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS 154 FASE DE MIERÍA DE DATOS 155 MINERÍA DE DATOS 156 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS 157 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 158 FASE DE MIERÍA DE DATOS 159 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS 160 FASE DE MIERÍA DE DATOS 161 MINERÍA DE DATOS 162 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS 163 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 164 FASE DE MIERÍA DE DATOS 165 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS MINERÍA DE DATOS 166 FASE DE MIERÍA DE DATOS 167 MINERÍA DE DATOS 168 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS FASE DE MIERÍA DE DATOS 169 FASE DE MIERÍA DE DATOS 170 FASE DE MIERÍA DE DATOS • OO-LIE k-MEAS CLUSTERIG (COMPETITIVE LEARIG):: LEARIG) – REFINAMIENTO INCREMENTAL DEL ANTERIOR. ANTERIOR. – ALGORITMO ALGORITMO:: – 1. INICIALIZAR ALEATORIAMENTE k PUNTOS, LLAMADOS CETROS CETROS.. – 2. ELEGIR EL SIGUIENTE EJEMPLO Y VER CUÁL ES EL CENTRO MÁS CERCANO CERCANO.. MOVER EL CENTRO HACIA EL EJEMPLO. EJEMPLO. (P. (P.EJ. EJ. DISTANCIA / 2). – 3. REPETIR EL PASO 2 PARA CADA EJEMPLO EJEMPLO.. – 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS EJEMPLOS CAPTURADOS POR CADA CENTRO NO VARÍEN.. VARÍEN MINERÍA DE DATOS MINERÍA DE DATOS 171 FASE DE MIERÍA DE DATOS – EL VALOR DE k SE SUELE DETERMINAR HEURÍSTICAMENTE.. HEURÍSTICAMENTE – PROBLEMAS PROBLEMAS:: – 1- SI k SE ELIGE MUY PEQUEÑO, HAY GRUPOS QUE SE QUEDAN SIN CENTRO CENTRO.. – 2- SI k SE ELIGE MUY GRANDE, HAY CENTROS QUE SE QUEDAN HUÉRFANOS HUÉRFANOS.. AUQUE ESTO ES PREFERIBLE A... – 3- INCLUSO CON k EXACTO, PUEDE HABER ALGÚN CENTRO QUE QUEDE HUÉRFANO HUÉRFANO.. – UNA VARIANTE ES ES:: LVQ (LINEAR VECTOR QUANTIZATION) (KOHONEN) (KOHONEN).. MINERÍA DE DATOS 172 FASE DE MIERÍA DE DATOS – 1: • SOM (SELF(SELF-ORGAIZIG MAPS) O REDES KOHOE KOHOE:: – TAMBIÉ COOCIDOS COMO LVQ (LIEAR(LIEARVECTOR QUATIZATIO) O REDES DE MEMORIA ASOCIATIVA ASOCIATIVA.. – LA MATRIZ DE NEURONAS DE LA ÚLTIMA CAPA FORMA UN GRID BIDIMENSIONAL BIDIMENSIONAL.. – 2: – 3: MINERÍA DE DATOS 173 MINERÍA DE DATOS 174 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS – DURANTE EL ETREAMIETO CADA UNO DE LOS NODOS DE ESTE GRID COMPITE CON LOS DEMÁS PARA GANAR CADA UNO DE LOS EJEMPLOS.. EJEMPLOS – FINALMENTE LOS NODOS FUERTES (REPRESENTADOS CON COLORES MÁS OSCUROS) GANAN MÁS EJEMPLOS QUE LOS NODOS DÉBILES DÉBILES.. – AL FINAL DEL APRENDIZAJE LA RED SE ESTABILIZA Y SÓLO UNAS POCAS COMBINACIONES DE PARES (X,Y) OBTIENEN REGISTROS.. REGISTROS – ESTOS SON LOS GRUPOS FORMADOS FORMADOS.. – TAMBIÉN PUEDE VERSE COMO UNA RED QUE REDUCE LA DIMENSIONALIDAD A 2. – POR ESO ES COMÚN REALIZAR UNA REPRESETACIÓ BIDIMESIOAL CON EL RESULTADO DE LA RED PARA BUSCAR GRUPOS VISUALMENTE.. VISUALMENTE MINERÍA DE DATOS 175 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 176 FASE DE MIERÍA DE DATOS TÉCICAS SUPERVISADAS Y PREDICTIVAS PREDICTIVAS:: MÉTODOS PREDICTIVOS: PREDICTIVOS: ITERPOLACIÓ Y PREDICCIÓ SECUECIAL:: SECUECIAL REGRESIÓ LIEAL GLOBAL GLOBAL:: • SE BUSCAN LOS COEFICIENTES DE UNA FUNCIÓN LINEAL:: LINEAL fˆ ( x) = w0 + w1 x1 +... + wn xn • UNA MANERA FÁCIL (SI ES LIEAL SIMPLE SIMPLE,, SÓLO DOS DIMENSIONES x E y): y): w1 = n(∑ xy )(∑ x )(∑ y ) ( ) n ∑ x − (∑ x ) 2 2 (∑ y )(∑ x )− (∑ x )(∑ xy ) n(∑ x ) − (∑ x ) 2 w0 = 2 2 • OBTENIENDO y = w0 + w1x. MINERÍA DE DATOS 177 FASE DE MIERÍA DE DATOS • ERROR TÍPICO SIMPLE:: SIMPLE DE UA REGRESIÓ ) [ LIEAL ] ( 178 FASE DE MIERÍA DE DATOS (n∑ xy )− (∑ x )(∑ y ) 2 1 2 2 Etipico = n ∑ y − (∑ y ) − 2 n ∑ x 2 − (∑ x ) n(n − 2) ( MINERÍA DE DATOS ) REGRESIÓ LIEAL GLOBAL POR GRADIETE DESCEDETE:: DESCEDETE • UNA MANERA USUAL ES UTILIZANDO “GRADIET DESCET””. DESCET • SE INTENTA MINIMIZAR LA SUMA DE CUADRADOS CUADRADOS:: E= 1 ∑ x∈D ( f ( x) − fˆ ( x))2 2 • DERIVANDO DERIVANDO:: ∆w j = r ·∑ x∈D ( f ( x) − fˆ ( x)) x j • ITERATIVAMENTE SE VAN AJUSTANDO COEFICIENTES Y REDUCIENDO EL ERROR. ERROR. MINERÍA DE DATOS 179 MINERÍA DE DATOS LOS 180 FASE DE MIERÍA DE DATOS REGRESIÓ O LIEAL LIEAL:: • ESTIMACIÓN LOGARÍTMICA (SE FUNCIÓN A OBTENER POR y=ln ln((f)): FASE DE MIERÍA DE DATOS SUSTITUYE LA y = w0 + w1 x1 +... + wm xm REGRESIÓ LIEAL PODERADA LOCALMETE LOCALMETE:: • LA FUNCIÓN LINEAL SE APROXIMA PARA CADA PUNTO xq A INTERPOLAR INTERPOLAR:: fˆ ( x ) = w0 + w1 x1 +... + wm xm • SE HACE REGRESIÓN LINEAL PARA CALCULAR LOS COEFICIENTES Y A LA HORA DE PREDECIR SE CALCULA LA f = ey. REGRESIÓ LOGÍSTICA LOGÍSTICA:: • VARIACIÓN QUE SE USA PARA CLASIFICACIÓ ENTRE 0 Y 1 USANDO LA f= ln ln(p/( (p/(1 1-p)). p)). PICK AD MIX – SUPERCHARGIG SUPERCHARGIG:: • SE AÑADEN DIMENSIONES, COMBINANDO LAS DADAS DADAS.. • P. EJ.: EJ.: SI SE TIENEN CUATRO DIMENSIONES DIMENSIONES:: x1, x2, x3 (ADEMÁS DE y) SE PUEDE DEFINIR x4 = x1·x2 , x5= x32, x6 = x1x2 Y OBTENER UNA FUNCIÓN LINEAL DE x1, x2, x3, x4, x5, x6. MINERÍA DE DATOS 181 FASE DE MIERÍA DE DATOS 1 ∑ ( f ( x) − fˆ ( x))2 K (d ( xq , x)) 2 x∈{ los k puntos más cercanos} • DONDE d(·,·) ES UNA DISTANCIA Y K ES UNA FUNCIÓN QUE DISMINUYE CON LA DISTANCIA (UNA FUNCIÓN KERNEL), P.EJ. EJ. 1/d2. • GRADIENT DESCENT DESCENT:: ∆w j = r · ∑ ( f ( x) − fˆ ( x))·K (d ( x , x))·x q 182 FASE DE MIERÍA DE DATOS • SE INTENTA MINIMIZAR LA SUMA DE CUADRADOS DE LOS k MÁS CERCANOS CERCANOS:: E= MINERÍA DE DATOS j REGRESIÓ ADAPTATIVA ADAPTATIVA:: • SON CASOS PARTICULARES DE REGRESIÓN LOCAL, EN LOS QUE SE SUPONE UN ORDEN Y SE UTILIZA PREFERENTEMENTE PARA PREDECIR FUTUROS VALORES DE UNA SERIE SERIE:: – MUY UTILIZADA EN COMPRESIÓN DE SONIDO Y DE VÍDEO, EN REDES, ETC. ETC. (SE PREDICEN LAS SIGUIENTES TRAMAS) TRAMAS).. – ALGORITMOS MUCHO MÁS SOFISTICADOS (CADENAS DE MARKOV, VQ) VQ).. – ALGORITMO MARS (MULTIPLE ADAPTIVE REGRESSION SPLINES) (FRIEDMAN) (FRIEDMAN).. x∈{ los k puntos más cercanos } • A MAYOR k MÁS GLOBAL, A MENOR k MÁS LOCAL (PERO OJO CON EL OVERFITTING). OVERFITTING). MINERÍA DE DATOS 183 MÉTODOS PREDICTIVOS: PREDICTIVOS: APREDIZAJE SUPERVISADO SUPERVISADO:: k- (EAREST EIGHBOUR) EIGHBOUR):: • 1. SE MIRAN LOS k CASOS MÁS CERCANOS CERCANOS.. • 2. SI TODOS SON DE LA MISMA CLASE, EL NUEVO CASO SE CLASIFICA EN ESA CLASE CLASE.. • 3. SI NO, SE CALCULA LA DISTANCIA MEDIA POR CLASE O SE ASIGNA A LA CLASE CON MÁS ELEMENTOS.. ELEMENTOS • EL VALOR DE k SE SUELE DETERMINAR HEURÍSTICAMENTE.. HEURÍSTICAMENTE MINERÍA DE DATOS 184 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 185 • MEJORA (PONDERAR MÁS LOS MÁS CERCANOS) CERCANOS):: Atracción(c j , xq ) = {xi : xi ∈ c j } ·krnli • DONDE DONDE:: krnli = 1 d ( xq , xi ) 2 • SE CALCULA LA FUERZA DE ATRACCIÓN DE CADA CLASE cj PARA EL NUEVO PUNTO xq. • SE ELIGE LA CLASE QUE MÁS ATRAE ATRAE.. • SI EL PUNTO xq COINCIDE CON UN PUNTO xi, LA CLASE ES LA DE xi. • SI EL PUNTO xq COINCIDE CON MÁS DE UN PUNTO xi, SE PROCEDE DE LA FORMA ANTERIOR ANTERIOR.. MINERÍA DE DATOS 186 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • PARA VALORES CONTINUOS (SIRVE PARA INTERPOLAR):: INTERPOLAR) – SI LA CLASE ES UN VALOR REAL, EL k-NN ES FÁCILMENTE ADAPTABLE ADAPTABLE:: k fˆ ( xq ) = ∑ krnl f ( x ) i (O-LIE) k-MEAS CLUSTERIG (OCLUSTERIG:: • AUNQUE LO VIMOS COMO UNA TÉCNICA NO SUPERVISADA, TAMBIÉN SE PUEDE UTILIZAR PARA APRENDIZAJE SUPERVISADO, SI SE UTILIZA CONVENIENTEMENTE.. CONVENIENTEMENTE i i =1 k ∑ krnl i i =1 • ELEGIR UN k MAYOR QUE EL NÚMERO DE CLASES PERO NO MUCHO MAYOR MAYOR.. – DONDE LOS xi SON LOS k VECINOS MÁS PRÓXIMOS Y f(·) ES LA FUNCIÓN QUE DA EL VALOR REAL DE CADA UNO UNO.. MINERÍA DE DATOS 187 FASE DE MIERÍA DE DATOS MINERÍA DE DATOS 188 FASE DE MIERÍA DE DATOS PERCEPTRO LEARIG LEARIG:: • SE AÑADE UN THRESHOLD ESCALÓ: ESCALÓ: output j = sgn( y ' j ) 1 si x > 0 sgn( x) = − 1 si no • COMPUTAN UNA FUNCIÓN LINEAL LINEAL.. • PARA CADA yj ES ES:: n y ' j = ∑ wi, j ·xi i =1 MINERÍA DE DATOS 189 MINERÍA DE DATOS FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • SI SE QUIERE DISMINUIR EL ERROR POCO A POCO POCO.. • EL GRADIENTE ES LA DERIVADA POR CADA COMPONENTE DEL VECTOR: VECTOR: • GRADIET DESCET (FORMUL (FORMUL.. PARA UNA SOLA SALIDA):: SALIDA) ∂E ∂ 1 1 ∂ = ∑ ( yk − y 'k ) 2 = 2 ∂w ∂wi ∂wi 2 k :1.. p i • EL ERROR DE LEAST MEAN SQUARES DE LOS p EJEMPLOS SE DEFINE COMO COMO:: = ∑(y k :1.. p k − y 'k ) ∑(y k − y'k ) 2 = k :1.. p 1 ∂ ∑ 2( yk − y 'k ) ∂w ( yk − y'k ) = 2 k :1.. p i rr ∂ ( yk − w·xk ) = ∑ ( yk − y'k )(− xi ,k ) ∂wi k :1.. p • QUEDA QUEDA:: r 1 1 E ( w) = ∑ (ek ) 2 = ∑ ( yk − y 'k ) 2 2 k :1.. p 2 k:1.. p ∆wi = ∑(y k − y 'k )xi ,k = k :1.. p MINERÍA DE DATOS 190 191 MINERÍA DE DATOS ∑x i ,k ·ek k :1.. p 192 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • EL ALGORITMO GRADIET DESCET AJUSTA ASÍ ASÍ:: – 1. SE ASIGNA A LOS wi,j UN VALOR PEQUEÑO ALEATORIO ENTRE 0 Y 1. – 2. HASTA QUE LA CONDICIÓN DE TERMINACIÓN SE CUMPLE, HACER HACER:: – 3. PARA TODOS LOS p EJEMPLOS (xk,yk)t SE CALCULA LA MATRIZ DE ERROR (etk=ytk-y’tk). – 4. SE RECALCULAN LOS PESOS SIGUIENDO LEAST LEAST-MEAN SQUARES (LMS LMS), ), CON UN LEARNING RATE (r): wit,+j1 = wit, j + ∑ r(x t i ,k • EL ALGORITMO PERCEPTRON (VERSIÓ ICREMETAL O APROXIMACIÓ ESTOCÁSTICA AL GRADIET DESCET DESCET)): – 1. SE ASIGNAN ALEATORIAMENTE LOS wi,j ENTRE 0 Y 1 (O SE PONE .5). – 2. T= T=1 1 (SE TOMA EL PRIMER EJEMPLO) EJEMPLO).. – 3. PARA EL EJEMPLO (x,y x,y))t SE CALCULA EL VECTOR ERROR (et=yt-y’t). – 4. SE RECALCULAN LOS PESOS SIGUIENDO LEAST LEAST-MEAN SQUARES (LMS LMS), ), TAMBIÉN LLAMADA REGLA DELTA, ADALINE O WIDROW WIDROW--HOFF HOFF:: ·e tj ,k ) wit,+j1 = wit, j + r ( xit ·etj ) k :1.. p – 5. t:= t+ t+1 1, IR A 2. – r ES UN VALOR GEERALMETE PEQUEÑO (0.05 05)) Y SE DETERMIA HEURÍSTICAMETE HEURÍSTICAMETE.. A MAYOR r CONVERGE MÁS RÁPIDO PERO PUEDE PERDERSE EN VALLES LOCALES LOCALES.. MINERÍA DE DATOS 193 FASE DE MIERÍA DE DATOS 194 FASE DE MIERÍA DE DATOS – 5. t:= t+ t+1 1, IR A 2 HASTA QUE NO QUEDEN EJEMPLOS O EL ERROR MEDIO SE HA REDUCIDO A UN VALOR DESEADO.. DESEADO – EN GENERAL, ESTA VERSIÓN ES MÁS EFICIETE QUE LA ANTERIOR Y EVITA ALGUNOS MÍNIMOS LOCALES.. LOCALES MINERÍA DE DATOS MINERÍA DE DATOS 195 FASE DE MIERÍA DE DATOS MULTILAYER PERCEPTRO (REDES NEURONALES ARTIFICIALES, ANN) ANN):: • EL PERCEPTRON DE UNA CAPA NO ES CAPAZ DE APRENDER LAS FUNCIONES MÁS SENCILLAS SENCILLAS.. • SE AÑADEN CAPAS INTERNAS, SE INTRODUCEN DIFERENTES FUNCIONES DE ACTIVACIÓN E INCLUSO RECIENTEMENTE SE INTRODUCEN BUCLES Y RETARDOS.. RETARDOS MINERÍA DE DATOS 196 FASE DE MIERÍA DE DATOS • EN EL CASO MÁS SENCILLO, CON LA FUNCIÓN DE ACTIVACIÓN SG SG,, EL NÚMERO DE UNIDADES INTERNAS k DEFINE EXACTAMENTE EL NÚMERO DE BOUDARIES QUE LA FUNCIÓN GLOBAL PUEDE CALCULAR POR CADA SALIDA SALIDA.. • EL VALOR DE k SE SUELE DETERMINAR HEURÍSTICAMENTE.. HEURÍSTICAMENTE • PERO, ¿CÓMO ENTRENAR ESTE TIPO DE RED? RED?.. • PARA PODER EXTENDER EL GRADIENT DESCENT NECESITAMOS UNA FUNCIÓN DE ACTIVACIÓN CONTINUA:: CONTINUA • LA MÁS USUAL ES LA FUNCIÓN SIGMOIDAL SIGMOIDAL:: σ ( x) = 1 1 + e− x • ESTO PERMITE PARTICIONES NO LINEALES LINEALES:: MINERÍA DE DATOS 197 MINERÍA DE DATOS 198 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS ALGORITMO BACKPROPAGATIO (RUMELHART) (RUMELHART):: • INICIALIZAR TODOS LOS PESOS A VALORES PEQUEÑOS ALEATORIOS (ENTRE -.05 Y .05) 05). • HASTA QUE SE CUMPLA LA CONDICIÓN DE TERMINACIÓN HACER HACER:: – PARA CADA EJEMPLO (x,y x,y)): – SE CALCULAN LAS SALIDAS DE TODAS LAS UNIDADES ou – SE CALCULA EL ERROR EN CADA SALIDA k: δ k = ok (1 − ok )( yk − ok ) MINERÍA DE DATOS ∑ (w k ,h × δk ) k ∈outputs – SE ACTUALIZAN LOS PESOS PESOS:: w j ,i = w j ,i + r ×δ j × x j ,i 199 MINERÍA DE DATOS 200 FASE DE MIERÍA DE DATOS RADIAL-BASIS FUCTIO (CLUSTERING METHOD + LMS) RADIALLMS):: • PRIMER PASO PASO:: ALGORITMO CLUSTERIG CLUSTERIG:: – 1. DIVIDIR ALEATORIAMENTE LOS EJEMPLOS EN k CONJUNTOS Y CALCULAR LA MEDIA (EL PUNTO MEDIO) DE CADA CONJUNTO CONJUNTO.. – 2. REASIGNAR CADA EJEMPLO AL CJTO CJTO.. CON PUNTO MEDIO MÁS CERCANO CERCANO.. – 3. CALCULAR LOS PUNTOS MEDIOS DE LOS k CONJUNTOS.. CONJUNTOS – 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS CONJUNTOS NO VARÍEN VARÍEN.. • SEGUDO PASO PASO:: RECODIFICAR LOS EJEMPLOS COMO DISTANCIAS A LOS CENTROS Y NORMALIZAR (CADA EJEMPLO PASA A SER UN VECTOR DE k ELTOS) ELTOS).. • TERCER PASO PASO:: CON UN PERCEPTRON DE k ELEMENTOS DE ENTRADA Y UNA SALIDA, APLICAR EL ALGORITMO VISTO ANTES ANTES.. MINERÍA DE DATOS 201 FASE DE MIERÍA DE DATOS δh = oh (1 − oh ) • SE NECESITAN MUCHOS EJEMPLOS EJEMPLOS:: – AL MENOS 10 EJEMPLOS POR CADA PESO Y OUTPUT A APRENDER APRENDER.. P.EJ, UNA RED CON 50 ENTRADAS Y 10 NODOS INTERNOS, NECESITA 10..220 EJEMPLOS POR LO MENOS 10 MENOS.. FASE DE MIERÍA DE DATOS – PARA CADA EJEMPLO (x,y x,y)) (CONTINUACIÓN) (CONTINUACIÓN):: – PARA CADA UNIDAD OCULTA h SE CALCULA SU ERROR:: ERROR MINERÍA DE DATOS 202 FASE DE MIERÍA DE DATOS ÁRBOLES DE DECISIÓ DECISIÓ:: • ALGORITMO DIVIDE Y VECERÁS VECERÁS:: – 1. SE CREA UN NODO RAÍZ CON S:= TODOS LOS EJEMPLOS.. EJEMPLOS – 2. SI TODOS LOS ELEMENTOS DE S SON DE LA MISMA CLASE, EL SUBÁRBOL SE CIERRA CIERRA.. SOLUCIÓN ENCONTRADA ENCONTRADA.. – 3. SE ELIGE UNA CONDICIÓN DE PARTICIÓN SIGUIENDO UN CRITERIO DE PARTICIÓN (SPLIT CRITERION).. CRITERION) – 4. EL PROBLEMA (Y S) QUEDA SUBDIVIDO EN DOS SUBÁRBOLES (LOS QUE CUMPLEN LA CONDICIÓN Y LOS QUE NO) Y SE VUELVE A 2 PARA CADA UNO DE LOS DOS SUBÁRBOLES SUBÁRBOLES.. MINERÍA DE DATOS 203 MINERÍA DE DATOS 204 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS EJEMPLO CON DATOS DISCRETOS DISCRETOS:: • REPRESETACIÓ LÓGICA LÓGICA:: – (OUTLOOK=SUNNY AND HUMIDITY=NORMAL) OR (OUTLOOK=OVERCAST) OR (OUTLOOK=RAIN AND WIND=WEAK).. WIND=WEAK) – EJ.: EJ.: LA INSTANCIA (OUTLOOK = SUNNY, TEMPERATURE = COOL, HUMIDITY = HIGH, WIND = STRONG) ES NO. NO. MINERÍA DE DATOS 205 FASE DE MIERÍA DE DATOS 206 FASE DE MIERÍA DE DATOS • EL CRITERIO GANANCIA DE INFORMACIÓN (C4 (C4.5) HA DADO MUY BUENOS RESULTADOS RESULTADOS.. SUELE DERIVAR EN UNA PREFERENCIA EN ÁRBOLES PEQUEÑOS (NAVAJA DE OCCAM) OCCAM).. • VENTAJAS VENTAJAS:: – MUY FÁCIL DE ENTENDER Y DE VISUALIZAR EL RESULTADO.. RESULTADO – SON ROBUSTOS AL RUIDO RUIDO.. EXISTEN ALGORITMOS DE POST POST--PRUIG PARA PODAR HOJAS POCO SIGNIFICATIVAS (QUE SÓLO CUBREN UNO O MUY POCOS EJEMPLOS) EJEMPLOS).. • DESVENTAJAS DESVENTAJAS:: – SUELE SER MUY VORAZ (NO HACE BACKTRACKING:: MÍNIMOS LOCALES) BACKTRACKING LOCALES).. – SI EL CRITERIO DE PARTICIÓN NO ESTÁ BIEN ELEGIDO, LAS PARTICIONES SUELEN SER MUY ADAD-HOC Y GENERALIZAN POCO POCO.. MINERÍA DE DATOS MINERÍA DE DATOS AIVE BAYES CLASSIFIERS CLASSIFIERS:: arg max P (ci | ( x1 , x2 ,..., xm )) = arg max Bayes ci ∈C ci ∈C P (( x1 , x2 ,..., xm ) | ci )·P (ci ) = P ( x1 , x2 ,..., xm ) = arg max P (( x1 , x2 ,..., xm ) | ci )·P(ci ) ci ∈C • ASUMIENDO IDEPEDECIA ATRIBUTOS, TENEMOS TENEMOS:: ENTRE LOS VB = arg max P(ci )∏ P( x j | ci ) ci ∈C 207 j MINERÍA DE DATOS 208 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • SI ESTOS xj SON CONTINUOS PODEMOS DISCRETIZAR EN INTERVALOS Y CALCULAR P( P(cci | tk<xj≤tk+1). • CUANTO MÁS FINOS, MÁS COSTOSO SERÁ EL ALGORITMO.. ALGORITMO AIVE BAYES CLASSIFIERS m-ESTIMATE ESTIMATE:: • GENERALMENTE, SI HAY POCOS DATOS, DATOS, ES POSIBLE QUE ALGUNA PROBABILIDAD CONDICIONAL SEA 0 PORQUE NO HA APARECIDO UN DETERMINADO VALOR DE UN ATRIBUTO PARA UNA CIERTA CLASE: CLASE: – P.EJ. EJ. P(WATER=COOL| ENJOYSPORT=NO) ENJOYSPORT=NO).. • PARA EVITAR ESTE PROBLEMA SE UTILIZA UN mESTIMADO DE LA PROBABILIDAD PROBABILIDAD:: nc + mp n+m MINERÍA DE DATOS 209 MINERÍA DE DATOS 210 FASE DE MIERÍA DE DATOS FASE DE MIERÍA DE DATOS • DONDE n SON LOS CASOS DE LA CLASE CONSIDERADA.. CONSIDERADA • nc SON LOS CASOS DE ESTA CLASE EN LOS QUE EL ATRIBUTO CONSIDERADO TOMA UN CIERTO VALOR. VALOR. • m ES UNA CONSTANTE DENOMINADA “TAMAÑO EQUIVALENTE DE MUESTRA” MUESTRA”.. • p ES LA PROBABILIDAD DE CADA VALOR DEL ATRIBUTO A PRIORI PRIORI.. • GENERALMENTE p SE ESCOGE UNIFORMEMENTE, ES DECIR, SI HAY k VALORES POSIBLES, p = 1/k /k.. • EL VALOR DE m SE ESCOGE LO MÁS PEQUEÑO POSIBLE (1 A 10) 10) PARA NO INTERFERIR EN LA PROPORCIÓN OBSERVADA (nc/n /n)). MINERÍA DE DATOS 211 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 213 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS CARACTERÍSTICAS ESPECIALES DE LA EXTRACCIÓ DE COOCIMIETO DE IFO IFO.. O ESTRUCTURADA: ESTRUCTURADA: OBJETIVOS LIGERAMENTE ESPECIALES: ESPECIALES: BÚSQUEDA DE INFORMACIÓN RELEVANTE O RELACIONADA.. RELACIONADA CREACIÓN DE NUEVA INFORMACIÓN A PARTIR DE INFORMACIÓN EXISTENTE (RESÚMENES, LISTAS, ... ...)). PERSONALIZACIÓN DE LA INFORMACIÓN INFORMACIÓN.. APRENDIZAJE A PARTIR DE LOS USUARIOS, VISITANTES O CONSUMIDORES.. CONSUMIDORES MINERÍA DE DATOS 214 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MÉTODOS O APROPIADOS: APROPIADOS : SIN UNA PROFUNDA TRANSFORMACIÓN DE LOS DATOS, MUCHAS TÉCNICAS DE APRENDIZAJE AUTOMÁTICO SON INÚTILES PARA MUCHAS APLICACIONES APLICACIONES:: MÉTODOS DE CLASIFICACIÓ (ÁRBOLES DE DECISIÓN, FENCE & FILL, ... ...)): • ESTÁN BASADOS EN UNA CLASE DEPENDIENTE DE UN NÚMERO DE ATRIBUTOS PREDETERMINADOS (EXCEPTUANDO NAIVE BAYES) BAYES).. MÉTODOS UMÉRICOS (REGRESIÓN, REDES NEURONALES, ... ...)): • LOS DATOS SON SIMBÓLICOS, NO NUMÉRICOS NUMÉRICOS.. MÉTODOS POR CASOS (KNN, CBR, ... ...)): • TIEMPOS DE RESPUESTA SERÍAN MUY ALTOS ALTOS.. MINERÍA DE DATOS 212 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS CETER SPLITTIG SPLITTIG:: • 1. INICIALIZAR EL PRIMER CENTRO EN LA MEDIA DE LOS EJEMPLOS EJEMPLOS.. • 2. ASIGNAR TODOS LOS EJEMPLOS A SU CENTRO MÁS CERCANO.. CERCANO • 3. SI HAY ALGÚN CENTRO QUE TIENE EJEMPLOS DE DIFERENTE CLASE, BORRAR EL CENTRO Y CREAR TANTOS NUEVOS CENTROS DISTITOS COMO CLASES HAYA, CADA UNO SIENDO LA MEDIA DE LOS EJEMPLOS DE LA CLASE CLASE.. IR A 2. 215 MÉTODOS APROPIADOS: APROPIADOS : ESTRUCTURADOS ESTRUCTURADOS:: MÉTODOS BAYESIANOS BAYESIANOS.. OTROS MÉTODOS ESTADÍSTICOS ESTADÍSTICOS.. MÉTODOS RELACIONALES RELACIONALES.. SEMIESTRUCTURADOS SEMIESTRUCTURADOS:: GRAMATICALES (AUTÓMATAS) (AUTÓMATAS).. MÉTODOS RELACIONALES CON CONSTRUCTORES CONSTRUCTORES.. MINERÍA DE DATOS 216 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS COCEPTOS: COCEPTOS: WEB MIIG SE REFIERE AL PROCESO GLOBAL DE DESCUBRIR INFORMACIÓN O COOCIMIETO POTENCIALMENTE ÚTIL Y PREVIAMENTE DESCONOCIDO A PARTIR DE DATOS DE LA WEB (ETZIONI) (ETZIONI).. WEB MINING COMBIA OBJETIVOS Y TÉCNICAS DE DISTINTAS ÁREAS ÁREAS:: INFORMATION RETRIEVAL (IR). (IR). NATURAL LANGUAGE PROCESSING (NLP) (NLP).. DATA MINING (DM) (DM).. DATABASES (DB) (DB).. WWW RESEARCH. RESEARCH. AGENT TECHNOLOGY TECHNOLOGY.. MINERÍA DE DATOS 219 VISIÓ CLÁSICA COMO RECUPERACIÓN DE INFORMACIÓN INFORMACIÓN:: WEB MIIG COMO IFORMATIO RETRIEVAL (IR) (IR):: • DISPARADO POR CONSULTA (QUERY (QUERY--TRIGGERED) TRIGGERED):: – ES EL OBJETIVO DE NUMEROSAS HERRAMIENTAS HERRAMIENTAS:: BUSCADORES E ÍNDICES ÍNDICES.. – LAS HERRAMIETAS SO CLÁSICAS ESTADÍSTICAS Y ADAD-HOC HOC.... .... VISIÓ MÁS AMBICIOSA COMO EXTRACCIÓN DE INFORMACIÓN:: INFORMACIÓN WEB MIIG COMO IFORMATIO EXTRACTIO (IE) (IE):: • DISPARADO POR DATOS (DATA (DATA--TRIGGERED) TRIGGERED):: – ES UNA VISIÓN MÁS AMBICIOSA DEL WEB MINING.. MINING – LAS HERRAMIETAS SO MÁS GEERALES Y DE APREDIZAJE AUTOMÁTICO AUTOMÁTICO.. MINERÍA DE DATOS 220 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS IR PERSIGUE SELECCIONAR DOCUMETOS RELEVATES MIENTRAS QUE IE PERSIGUE EXTRAER HECHOS RELEVATES A PARTIR DE LOS DOCUMENTOS DOCUMENTOS.. (KOSALA & BLOCKEEL).. BLOCKEEL) NO SÓLO SE REQUIERE IFORMACIÓ RELEVANTE SINO INFORMACIÓN DE CALIDAD O AUTORIZADA AUTORIZADA.. PARA ELLO ES IMPORTANTÍSIMO NO ANALIZAR LOS DOCUMENTOS DE FORMA INCONEXA, SINO ANALIZAR SU RED DE INTERCONEXIONES (SUS ELACES ELACES)). MUCHA INFORMACIÓN ESTÁ EN ELACES ETRATES ETRATES:: MUCHAS PÁGINAS NO SE AUTODESCRIBEN AUTODESCRIBEN.. P.EJ. EJ. UNA PÁGINA PUEDE SER CLASIFICADA POR LOS ENLACES QUE LE LLEGAN (REFERENTES), QUE SUELEN IR ACOMPAÑADOS DE UNA PEQUEÑA DESCRIPCIÓN DE LA PÁGINA O JUNTO A OTROS ENLACES SIMILARES (CLUSTERING).. (CLUSTERING) TAMBIÉN (NO TANTA) INFORMACIÓN SOBRE LA PÁGINA SE ENCUENTRA EN ELACES SALIETES SALIETES.. MINERÍA DE DATOS 218 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS ¿ESTÁ LA INFORMACIÓN DE LA WEB LO SUFICIETEMETE ESTRUCTURADA PARA FACILITAR MINERÍA DE DATOS EFECTIVA? (ETZIONI). (ETZIONI). WEB MINING SE PUEDE ESTRUCTURAR EN FASES (KOSALA & BLOCKEEL):: BLOCKEEL) DESCUBRIMIETO DE RECURSOS RECURSOS.. EXTRACCIÓ DE IFORMACIÓ IFORMACIÓ.. GEERALIZACIÓ GEERALIZACIÓ.. AÁLISIS, VALIDACIÓ E ITERPRETACIÓ DE LOS PATRONES.. PATRONES MINERÍA DE DATOS DESCUBRIMIETO DE RECURSOS RECURSOS:: LOCALIZACIÓN DE DOCUMENTOS RELEVANTES O NO USUALES EN LA RED RED.. ÉSTA ES LA FUNCIÓN DE: DE: • ÍNDICES BUSCADORES BUSCADORES:: EXTRAEN CONTENIDO EN PALABRAS, ZONA DEL DOCUMENTO, IDIOMA IDIOMA.. • ÍNDICES TEMÁTICOS TEMÁTICOS:: CLASIFICAN LOS DOCUMENTOS DOCUMENTOS.. EXTRACCIÓ DE IFORMACIÓ IFORMACIÓ:: EXTRAER DETERMINADA INFORMACIÓN A PARTIR DE UN DOCUMENTO, YA SEA HTML, XML, TEXTO, PS, PDF, LATEX, FAQS, .... GEERALIZACIÓ:: GEERALIZACIÓ DESCUBRIR PATRONES GENERALES A PARTIR DE SITIOS WEB INDIVIDUALES: INDIVIDUALES : CLUSTERING, ASOCIACIONES ENTRE DOCUMENTOS.. DOCUMENTOS MINERÍA DE DATOS 217 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS 221 CLASIFICACIÓ DEL WEB MIIG: MIIG: DISJUNTA (KOSALA & BLOCKEEL) BLOCKEEL):: WEB COTET MIIG MIIG.. WEB STRUCTURE MIIG MIIG.. WEB USAGE MIIG MIIG.. MINERÍA DE DATOS CLASIFICACIÓN NO 222 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS WEB COTET MIIG MIIG:: EXTRAER INFORMACIÓN DEL CONTENIDO DE LOS DOCUMENTOS EN LA WEB WEB.. SE PUEDE CLASIFICAR A SU VEZ EN: EN: • TEXT MINING: MINING: SI LOS DOCUMENTOS SON TEXTUALES (PLANOS).. (PLANOS) • HYPERTEXT MINING MINING:: SI LOS DOCUMENTOS CONTIENEN ENLACES A OTROS DOCUMENTOS O A SÍ MISMOS.. MISMOS • MARKUP MINING MINING:: SI LOS DOCS DOCS.. SON SEMIESTRUCTURADOS (CON MARCAS) MARCAS).. • MULTIMEDIA MINING MINING:: PARA IMÁGENES, AUDIO, VÍDEO, ... MINERÍA DE DATOS 224 WEB COTET MIIG MIIG.. TEXT MIIG MIIG:: CIENTOS O MILES DE PALABRAS PALABRAS.. HAY APLICACIONES DIFERENTES DIFERENTES:: TEXT CATEGORIZATIO, TEXT CLUSTERIG CLUSTERIG.. EXISTEN VARIAS APROXIMACIONES A LA REPRESENTACIÓN DE LA INFORMACIÓN (HEARST AND HIRSH) HIRSH):: “BAG OF WORDS” WORDS”.. N-GRAMAS O FRASES FRASES.. REPRESENTACIÓN RELACIONAL (PRIMER ORDEN) ORDEN).. CATEGORÍAS DE CONCEPTOS CONCEPTOS.. ALGUNOS PROBLEMAS PROBLEMAS:: “VOCABULARY PROBLEM PROBLEM”” (FURNAS). (FURNAS). SINONIMIA Y QUASI QUASI--SINONIMIA (COMUNICADO, DECLARACIÓN).. DECLARACIÓN) POLISEMIA (BOMBA) (BOMBA).. LEMAS (DESCUBRIR, DESCUBRIMIENTO) DESCUBRIMIENTO).. MINERÍA DE DATOS 226 ETC ETC.. MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS “BAG OF WORDS” WORDS”: CADA PALABRA CONSTITUYE UNA POSICIÓN DE UN VECTOR.. VECTOR EL VALOR SE CORRESPONDE CON EL Nº DE VECES QUE HA APARECIDO.. APARECIDO -GRAMAS O FRASES: FRASES: PERMITE TENER EN CUENTA EL ORDEN DE LAS PALABRAS.. PALABRAS TRATA MEJOR FRASES NEGATIVAS “... EXCEPTO ... ...”, ”, “... PERO NO... NO...”, ”, QUE TOMARÍAN EN OTRO CASO LAS PALABRAS QUE LE SIGUEN COMO RELEVANTES RELEVANTES.. REPRESETACIÓ RELACIOAL (PRIMER ORDEN) ORDEN):: PERMITE DETECTAR PATRONES MÁS COMPLEJOS COMPLEJOS:: • SI LA PALABRA X ESTÁ A LA IZQUIERDA DE LA PALABRA Y EN LA MISMA FRASE FRASE.. CATEGORÍAS DE COCEPTOS COCEPTOS.. MINERÍA DE DATOS MINERÍA DE DATOS 225 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS WEB STRUCTURE MIIG MIIG:: SE INTENTA DESCUBRIR UN MODELO A PARTIR DE LA TOPOLOGÍA DE ENLACES DE LA RED RED.. ESTE MODELO PUEDE SER ÚTIL PARA CLASIFICAR O AGRUPAR DOCUMENTOS DOCUMENTOS.. WEB USAGE MIIG MIIG:: SE INTENTA EXTRAER INFORMACIÓN (HÁBITOS, PREFERENCIAS, ETC ETC.. DE LOS USUARIOS O CONTENIDOS Y RELEVANCIA DE DOCUMENTOS) A PARTIR DE: DE: • LAS SESIONES SESIONES.. • COMPORTAMIENTOS DE LOS USUARIOS Y NAVEGANTES.. NAVEGANTES MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS WEB COTET MIIG MIIG:: LAS TÉCICAS VARÍA DEPENDIENDO DEL TIPO DE DOCUMETO:: DOCUMETO TEXT MIIG MIIG:: TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN (IR) FUNDAMENTALMENTE FUNDAMENTALMENTE.. TÉCNICAS ESTADÍSTICAS Y LINGÜÍSTICAS LINGÜÍSTICAS.. HYPERTEXT MIIG MIIG:: NO SÓLO SE REFIERE A ENLACES ENTRE DOCUMENTOS SINO TAMBIÉN INTRO INTRO-DOCUMENTOS (OEM) (OEM).. SE HA DE CONSTRUIR UN GRAFO DE REFERENCIAS... REFERENCIAS ... MARKUP MIIG MIIG:: LA INFORMACIÓN DE LAS MARCAS CONTIENE INFORMACIÓN (HTML (HTML:: SECCIONES, TABLAS, NEGRITAS:: RELEVANCIA, CURSIVA, ETC NEGRITAS ETC.., XML: XML: MUCHO MÁS... MÁS ...)). MULTIMEDIA MIIG MIIG:: ALGUNOS TRABAJOS SOBRE BIBLIOTECAS DE IMÁGENES IMÁGENES.. MINERÍA DE DATOS 223 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS 227 CLASIFICADO TEXTO CO B CLASSIFIER CLASSIFIER:: EJEMPLO EJEMPLO:: CONSIDEREMOS DOCUMENTOS DE TEXTO O DE HIPERTEXTO T, QUE SE PUEDEN CLASIFICAR EN VARIAS CLASES, P.EJ. EJ. (INTERESANTE, NONO-INTERESANTE) O EN DIFERENTES TEMAS. TEMAS. DEFINIMOS UN ATRIBUTO ai COMO CADA POSICIÓN i DE CADA PALABRA EN EL TEXTO: TEXTO: • POR EJEMPLO, DADO ESTE PÁRRAFO, TENDRÍAMOS 40 ATRIBUTOS, DONDE EL VALOR ti PARA EL PRIMER ATRIBUTO SERÍA “DEFINIMOS”, EL VALOR PARA EL SEGUNDO SERÍA “UN”, ETC ETC.. MINERÍA DE DATOS 228 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS SE DEBE HACER LA SIGUIENTE SUPOSICIÓ FALSA FALSA:: LA PROBABILIDAD DE UA PALABRA ES IDEPEDIETE DE SUS PRECEDETES Y SUS SIGUIETES.. SIGUIETES LOS P( P(a ai|vj) SO IDEPEDIETES ETRE SÍ. SÍ. FALSO, POR EJEMPLO, CON LAS PALABRAS “POR” Y “EJEMPLO”.. “EJEMPLO” ESTE SUPUESTO NO ES TAN GRAVE EN GENERAL Y PERMITE UTILIZAR EL CLASIFICADOR BAYESIANO NAÏVE NAÏVE.. |T | vB = arg max P(v j )·∏ P( ai = ti | v j ) v j ∈{ sí , no} i =1 P( ai = wk | v j ) = P( am = wk | v j ) para todo i, j , k , m MINERÍA DE DATOS 229 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS ESTO SUPONE ESTIMAR ÚNICAMENTE LAS P(wk|vj). ES DECIR, LA PROBABILIDAD DE APARICIÓN DE CADA PALABRA SEGÚN LA CLASE CLASE.. MINERÍA DE DATOS 230 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS SE ADOPTA UN m-ESTIMADO ESTIMADO:: 1 nk + | Voc | n + mp n +1 | Voc | P( wk | v j ) = k = = k n+m n+ | Voc | n+ | Voc | A PRIMERA VISTA, PARECE QUE: QUE: P(vj) ES FÁCIL DE DETERMINAR (LA PROPORCIÓN DE DOCUMENTOS DE CADA CLASE) CLASE).. P(ai= wk|vj), SIN EMBARGO, REQUERIRÍA MILLONES DE CASOS PARA TENER UNA ESTIMACIÓN ESTIMACIÓN.. OTRA SUPOSICIÓN (MÁS RAZONABLE) RAZONABLE):: LAS PROBABILIDADES SO IDEPEDIETES DE LA POSICIÓ.. POSICIÓ QUITANDO LAS PRIMERAS Y ÚLTIMAS, LA PROBABILIDAD QUE UNA PALABRA APAREZCA EN LA POSICIÓN 45 ES LA MISMA QUE EN LA 87 87.. ESTO QUIERE DECIR QUE: QUE: CLASIFICADO TEXTO POR COCEPTOS: COCEPTOS: UNA MANERA DE EVITAR EL PROBLEMA DEL VOCABULARIO ES CLASIFICAR POR COCEPTOS (LOH) (LOH).. SE REALIZA EN DOS FASES FASES:: DONDE n ES EL NÚMERO TOTAL DE POSICIONES DE PALABRAS EN LOS EJEMPLOS DE ENTRENAMIENTO (DOCUMENTOS) DONDE LA CLASE ES vj: ES LA SUMA DE LAS LONGITUDES (EN Nº DE PALABRAS) DE TODOS LOS DOCUMENTOS DE LA CLASE vj. DONDE nk ES EL NÚMERO DE VECES QUE SE HA ENCONTRADO EN ESTOS DOCUMENTOS DE LA CLASE vj. |Voc Voc|| ES EL NÚMERO DE PALABRAS DEL LENGUAJE CONSIDERADO (INGLÉS, CASTELLANO, O LENGUAJES INFORMÁTICOS):: INFORMÁTICOS) VOC PUEDE SER UN SUBCONJUNTO (SE PUEDEN ELIMINAR PALABRAS MUY USUALES USUALES:: PREPOSICIONES, ARTÍCULOS, VERBOS MUY COMUNES, ETC ETC..). MINERÍA DE DATOS 231 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS 232 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS PRIMER PASO PASO:: • ASOCIAR LAS PALABRAS CO DISTINTOS COCEPTOS.. COCEPTOS • CON EL OBJETIVO DE NO UTILIZAR ANÁLISIS SINTÁCTICO DEL TEXTO (TÉCNICAS LINGÜÍSTICAS COSTOSAS), SE UTILIZA RAZONAMIENTO DIFUSO (FUZZY).. (FUZZY) • LAS ASOCIACIONES DEL ESTILO, TERM → COCEPT COCEPT,, SON DIFUSAS DIFUSAS.. • EJEMPLO EJEMPLO:: – {CRIME, CRIMES, FRAUD, FRAUDULENT, ILLEGAL, ... ...}}. – SE ASOCIAN CON EL CONCEPTO “CRIMES” “CRIMES”.. – {ELECTION, ELECTIONS, TERM, REELECTION, VOTER, ELECTED, ELECTORATE, ... ...}}. – SE ASOCIAN CON EL CONCEPTO “ELECTIONS” “ELECTIONS”.. SEGUDO PASO PASO:: • ASOCIAR COCEPTOS CO COCEPTOS COCEPTOS,, COMO P.EJ. EJ. “CRIMES” → “ELECTIOS” “ELECTIOS”.. MINERÍA DE DATOS MINERÍA DE DATOS 233 WEB STRUCTURE MIIG MIIG:: COSISTE E ESTUDIAR LA ESTRUCTURA DE ELACES ETRE E ITRA DOCUMETOS DOCUMETOS.. LAS TÉCNICAS SE INSPIRAN EN EL ESTUDIO DE REDES SOCIALES Y ANÁLISIS DE CITACIONES (CHAKRABARTI) (CHAKRABARTI):: UNA PÁGINA (PERSONA, ARTÍCULO) SE VE REFORZADO POR LA CANTIDAD DE REFERENCIAS (AMISTADES, CITAS) QUE TIENE TIENE.. GRAFO DE ELACES ELACES:: CADA PÁGINA ES UN NODO Y CADA HIPERVÍNCULO DE PÁGINA A PÁGINA, CONSTITUYE UN ARCO DIRIGIDO DIRIGIDO.. LOS ENLACES DUPLICADOS SE IGNORAN IGNORAN.. LOS ENLACES ENTRE PÁGINAS DEL MISMO DOMINIO SE IGNORAN (NO SON AUTORIZATIVOS Y SUELEN SER DE NAVEGACIÓN:: BACK, ... NAVEGACIÓN ...)). MINERÍA DE DATOS 234 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS EJEMPLO: EJEMPLO: EL SISTEMA CLEVER (CHAKRABARTI) (CHAKRABARTI).. ANALIZA LOS HIPERELACES PARA DESCUBRIR DESCUBRIR:: • AUTORIDADES AUTORIDADES,, QUE PROPORCIONAN LA MEJOR FUENTE SOBRE UN DETERMINADO TEMA TEMA.. • “HUBS HUBS”, ”, QUE PROPORCIONAN COLECCIONES DE ENLACES A AUTORIDADES AUTORIDADES.. MINERÍA DE DATOS 237 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS LA COSA SE COMPLICA SI ES XML CON OIDS OIDS:: LA ESTRUCTURA DEL DOCUMENTO SE DEBE REPRESENTAR COMO UN GRAFO Y NO COMO UN ÁRBOL ÁRBOL.. ESTO TAMBIÉN PUEDE OCURRIR CON DOCUMETOS HTML U OTROS QUE UTILIZAN EL MODELO DE ITERCAMBIO DE OBJETOS (OEM) (ABITEBOUL) (ABITEBOUL).. GRAFO:: GRAFO LOS ODOS DEL GRAFO SON LOS OBJETOS OBJETOS,, QUE ESTÁN FORMADOS DE UN IDENTIFICADOR (OID) Y UN VALOR QUE PUEDE SER ATÓMICO (ENTERO, CADENA, GIF, HTML, ... ...)) O REFERENCIA, DENOTADO POR UN CONJUNTO DE PARES (ETIQUETAS, OID) OID).. LAS ARISTAS DEL GRAFO ESTÁN ETIQUETADAS ETIQUETADAS.. MINERÍA DE DATOS 238 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS EJEMPLO:: EJEMPLO MINERÍA DE DATOS 236 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS XML MIIG MIIG:: EXTRACCIÓN DE INFORMACIÓN A PARTIR DE DOCS DOCS.. XML XML.. DISTINTOS OBJETIVOS OBJETIVOS:: SCHEMA EXTRACTIO EXTRACTIO:: • ESQUEMA ES ALGO SIMILAR A UN DTD O UN XML XML-SCHEMA, AUNQUE REPRESENTADO CON OTROS FORMALISMOS (PROGRAMAS LÓGICOS, GRAFOS, ... ...)). DATAGUIDES DATAGUIDES:: • ESPECIE DE RESUMEN ESTRUCTURADO DE DATOS SEMIESTRUCTURADOS, A VECES APROXIMADO. APROXIMADO. MULTI MULTI--LAYER LAYER--DATABASES (MLDB) (MLDB):: • HAY DISTINTOS NIVELES DE GRANULARIDAD EN EL ESQUEMA EXTRAÍDO EXTRAÍDO.. SE PUEDEN CONSTRUIR LO QUE SE DENOMINAN MLDBS (NESTOROV), EN LA QUE CADA CAPA SE OBTIENE POR GENERALIZACIONES DE CAPAS INFERIORES INFERIORES.. CLASIFICACIÓ CLASIFICACIÓ.. UN DOCUMENTO XML (SIN OIDS) ES UN ÁRBOL ÁRBOL... ... MINERÍA DE DATOS APROXIMACIOES RELACIOALES RELACIOALES:: AL TRABAJAR CON UN GRAFO GRAFO:: NO SE PUEDEN APLICAR TÉCNICAS PROPOSICIONALES PROPOSICIONALES.. LAS TÉCNICAS ADAD-HOC NO PUEDEN COMBINAR WEB STRUCTURE MINING CON WEB CONTENT MINING, PORQUE DICHA INFORMACIÓN ES DIFÍCIL DE EXPRESAR EN EL GRAFO (HACEN FALTA OTROS GRAFOS O SUBGRAFOS) SUBGRAFOS).. SOLUCIÓ SOLUCIÓ:: PROBLEMA RELACIONAL ⇒ TÉCNICAS DE ILP. ILP. SE AÑADEN PREDICADOS EN EL BACKGROUND PARA REPRESENTAR:: REPRESENTAR • DOCUMENTOS ENLAZAN CON OTROS DOCUMENTOS DOCUMENTOS.. • DOCUMENTOS CONTIENEN PALABRAS U OTROS OBJETOS.. OBJETOS • TIPO DE DOCUMENTO (.HTML, .DOC, .TXT, ... ...)). 235 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS 239 EQUIVALECIA DOCUMENTO XML CON UNA ESTRUCTURA RELACIONAL.. EL XML DEL EJEMPLO ANTERIOR RELACIONAL ANTERIOR:: <biblioteca oid oid= = “&oid2 “&oid2” escritor= “&oid3 “&oid3 &oid4 &oid4” libro= “&oid5 “&oid5 &oid6 &oid 6”> <escritor oid oid=“&oid =“&oid3 3” es_autor_de=“&oid es_autor_de=“&oid5 5 &oid6 &oid6” nombre= “&oid7 “&oid 7”> </escritor> <escritor oid oid=“&oid =“&oid4 4” es_autor_de=“&oid es_autor_de=“&oid15 15” ” nombre= “&oid8 “&oid 8”> </escritor> <libro oid oid=“&oid =“&oid5 5” escrito_por=“&oid escrito_por=“&oid3 3” titulo= “&oid9 “&oid9”> </libro> <libro oid oid=“&oid =“&oid6 6” .... > <nombre oid oid=“&oid =“&oid7 7” > Cervantes </nombre> <nombre oid oid=“&oid =“&oid8 8” > Ausias March </nombre> <titulo oid oid=“&oid =“&oid9 9” > El Quijote </titulo> ... </biblioteca> MINERÍA DE DATOS 240 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS EXPRESADO RELACIOALMETE RELACIOALMETE:: obj &oid7 &oid8 &oid9 ... value “Cervantes” “Ausias March” “El Quijote” ... source &oid1 &oid2 &oid2 &oid2 &oid2 &oid3 &oid3 &oid3 &oid4 &oid4 &oid5 &oid5 ... label “biblioteca” “escritor” “escritor” “libro” “libro” “es_autor_de” “es_autor_de” “nombre” “es_autor_de” “nombre” “escrito_por” “titulo” ... MINERÍA DE DATOS dest &oid2 &oid3 &oid4 &oid5 &oid6 &oid5 &oid6 &oid7 &oid15 &oid8 &oid3 &oid9 ... 241 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS 242 PREVIA A LA MINERÍA, ESTA INFORMACIÓN DEBE SER PREPROCESADA: PREPROCESADA: ELIMINAR REINTENTOS REINTENTOS.. SEPARAR DISTINTOS USUARIOS USUARIOS.. UNIR DIFERENTES SESIONES. SESIONES. JUNTAR PÁGINAS CON MARCOS MARCOS.. FILTRAR POR TIEMPOS TIEMPOS.. CRIBAR PÁGINAS IRRELEVANTES IRRELEVANTES.. ETC ETC.. EL RESULTADO DEL PREPROCESADO PUEDE SER SER:: DATOS ESPECÍFICOS PARA MÉTODOS ESPECÍFICOS ESPECÍFICOS.. DATOS RELACIONALES (UNA B.D. CORRIENTE) CORRIENTE).. DATOS EN XML XML.. MINERÍA DE DATOS 244 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS SEA COMO SEA LA REPRESENTACIÓN, MUCHAS TÉCICAS PROPOSICIOALES O SO ÚTILES ÚTILES:: LOS PATRONES DE NAVEGACIÓN SUELEN SER GRAFOS. GRAFOS. SE REQUIERE DE NUEVO EXPRESIVIDAD RELACIOAL RELACIOAL.. ADEMÁS, LA IMPORTANCIA DEL COOCIMIETO PREVIO ES FUNDAMENTAL:: FUNDAMENTAL ESTOS COMPORTAMIENTOS DEPENDEN DE LA TOPOLOGÍA DE LA RED, DEL CONTENIDO DE LAS PÁGINAS Y DE CATEGORÍAS DE CONCEPTOS CONCEPTOS.. MINERÍA DE DATOS 243 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS WEB USAGE MIIG (MIERÍA DE UTILIZACIÓ DE LA WEB) WEB):: SE CENTRA EN TÉCNICAS QUE PUEDAN PREDECIR EL COMPORTAMIETO DEL USUARIO CUANDO INTERACCIONA CON LA WEB WEB.. TAMBIÉN SE CONSIDERA INFORMACIÓN SOBRE LA TOPOLOGÍA Y RELEVANCIA DE LOS ELACES ELACES.. ESTA INFORMACIÓN PUEDE RESIDIR EN: EN: CLIENTES WEB: WEB: P.EJ. EJ. COOKIES. COOKIES. SERVIDORES SERVIDORES.. PROXIES PROXIES.. SERVIDORES DE BANNER BANNER:: DOUBLECLICK. DOUBLECLICK.COM COM... ... MINERÍA DE DATOS XML MIIG Y TÉCICAS RELACIOALES RELACIOALES:: AUNQUE YA ESTÉ EN UNA FORMA (TABLA) TRATABLE APARENTEMENTE POR TÉCNICAS TRADICIONALES TRADICIONALES.. SEA CON TRANSFORMACIÓN O SIN ELLA, LOS DATOS CON OIDS TIENEN REFERENCIAS (GRAFO) Y SON RELACIONALES RELACIONALES.. SÓLO ILP O TÉCNICAS ADAD-HOC PUEDEN TRATAR CON ESTOS TIPOS DE PROBLEMA RELACIONALES O DE GRAFOS GRAFOS.. 245 BATCH PROCESS (LEARIG PROCESS) PROCESS):: MINERÍA DE DATOS 246 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS OO-LIE PROCESS PROCESS:: EJ.: EJ.: RECOMENDACIÓN DE VISITAS VISITAS.. MINERÍA DE DATOS 247 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MINERÍA DE DATOS 249 ¿QUÉ VALORES PROBABILÍSTICOS PONEMOS EN LAS FLECHAS?.. FLECHAS? EXISTEN DOS PARÁMETROS PARA CONSTRUIR ESTA HPG HPG:: • α: IMPORTANCIA DE INICIO INICIO:: – SI α=0 SÓLO HABRÁ FLECHAS DE S A LOS NODOS QUE HAN SIDO ALGUNA VEZ INICIO DE SESIÓN, Y EL VALOR DE LA FLECHA DEPENDERÁ DE CUÁNTAS VECES LO HAN SIDO SIDO.. – SI α=1 EL PESO DE LAS FLECHAS DEPENDERÁ DE LA PROBABILIDAD DE VISITAS A CADA NODO, INDEPENDIENTEMENTE DE QUE FUERAN INICIALES.. INICIALES – SI α>0 HABRÁ FLECHAS CON PESO > 0 DE S A TODOS LOS NODOS NODOS.. MINERÍA DE DATOS 250 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS • (DONDE ≥1): – VALOR DE -GRAMA GRAMA.. – DETERMINA LA MEMORIA CUANDO SE NAVEGA LA RED, ES DECIR EL NÚMERO DE URLS ANTERIORES QUE PUEDEN INFLUIR EN LA ELECCIÓN DEL PRÓXIMO URL URL.. – SI =1 EL RESULTADO SERÁ UNA CADENA DE MARKOV.. MARKOV EJEMPLO: SUPONGAMOS EJEMPLO: NAVIGATION TRAILS TRAILS:: MINERÍA DE DATOS 248 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS BUSCADO PATROES DE AVEGACIÓ MEDIANTE HPGS (BORGES & LEVENE): LEVENE): LOS “AVIGATIO TRAILS TRAILS”” SE UTILIZAN PARA CONSTRUIR UNA HYPERTEXT PROBABILISTIC GRAMMAR (HPG HPG)). UNA HPG HPG:: • ES UNA TUPLA <V, Σ, S, P>. P>. • NO ES MÁS QUE UN TIPO ESPECIAL DE GRAMÁTICAS PROBABILÍSTICAS REGULARES, CON LA CARACTERÍSTICA ESPECIAL QUE TIENEN EL MISMO NÚMERO DE TERMINALES Σ QUE NO TERMINALES V (CON LO QUE SE HACE UNA CORRESPONDENCIA 1 A 1 ENTRE ELLOS). ELLOS). SE CONSTRUYE EL GRAFO DE TRANSICIONES DE LA GRAMÁTICA DE LA SIGUIENTE MANERA MANERA:: • SE AÑADE UN ÚNICO NODO INICIAL S Y UN NODO FINAL F, QUE NO CORRESPONDEN CON NINGÚN URL URL.. • SE AÑADEN TANTOS NODOS COMO URLS DISTINTOS HAYA EN LOS DISTINTOS TRAILS TRAILS.. MINERÍA DE DATOS BUSCADO PATROES DE AVEGACIÓ AVEGACIÓ:: LAS SESIONES O LOG FILES DE NAVEGACIÓN TOMAN LA FORMA DE SECUENCIAS DE ENLACES RECORRIDOS POR UN USUARIOS, CONOCIDOS COMO AVIGATIO TRAILS O SESIONES.. SESIONES LAS DISTINTAS SESIONES DE UN MISMO USUARIO SE SEPARAN CUANDO ENTRE LA VISITA DE UN ENLACE Y OTRO EXISTE MÁS DE 30 MINUTOS DE DIFERENCIA DIFERENCIA.. ESTE VALOR SE DETERMINA COMO 1.5 DESVIACIÓN ESTÁNDAR DE LA MEDIA DE TIEMPO ENTRE VISITAS DE ENLACES (BORGES & LEVENE): LEVENE): • TAMBIÉN SE PUEDE UTILIZAR PORCIONES MÁS PEQUEÑAS, LLAMADAS EPISODIOS EPISODIOS.. A PARTIR DE AHORA COSIDERAREMOS ELACE COMO SIÓIMO DE PÁGIA, DOCUMETO, URL O VISITA VISITA.. 251 LA SIGUIENTE TABLA DE DE AQUÍ EXTRAEMOS LOS NO TERMINALES Y LOS TERMINALES CORRESPONDIENTES CORRESPONDIENTES:: • V = {S, A1, A2, A3, A4, A5, A6, F}. • Σ = {a1, a2, a3, a4, a5, a6}. TENEMOS 6 TRAILS Y 24 VISITAS, DONDE A1, P.EJ. EJ., FUE VISITADA 4 VECES, 2 DE LAS CUALES COMO PÁGINA DE INICIO.. INICIO POR TANTO, TOMANDO P.EJ. EJ. α=0.5 y =1, PODEMOS CALCULAR LA PROBABILIDAD DE LA PRODUCCIÓN p(S → a1A1) QUE CORRESPONDE CON LA FLECHA DE S A A1 EN EL GRAFO DE TRANSICIONES DE LA SIGUIENTE MANERA MANERA:: • p(S → a1A1) = (0.5 · 4)/ )/24 24 + (0.5 · 2)/ )/6 6 = 0.25 25.. MINERÍA DE DATOS 252 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS LAS FLECHAS INTERIORES SE CALCULAN DE MANERA SIMILAR.. SIMILAR P.EJ.: EJ.: SI A4 SE HA VISITADO 4 VECES, 1 JUSTO ANTES DEL FINAL, OTRA ANTES DE A6 Y DOS ANTES DE A1 TENEMOS TENEMOS:: • P(A4 → A1A1) = 2/4. • P(A4 → A6A6) = ¼. • P(A4 → F) = ¼. SIGUIENDO ASÍ PARA EL RESTO SE TIENE: TIENE: MINERÍA DE DATOS 253 MIERÍA WEB - TÉCICAS Y PRICIPALES ALGORITMOS PERSPECTIVAS: PERSPECTIVAS: LA NAVEGACIÓN ES MUCHO MÁS QUE UN RECORRIDO DE ENLACES.. ENLACES LAS PÁGINAS WEB SON CADA DÍA MÁS INTERACTIVAS, EXISTEN BÚSQUEDAS, FORMULARIOS, ... (MENA) (MENA).. POR EJEMPLO EJEMPLO:: • IF SEARCH SEARCH--KEYWORDS ARE “RELIABLE SOFTWARE SOFTWARE”” • AND AGE 2424-29 • THEN DOWNLOAD = ‘LINUX’ • WITH ACCURACY = 20% 20% AND SUPPORT = 1% EXISTE UNA TENDENCIA HACIA “ADAPTIVE WEB SITES” SITES” (PERKOWITZ & ERTZIONI). ERTZIONI). NOS ACERCAMOS AL “APPLICATIO USAGE MIIG MIIG”, ”, O LA EXTRACCIÓN DE CONOCIMIENTO AUTOMÁTICO SOBRE CÓMO UN USUARIO UTILIZA UNA DETERMINADA APLICACIÓN SOFTWARE, SEA DISTRIBUIDA O NO: NO: • PERSOALIZACIÓ PERSOALIZACIÓ.. MINERÍA DE DATOS 255 EN FORMA TABULAR PODEMOS EXPRESAR EL CONJUNTO DE PRODUCCIONES PROBABILÍSTICAS P DERIVADAS DEL GRAFO ANTERIOR (PARA α=0.5 Y =1 ): MINERÍA DE DATOS 254
© Copyright 2024 ExpyDoc