Minería de Datos

ITRODUCCIÓ A LA MIERÍA DE
DATOS
MIERÍA DE DATOS
INTRODUCCIÓNA A LA MINERÍA DE DATOS
DATOS..
EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y
PRINCIPALES ALGORITMOS
ALGORITMOS..
FASE DE SELECCIÓN EN MINERÍA DE DATOS
DATOS..
FASE DE EXPLORACIÓN EN MINERÍA DE DATOS
DATOS..
FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS
DATOS..
FASE DE MINERÍA DE DATOS – TÉCNICAS PREDICTIVAS DE
MODELIZACIÓN.. TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE
MODELIZACIÓN
CLASIFICACIÓN.. CLUSTERS Y ÁRBOLES DE DECISIÓN
CLASIFICACIÓN
DECISIÓN.. REDES
NEURONALES..
NEURONALES
MINERÍA WEB - TÉCNICAS Y PRINCIPALES ALGORITMOS
ALGORITMOS..
MINERÍA DE DATOS
1
ITRODUCCIÓ A LA MIERÍA DE
DATOS
2
ITRODUCCIÓ A LA MIERÍA DE
DATOS
EL OBJETIVO ES EL AÁLISIS DE GRADES VOLÚMEES DE
DATOS PARA LA OBTENCIÓN DE MODELOS Y PATROES
PREDICTIVOS O DESCRIPTIVOS
DESCRIPTIVOS::
SE BUSCA EL DESCUBRIMIENTO DE COOCIMIETO EN LAS
BASES DE DATOS
DATOS..
SE EMPLEAN TÉCNICAS DE APREDIZAJE AUTOMÁTICO Y
ESTADÍSTICAS..
ESTADÍSTICAS
MINERÍA DE DATOS
3
ITRODUCCIÓ A LA MIERÍA DE
DATOS
MINERÍA DE DATOS
4
ITRODUCCIÓ A LA MIERÍA DE
DATOS
MOTIVACIÓ:
MOTIVACIÓ:
NUEVAS
NECESIDADES DEL AÁLISIS DE GRANDES
VOLÚMENES DE DATOS
DATOS..
EL
AUMETO DEL VOLUME Y VARIEDAD DE
IFORMACIÓ QUE SE ENCUENTRA INFORMATIZADA EN
BASES
DE
DATOS
DIGITALES
HA
CRECIDO
ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA
DÉCADA..
GRAN PARTE DE ESTA IFORMACIÓ ES HISTÓRICA
HISTÓRICA,, ES
DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE
HAN PRODUCIDO
PRODUCIDO..
APARTE
DE SU FUNCIÓN DE “MEMORIA DE LA
ORGAIZACIÓ”,
ORGAIZACIÓ
”, LA INFORMACIÓN HISTÓRICA ES ÚTIL
PARA PREDECIR LA IFORMACIÓ FUTURA
FUTURA..
MINERÍA DE DATOS
MINERÍA DE DATOS
5
LA
MAYORÍA
DE
DECISIOES
DE
EMPRESAS,
ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN
INFORMACIÓN DE EXPERIECIAS PASADAS EXTRAÍDAS DE
FUENTES MUY DIVERSAS
DIVERSAS..
LAS
DECISIOES
COLECTIVAS
SUELEN
TENER
CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE
ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN
VOLÚMEES DE DATOS QUE DESBORDA LA CAPACIDAD
HUMAA..
HUMAA
EL ÁREA DE LA EXTRACCIÓ (SEMI
(SEMI--)AUTOMÁTICA DE
COOCIMIETO DE BASES DE DATOS HA ADQUIRIDO
RECIENTEMENTE
UNA
IMPORTANCIA
CIENTÍFICA
Y
ECONÓMICA INUSUAL
INUSUAL..
MINERÍA DE DATOS
6
ITRODUCCIÓ A LA MIERÍA DE
DATOS
ITRODUCCIÓ A LA MIERÍA DE
DATOS
TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS
CLÁSICOS::
CLÁSICOS
NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (1081012 BYTES)
BYTES)..
DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS /
ATRIBUTOS):: 102-104.
ATRIBUTOS)
EL USUARIO FIAL NO ES UN EXPERTO EN APRENDIZAJE
AUTOMÁTICO NI EN ESTADÍSTICA
ESTADÍSTICA..
EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO
LOS DATOS
DATOS::
IDUSTRIA
IDUSTRIA:: VENTAJAS COMPETITIVAS, DECISIONES MÁS
EFECTIVAS..
EFECTIVAS
CIECIA
CIECIA:: DATOS NUNCA ANALIZADOS, BANCOS NO
CRUZADOS, ETC
ETC..
PERSOAL
PERSOAL:: “INFORMATION OVERLOAD”
OVERLOAD”...
...
MINERÍA DE DATOS
8
KDD NACE COMO INTERFAZ Y SE UTRE DE DIFERENTES
DISCIPLINAS::
DISCIPLINAS
ESTADÍSTICA
ESTADÍSTICA..
SISTEMAS DE INFORMACIÓN / BASES DE DATOS
DATOS..
APRENDIZAJE AUTOMÁTICO / IA.
IA.
VISUALIZACIÓN DE DATOS
DATOS..
COMPUTACIÓN PARALELA / DISTRIBUIDA.
DISTRIBUIDA.
INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS
DATOS..
MINERÍA DE DATOS
10
ITRODUCCIÓ A LA MIERÍA DE
DATOS
LA MINERÍA O PROSPECCIÓN DE DATOS (DM)
DM) NO ES MÁS QUE
UA FASE DEL KDD
KDD::
FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y
ESTADÍSTICOS PARA OBTEER HIPÓTESIS DE PATRONES
Y MODELOS
MODELOS..
AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS,
VULGARMENTE SE ASIMILA KDD CON DM.
DM.
ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO
FÁCIL DEL TÉRMINO “MIERÍA DE DATOS
DATOS”” HAN HECHO QUE
ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA.
ÁREA.
MINERÍA DE DATOS
MINERÍA DE DATOS
9
ITRODUCCIÓ A LA MIERÍA DE
DATOS
LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES
DE USAR Y O ESCALA AL ÚMERO DE DATOS TÍPICOS EN
BD.
BD.
APARECE EL “DESCUBRIMIETO DE COOCIMIETO A
PARTIR DE BASES DE DATOS
DATOS””:
KDD
KDD:: KOWLEDGE DISCOVERY FROM DATABASES.
DATABASES.
ITRODUCCIÓ A LA MIERÍA DE
DATOS
RELACIÓ DEL DM CO OTRAS DISCIPLIAS
DISCIPLIAS::
KDD
KDD:: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES
VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN
ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS
DATOS”::
DATOS”
FAYYAD, 1996
1996..
DIFERECIA CLARA CON MÉTODOS ESTADÍSTICOS
ESTADÍSTICOS::
LA
ESTADÍSTICA SE UTILIZA PARA VALIDAR O
PARAMETRIZAR
UN
MODELO
SUGERIDO
Y
PREEXISTETE,, O PARA GENERARLO
PREEXISTETE
GENERARLO..
DIFERECIA SUTIL
SUTIL::
EL
“ANÁLISIS
INTELIGENTE
DE
DATOS”
(IDA
IDA::
ITELLIGET DATA AALYSIS
AALYSIS)) QUE CORRESPONDÍA
CON EL USO DE TÉCNICAS DE ITELIGECIA ARTIFICIAL
EN EL ANÁLISIS DE LOS DATOS
DATOS..
MINERÍA DE DATOS
7
ITRODUCCIÓ A LA MIERÍA DE
DATOS
11
LA MINERÍA DE DATOS O ES UA EXTESIÓ DE LOS
SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP
(OO-LIE AALYTICAL PROCESSIG
PROCESSIG)).
LA MIERÍA DE DATOS ASPIRA A MÁS
MÁS..
OTRAS HERRAMIETAS
HERRAMIETAS,, P.EJ.
EJ. CONSULTAS SOFISTICADAS O
ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS
COMO::
COMO
“¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?”
JUNIO?”..
“¿LAS
VENTAS DEL PRODUCTO X BAJAN CUANDO
PROMOCIONAMOS EL PRODUCTO Y?”
Y?”..
PERO SÓLO CO TÉCICAS DE MIERÍA DE DATOS
PODREMOS RESPONDER A PREGUNTAS DEL ESTILO:
ESTILO:
“¿QUÉ
FACTORES INFLUYEN EN LAS VENTAS DEL
PRODUCTO X?”
X?”..
“¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS
UNA DELEGACIÓN EN PORTUGAL?
PORTUGAL?””.
MINERÍA DE DATOS
12
ITRODUCCIÓ A LA MIERÍA DE
DATOS
VISIÓ CO LAS HERRAMIETAS TRADICIOALES
TRADICIOALES::
EL ANALISTA EMPIEZA CON UNA PREGUNTA,
UNA
SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA
LOS DATOS Y CONSTRUYE UN MODELO
MODELO.. EL AALISTA
PROPOE EL MODELO.
MODELO.
VISIÓ CO LA MIERÍA DE DATOS
DATOS::
AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE
PROPONER MODELOS, EL SISTEMA ECUETRA Y
SUGIERE MODELOS
MODELOS..
VETAJAS::
VETAJAS
GENERAR UN MODELO REQUIERE MENOS ESFUERZO
MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES
DE DATOS
DATOS..
SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS
AUTOMÁTICAMENTE,
Y
ESTO
AUMENTA
LA
PROBABILIDAD DE ENCONTRAR UN BUEN MODELO
MODELO..
EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE
CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA
EXPERIENCIA..
MINERÍA DE DATOS
13
ITRODUCCIÓ A LA MIERÍA DE
DATOS
14
SOPORTE AL DISEÑO DE BASES DE DATOS
DATOS..
REVERSE EGIEERIG
EGIEERIG::
DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA
QUE LUEGO EL SISTEMA LA NORMALICE
NORMALICE..
MEJORA DE CALIDAD DE DATOS
DATOS..
MEJORA DE COSULTAS
COSULTAS::
SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS
U OTRAS CONDICIONES EVITABLES
EVITABLES..
MINERÍA DE DATOS
16
ITRODUCCIÓ A LA MIERÍA DE
DATOS
ÁREAS DE APLICACIÓ – PROBLEMAS TIPO:
TIPO:
APLICACIOES DE KDD PARA TOMA DE DECISIOES,
SEGÚ DILLY – 1996
1996::
COMERCIO / MARKETIG:
MARKETIG:
• IDETIFICAR PATROES DE COMPRA DE LOS
CLIENTES..
CLIENTES
• BUSCAR ASOCIACIOES ENTRE CLIENTES Y
CARACTERÍSTICAS DEMOGRÁFICAS
DEMOGRÁFICAS..
• PREDECIR RESPUESTA A CAMPAÑAS DE MAILIG
MAILIG..
• AÁLISIS DE CESTAS DE LA COMPRA
COMPRA..
MINERÍA DE DATOS
15
ITRODUCCIÓ A LA MIERÍA DE
DATOS
MINERÍA DE DATOS
ITRODUCCIÓ A LA MIERÍA DE
DATOS
ÁREAS DE APLICACIÓ
APLICACIÓ::
TOMA DE DECISIOES
DECISIOES::
BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS
SANITARIAS / DEMOGRÁFICAS, ETC
ETC..
PROCESOS IDUSTRIALES
IDUSTRIALES::
COMPONENTES
QUÍMICOS, COMPUESTOS, MEZCLAS,
ESMALTES, PROCESOS, ETC
ETC..
IVESTIGACIÓ CIETÍFICA
CIETÍFICA::
MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA,
ETC..
ETC
AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE
IMPORTANTE..
MINERÍA DE DATOS
ITRODUCCIÓ A LA MIERÍA DE
DATOS
17
BACA:
BACA:
• DETECTAR PATROES DE USO FRAUDULENTO DE
TARJETAS DE CRÉDITO
CRÉDITO..
• IDETIFICAR CLIENTES LEALES.
LEALES.
• PREDECIR CLIENTES CON PROBABILIDAD DE
CAMBIAR SU AFILIACIÓN
AFILIACIÓN..
• DETERMIAR GASTO EN TARJETA DE CRÉDITO POR
GRUPOS..
GRUPOS
• ECOTRAR CORRELACIOES ENTRE INDICADORES
FINANCIEROS..
FINANCIEROS
• IDETIFICAR REGLAS DE MERCADO DE VALORES A
PARTIR DE HISTÓRICOS
HISTÓRICOS..
MINERÍA DE DATOS
18
ITRODUCCIÓ A LA MIERÍA DE
DATOS
ITRODUCCIÓ A LA MIERÍA DE
DATOS
SEGUROS Y SALUD PRIVADA
PRIVADA::
• AÁLISIS
DE
PROCEDIMIENTOS
MÉDICOS
SOLICITADOS CONJUNTAMENTE
CONJUNTAMENTE..
• PREDECIR QUÉ CLIENTES COMPRAN NUEVAS
PÓLIZAS..
PÓLIZAS
• IDETIFICAR PATROES DE COMPORTAMIENTO
PARA CLIENTES CON RIESGO
RIESGO..
• IDETIFICAR COMPORTAMIETO FRAUDULENTO
FRAUDULENTO..
TRASPORTES::
TRASPORTES
• DETERMINAR
LA
PLAIFICACIÓ
DE
LA
DISTRIBUCIÓN ENTRE TIENDAS.
TIENDAS.
• AALIZAR PATROES DE CARGA
CARGA..
MINERÍA DE DATOS
19
21
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
20
APLICACIOES DE KDD PARA PROCESOS IDUSTRIALES
IDUSTRIALES::
EXTRACCIÓ DE MODELOS SOBRE COMPORTAMIENTO
DE COMPUESTOS
COMPUESTOS..
DETECCIÓ DE PIEZAS CON FALLAS
FALLAS..
PREDICCIÓ DE FALLOS
FALLOS..
MODELOS DE CALIDAD
CALIDAD..
ESTIMACIÓ
DE
COMPOSICIOES
ÓPTIMAS
EN
MEZCLAS..
MEZCLAS
EXTRACCIÓ DE MODELOS DE COSTE
COSTE..
EXTRACCIÓ DE MODELOS DE PRODUCCIÓN
PRODUCCIÓN..
SIMULACIÓ COSTES/BENEFICIOS SEGÚN NIVELES DE
CALIDAD..
CALIDAD
MINERÍA DE DATOS
MEDICIA:
MEDICIA:
• IDETIFICACIÓ
DE
TERAPIAS
MÉDICAS
SATISFACTORIAS PARA DIFERENTES ENFERMEDADES.
ENFERMEDADES.
• ASOCIACIÓ DE SÍNTOMAS Y CLASIFICACIÓ
DIFERENCIAL DE PATOLOGÍAS
PATOLOGÍAS..
• ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES,
HÁBITOS, ALIMENTICIOS, ETC
ETC..) DE RIESGO / SALUD
EN DISTINTAS PATOLOGÍAS
PATOLOGÍAS..
• SEGMETACIÓ DE
PACIETES
PARA UNA
ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO
GRUPO..
• PREDICCIOES TEMPORALES DE LOS CENTROS
ASISTENCIALES PARA EL MEJOR USO DE RECURSOS,
CONSULTAS, SALAS Y HABITACIONES
HABITACIONES..
• ESTUDIOS
EPIDEMIOLÓGICOS
EPIDEMIOLÓGICOS,,
ANÁLISIS
DE
RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN,
PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC
ETC..
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
ITRODUCCIÓ A LA MIERÍA DE
DATOS
MINERÍA DE DATOS
22
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
KDD:
KDD:
KOWLEDGE
DISCOVERY
FROM
DATABASES:
DATABASES:
DESCUBRIMIETO DE COOCIMIETO DESDE BD.
BD.
FASES Y TÉCICAS DEL KDD
KDD::
LAS DISTINTAS TÉCICAS DE DISTINTAS DISCIPLIAS SE
UTILIZAN EN DISTINTAS FASES
FASES::
SE INDICAN EN EL GRÁFICO SIGUIENTE
SIGUIENTE..
MINERÍA DE DATOS
23
MINERÍA DE DATOS
24
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
MINERÍA DE DATOS
25
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
FASES DEL KDD
KDD::
SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN
DE DATOS
DATOS..
MINERÍA DE DATOS
DATOS..
EVALUACIÓN Y VALIDACIÓN
VALIDACIÓN..
INTERPRETACIÓN Y DIFUSIÓN
DIFUSIÓN..
ACTUALIZACIÓN Y MONITORIZACIÓN
MONITORIZACIÓN..
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS (SE AMPLIARÁ MÁS ADELATE)
ADELATE)::
CARACTERÍSTICAS ESPECIALES DE LOS DATOS
DATOS::
APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS
DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON
DIRECTAMETE APLICABLES?
APLICABLES?::
• LOS DATOS RESIDEN EN EL DISCO;
DISCO; NO SE PUEDEN
ESCANEAR MÚLTIPLES VECES.
VECES.
• ALGUNAS TÉCNICAS DE MUESTREO NO SON
COMPATIBLES
CON
ALGORITMOS
NO
INCREMENTALES..
INCREMENTALES
• MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS)
CAMPOS)..
• EVIDENCIA POSITIVA
POSITIVA..
• DATOS IMPERFECTOS
IMPERFECTOS...
...
AUQUE ALGUOS SE APLICA CASI DIRECTAMETE,
EL ITERÉS E LA IVESTIGACIÓ E MIERÍA DE
DATOS ESTÁ E SU ADAPTACIÓ
ADAPTACIÓ..
MINERÍA DE DATOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
FASES
DE
SELECCIÓ,
EXPLORACIÓ,
TRASFORMACIÓ DE DATOS
DATOS::
SE DETALLARÁN MÁS ADELANTE
ADELANTE..
27
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
29
26
MINERÍA DE DATOS
LIMPIEZA
Y
28
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
PATROES A DESCUBRIR
DESCUBRIR::
UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN
EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓ
QUIERE DESCUBRIR
DESCUBRIR..
EL TIPO DE COOCIMIETO QUE SE DESEA EXTRAER VA
A MARCAR CLARAMENTE LA TÉCICA DE MINERÍA DE
DATOS A UTILIZAR
UTILIZAR..
SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE
PUEDE DISTINGUIR ENTRE
ENTRE::
• DIRECTED DATA MIIG
MIIG:: SE SABE CLARAMENTE LO
QUE SE BUSCA, GENERALMENTE PREDECIR UNOS
CIERTOS DATOS O CLASES
CLASES..
• UDIRECTED DATA MIIG
MIIG:: NO SE SABE LO QUE SE
BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE
APAREZCA ALGO ITERESATE!)
ITERESATE!).
EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE
DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL
ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA
UN DETERMINADO TIPO DE PATRÓN A BUSCAR
BUSCAR..
MINERÍA DE DATOS
30
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
FASE DE EVALUACIÓ Y VALIDACIÓ
VALIDACIÓ::
LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE
MODELOS..
MODELOS
PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES
NECESARIO EL USO DE CRITERIOS DE EVALUACIÓ DE
HIPÓTESIS..
HIPÓTESIS
MINERÍA DE DATOS
MINERÍA DE DATOS
33
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
FASE DE ACTUALIZACIÓ Y MOITORIZACIÓ
MOITORIZACIÓ::
LOS PROCESOS DERIVAN EN UN MATEIMIETO
MATEIMIETO::
ACTUALIZACIÓ
ACTUALIZACIÓ::
• UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN
CAMBIO DE CONTEXTO
CONTEXTO::
– CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN
LAS FUENTES DE DATOS, ETC
ETC..
MOITORIZACIÓ
MOITORIZACIÓ::
• CONSISTE EN IR REVALIDANDO EL MODELO CON
CIERTA FRECUENCIA SOBRE NUEVOS DATOS
DATOS::
– EL OBJETIVO ES DETECTAR SI EL MODELO
REQUIERE UNA ACTUALIZACIÓN
ACTUALIZACIÓN..
PRODUCEN REALIMENTACIONES EN EL PROCESO KDD
KDD..
MINERÍA DE DATOS
35
EL MODELO PUEDE TENER MUCHOS USUARIOS Y
NECESITA DIFUSIÓ
DIFUSIÓ::
• EL MODELO PUEDE REQUERIR SER EXPRESADO DE
UNA
MANERA
COMPRENSIBLE
PARA
SER
DISTRIBUIDO EN LA ORGANIZACIÓN
ORGANIZACIÓN..
• P.EJ.
EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS
SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒
PONERLOS EN ESTANTES DISTANTES.
DISTANTES.
MINERÍA DE DATOS
34
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
32
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
FASE DE ITERPRETACIÓ Y DIFUSIÓ
DIFUSIÓ::
EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO
OTRAS VECES REQUIERE UN PROCESO DE IMPLEMETACIÓ
O ITERPRETACIÓ
ITERPRETACIÓ::
EL MODELO PUEDE REQUERIR IMPLEMETACIÓ
IMPLEMETACIÓ::
• P.EJ.
EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS
FRAUDULENTAS..
FRAUDULENTAS
EL
MODELO
ES
DESCRIPTIVO
Y
REQUIERE
ITERPRETACIÓ::
ITERPRETACIÓ
• P.EJ.
EJ.
UNA
CARACTERIZACIÓN
DE
ZONAS
GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS
PRODUCTOS VENDIDOS
VENDIDOS..
MINERÍA DE DATOS
POR EJEMPLO
EJEMPLO::
1ª FASE:
FASE:
• COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN
UN BACO DE EJEMPLOS IDEPEDIETE DEL QUE
SE HA UTILIZADO PARA APRENDER EL MODELO.
MODELO.
• SE PUEDE ELEGIR EL MEJOR MODELO
MODELO..
2ª FASE:
FASE:
• SE PUEDE REALIZAR UNA EXPERIECIA PILOTO CON
ESE MODELO.
MODELO.
• POR EJEMPLO, SI EL MODELO ENCONTRADO SE
QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE
LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE
ENVIAR UN MAILING A UN SUBCONJUNTO DE
CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO
MODELO..
31
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
TIPOLOGÍA DE TÉCICAS DE MIERÍA DE DATOS
DATOS::
LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE
SON PREDICTIVOS Y/O DESCRIPTIVOS.
DESCRIPTIVOS.
UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE
DATOS FUTUROS
FUTUROS::
¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO?
PRÓXIMO?..
¿ES ESTA TRANSACCIÓN FRAUDULENTA?
FRAUDULENTA?..
¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE
EL CLIENTE “X”?.
UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN
SOBRE LAS RELACIOES ETRE LOS DATOS Y SUS
CARACTERÍSTICAS;; GENERA INFORMACIÓN DEL TIPO:
CARACTERÍSTICAS
TIPO:
LOS
CLIENTES QUE COMPRAN PAÑALES SUELEN
COMPRAR CERVEZA
CERVEZA..
EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS
IMPORTANTES EN LA ENFERMEDAD “Y”.
LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN
CARACTERÍSTICAS MUY DIFERENCIADAS DEL RESTO.
RESTO.
MINERÍA DE DATOS
36
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
EJEMPLO DE MODELO PREDICTIVO:
PREDICTIVO:
SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL
TENIS..
TENIS
SE
HAN
RECOGIDO
DATOS
DE
EXPERIENCIAS
ANTERIORES::
ANTERIORES
MINERÍA DE DATOS
37
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
39
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
41
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE
APREDIZAJE DE ÁRBOLES DE DECISIÓ
DECISIÓ,, SEÑALANDO
EL ATRIBUTO “PLAYTEIS
PLAYTEIS”” COMO LA CLASE (OUTPUT).
(OUTPUT).
EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE
MUESTRA EN EL GRÁFICO SIGUIENTE
SIGUIENTE..
AHORA SE PUEDE UTILIZAR ESTE MODELO PARA
PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS
TENIS::
• EJ.:
EJ.: LA INSTANCIA ES O
O::
– (OUTLOOK = SUNNY, TEMPERATURE = HOT,
HUMIDITY = HIGH, WIND = STRONG)
STRONG)..
MINERÍA DE DATOS
40
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
38
EJEMPLO DE MODELO DESCRIPTIVO:
DESCRIPTIVO:
SE QUIERE CATEGORIZAR LOS EMPLEADOS
EMPLEADOS..
SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS
EMPLEADOS::
MINERÍA DE DATOS
42
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE
CLUSTERIG K-MEAMS
MEAMS..
SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL
GRÁFICO SIGUIENTE, DONDE
DONDE::
• GRUPO 1: SIN HIJOS Y DE ALQUILER
ALQUILER.. POCO
SINDICADOS.. MUCHAS BAJAS
SINDICADOS
BAJAS..
• GRUPO 2: SIN HIJOS Y CON COCHE
COCHE.. MUY SINDICADOS
SINDICADOS..
POCAS BAJAS
BAJAS.. NORMALMENTE DE ALQUILER Y
MUJERES..
MUJERES
• GRUPO 3: CON HIJOS, CASADOS Y CON COCHE
COCHE..
PROPIETARIOS.. POCO SINDICADOS
PROPIETARIOS
SINDICADOS.. HOMBRES
HOMBRES..
MINERÍA DE DATOS
43
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
TIPOS DE COOCIMIETO
COOCIMIETO::
ASOCIACIOES
ASOCIACIOES::
UNA
ASOCIACIÓN
ENTRE
DOS
ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE
DEN DOS VALORES DETERMINADOS DE CADA UNO
CONJUNTAMENTE ES RELATIVAMENTE ALTA:
ALTA:
• EJEMPLO
EJEMPLO:: EN UN SUPERMERCADO SE ANALIZA SI LOS
PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN
CONJUNTAMENTE..
CONJUNTAMENTE
DEPEDECIAS
DEPEDECIAS::
UNA
DEPENDENCIA
FUNCIONAL
(APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE
ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL
VALOR DE OTRO
OTRO.. OJO! EXISTEN MUCHAS DEPENDENCIAS
NADA INTERESANTES (CAUSALIDADES IVERSAS
IVERSAS)):
• EJEMPLO
EJEMPLO:: QUE UN PACIENTE HAYA SIDO INGRESADO
EN MATERNIDAD DETERMINA SU SEXO
SEXO..
LA BÚSQUEDA DE ASOCIACIOES Y DEPEDECIAS SE
COOCE A VECES COMO AÁLISIS EXPLORATORIO
EXPLORATORIO..
MINERÍA DE DATOS
MINERÍA DE DATOS
AGRUPAMIETO / SEGMETACIÓ
SEGMETACIÓ::
• EL AGRUPAMIENTO (O CLUSTERING) ES LA
DETECCIÓ DE GRUPOS DE IDIVIDUOS
IDIVIDUOS..
• SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE O
SE COOCE I LAS CLASES I SU ÚMERO
(APRENDIZAJE NO SUPERVISADO)
SUPERVISADO)..
• EL OBJETIVO ES DETERMIAR GRUPOS O RACIMOS
(CLUSTERS
CLUSTERS)) DIFERENCIADOS DEL RESTO.
RESTO.
46
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
47
CLASIFICACIÓ: UNA CLASIFICACIÓN SE PUEDE VER
CLASIFICACIÓ:
COMO EL ESCLARECIMIETO DE UA DEPEDECIA
DEPEDECIA,, EN
LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN
VALOR ENTRE VARIAS CLASES, YA CONOCIDAS
CONOCIDAS::
• EJEMPLO
EJEMPLO::
– SE SABE (POR UN ESTUDIO DE DEPENDENCIAS)
QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS
Y ASTIGMATISMO HAN DETERMINADO LOS
PACIENTES PARA LOS QUE SU OPERACIÓN DE
CIRUGÍA OCULAR HA SIDO SATISFACTORIA
SATISFACTORIA..
– PODEMOS INTENTAR DETERMINAR LAS REGLAS
EXACTAS QUE CLASIFICAN UN CASO COMO
POSITIVO O NEGATIVO A PARTIR DE ESOS
ATRIBUTOS..
ATRIBUTOS
MINERÍA DE DATOS
MINERÍA DE DATOS
44
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
45
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
TEDECIAS / REGRESIÓ
REGRESIÓ:: EL OBJETIVO ES PREDECIR
LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE
LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA,
GENERALMENTE EL TIEMPO:
TIEMPO:
• EJEMPLO
EJEMPLO:: SE INTENTA PREDECIR EL NÚMERO DE
CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS,
GANANCIAS, COSTES, ETC
ETC.. A PARTIR DE LOS
RESULTADOS DE SEMANAS, MESES O AÑOS
ANTERIORES..
ANTERIORES
IFORMACIÓ DEL ESQUEMA
ESQUEMA:: DESCUBRIR CLAVES
PRIMARIAS ALTERNATIVAS, R.I.
REGLAS GEERALES
GEERALES:: PATRONES NO SE AJUSTAN A LOS
TIPOS ANTERIORES
ANTERIORES;; RECIENTEMENTE LOS SISTEMAS
INCORPORAN CAPACIDAD PARA ESTABLECER OTROS
PATRONES MÁS GENERALES
GENERALES..
MINERÍA DE DATOS
48
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
TAXOOMÍA DE TÉCICAS DE MIERÍA DE DATOS
DATOS::
MINERÍA DE DATOS
49
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
LA SELECCIÓ COMPRENDE LA RECOLECCIÓ E ITEGRACIÓ
DE LA INFORMACIÓN
INFORMACIÓN..
LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES
SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO
Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL
ORIGINAL..
GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR
SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE
ENCUENTRA::
ENCUENTRA
EN BASES DE DATOS Y OTRAS FUETES MUY DIVERSAS
DIVERSAS::
TANTO INTERNAS COMO EXTERAS
EXTERAS..
MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN
PARA EL TRABAJO TRASACCIOAL
TRASACCIOAL..
EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA
FUENTE
ES
UIFICADA,,
UIFICADA
ACCESIBLE
(INTERNA)
Y
DESCONECTADA DEL TRABAJO TRASACCIOAL
TRASACCIOAL..
MINERÍA DE DATOS
53
SISTEMAS DE MIERÍA DE DATOS
DATOS::
MINERÍA DE DATOS
50
FASE DE SELECCIÓ E MIERÍA DE
DATOS
TIPOS DE SISTEMAS
SISTEMAS::
STADALOE
STADALOE:: LOS DATOS SE DEBEN EXPORTAR /
CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE
DATA MINING
MINING::
• KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL
LIMITED, GROUPE BULL)
BULL)..
OO-TOP
TOP:: PUEDEN FUNCIONAR SOBRE UN SISTEMA
PROPIETARIO::
PROPIETARIO
• CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE
ORACLE..
ORACLE
EMBEDDED
EMBEDDED:: PROPIETARIOS:
PROPIETARIOS:
• ORACLE DISCOVERER, ORACLE DARWIN, IBM
INTELLIGENT MINER, ETC
ETC..
EXTESIBLE (TECNOLOGÍA PLUG
PLUG--IS)
IS): PROPORCIONAN
UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS
DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS
ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO
CON PLUG
PLUG--INS
INS::
• EJ.
EJ. KEPLER
KEPLER.. MINERÍA DE DATOS
51
FASE DE SELECCIÓ E MIERÍA DE
DATOS
EL PROCESO DE KDD – TÉCICAS DE
MIERÍA DE DATOS Y PRICIPALES
ALGORITMOS
MINERÍA DE DATOS
52
FASE DE SELECCIÓ E MIERÍA DE
DATOS
EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS
DATOS::
DEPENDE MUCHO DE LA FUETE
FUETE::
OLAP U OLTP
OLTP..
DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL
ORIGINAL..
ROLAP O MOLAP
MOLAP..
DEPENDE TAMBIÉN DEL TIPO DE USUARIO
USUARIO::
“PICAPEDREROS”
(O “GRANJEROS”)
“GRANJEROS”):: SE DEDICAN
FUNDAMENTALMENTE
A
REALIZAR
INFORMES
PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS
PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC
ETC..
“EXPLORADORES”
“EXPLORADORES”::
ENCARGADOS
DE
ENCONTRAR
NUEVOS
PATRONES
SIGNIFICATIVOS
UTILIZANDO
TÉCNICAS DE MINERÍA DE DATOS
DATOS..
MINERÍA DE DATOS
54
FASE DE SELECCIÓ E MIERÍA DE
DATOS
RECOLECCIÓN DE INFORMACIÓN EXTERA
EXTERA::
APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN,
LOS
ALMACENES
DE
DATOS
PUEDEN
RECOGER
IFORMACIÓ EXTERA
EXTERA::
DEMOGRAFÍAS
(CENSO),
PÁGINAS
AMARILLAS,
PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET,
INFORMACIÓN DE OTRAS ORGANIZACIONES
ORGANIZACIONES..
DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE
NEGOCIO,
ORGANIZACIONES
Y
COLEGIOS
PROFESIONALES, CATÁLOGOS, ETC
ETC..
DATOS
RESUMIDOS
DE
ÁREAS
GEOGRÁFICAS,
DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA
ECONOMÍA,
INFORMACIÓN
DE
CALENDARIOS
Y
CLIMATOLÓGICAS,
PROGRAMACIONES
TELEVISIVAS
TELEVISIVAS-DEPORTIVAS, CATÁSTROFES, ETC
ETC..
BD EXTERAS COMPRADAS A OTRAS COMPAÑÍAS
COMPAÑÍAS..
MINERÍA DE DATOS
55
FASE DE EXPLORACIÓ E MIERÍA
DE DATOS
FASE DE EXPLORACIÓ E MIERÍA
DE DATOS
LA EXPLORACIÓ DE LOS DATOS CONSISTE EN LA UTILIZACIÓN
DE TÉCICAS FORMALES DE AÁLISIS EXPLORATORIO
EXPLORATORIO::
SE BUSCA CONOCER LA DISTRIBUCIÓ DE LOS DATOS, SU
SIMETRÍA Y ORMALIDAD Y LAS CORRELACIOES
EXISTENTES EN LA INFORMACIÓN.
INFORMACIÓN.
SE UTILIZA:
UTILIZA:
AÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS
DATOS..
MEDIDAS DE DIAGÓSTICO FORMAL ESTADÍSTICO
ESTADÍSTICO::
EJ.:
EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA
DISTRIBUCIÓN,
CONTRASTES
DE
ASIMETRÍA,
CONTRASTES DE ALEATORIEDAD, ETC
ETC..
MINERÍA DE DATOS
57
FASE DE EXPLORACIÓ E MIERÍA
DE DATOS
MINERÍA DE DATOS
56
FASE DE EXPLORACIÓ E MIERÍA
DE DATOS
SE DEBE REALIZAR LA COMPROBACIÓ DE LOS SUPUESTOS
SUBYACETES EN LOS MÉTODOS MULTIVARIANTES PARA LA
MINERÍA DE DATOS
DATOS;; ESTOS SUPUESTOS SUELEN SER
SER::
EL COTRASTE DE LA ORMALIDAD DE TODAS Y C / U DE
LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO.
ESTUDIO.
EL TESTEO DE LA LIEALIDAD DE LAS RELACIONES ENTRE
LAS VARIABLES
VARIABLES..
LA COMPROBACIÓ DE LA HOMOCEDASTICIDAD DE LOS
DATOS::
DATOS
CONSISTE EN VER QUE LA VARIACIÓ DE LA VARIABLE
DEPEDIETE QUE SE INTENTA EXPLICAR A TRAVÉS DE
LAS VARIABLES INDEPENDIENTES O SE COCETRA EN
UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES
INDEPENDIENTES..
MINERÍA DE DATOS
58
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
LA COMPROBACIÓ DE LA MULTICOLIEALIDAD O
EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES
INDEPENDIENTES..
INDEPENDIENTES
LA COTRASTACIÓ DE LA AUSECIA DE CORRELACIÓ
SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓ
AUTOCORRELACIÓ::
CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS
ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO
CON EL RESTO.
RESTO.
MINERÍA DE DATOS
59
MINERÍA DE DATOS
60
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
LIMPIEZA (DATA CLEASIG
CLEASIG)) Y CRIBA (SELECCIÓ
SELECCIÓ)) DE DATOS
DATOS::
SE DEBEN ELMIIAR EL MAYOR NÚMERO POSIBLE DE
DATOS ERRÓEOS O ICOSISTETES (LIMPIEZA) E
IRRELEVATES (CRIBA)
(CRIBA)..
SE
UTILIZAN
MÉTODOS
ESTADÍSTICOS
CASI
EXCLUSIVAMENTE::
EXCLUSIVAMENTE
HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS)
ANÓMALOS)..
SELECCIÓ
DE
DATOS
(MUESTREO,
YA
SEA
VERTICALMENTE,
ELIMINANDO
ATRIBUTOS,
U
HORIZONTALMENTE, ELIMINANDO TUPLAS)
TUPLAS)..
REDEFIICIÓ
DE ATRIBUTOS (AGRUPACIÓN O
SEPARACIÓN)..
SEPARACIÓN)
MINERÍA DE DATOS
61
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
62
ACCIONES ANTE DATOS FALTATES (MISSIG VALUES
VALUES)):
IGORAR
IGORAR::
ALGUNOS
ALGORITMOS SON ROBUSTOS A DATOS
FALTANTES (P.
(P.EJ.
EJ. ÁRBOLES)
ÁRBOLES)..
FILTRAR (ELIMIAR O REEMPLAZAR) LA COLUMA
COLUMA::
SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR
CALIDAD.. PREFERIBLE A ELIMINAR LA COLUMNA ES
CALIDAD
REEMPLAZARLA POR UNA COLUMNA BOOLEANA
DICIENDO SI EL VALOR EXISTÍA O NO.
NO.
FILTRAR LA FILA
FILA::
CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS
VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN
RELACIONADAS CON CASOS O TIPOS ESPECIALES
ESPECIALES..
MINERÍA DE DATOS
64
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
REEMPLAZAR EL VALOR
VALOR::
POR MEDIAS
MEDIAS.. A VECES SE PUEDE PREDECIR A PARTIR DE
OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML
ML..
SEGMETAR::
SEGMETAR
SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE
TIENEN
DISPONIBLES.
DISPONIBLES.
SE
OBTIENEN
MODELOS
DIFERENTES PARA CADA SEGMENTO Y LUEGO SE
COMBINAN..
COMBINAN
MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y
ESPERAR HASTA QUE LOS DATOS FALTATES ESTÉ
DISPOIBLES..
DISPOIBLES
MINERÍA DE DATOS
MINERÍA DE DATOS
63
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
ACCIONES ANTE DATOS AÓMALOS (OUTLIERS
OUTLIERS)):
IGORAR
IGORAR::
ALGUNOS
ALGORITMOS SON ROBUSTOS A DATOS
ANÓMALOS (P.
(P.EJ.
EJ. ÁRBOLES)
ÁRBOLES)..
FILTRAR (ELIMIAR O REEMPLAZAR) LA COLUMA
COLUMA::
SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR
CALIDAD.. PREFERIBLE A ELIMINAR LA COLUMNA ES
CALIDAD
REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO
SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O
POR DEBAJO)
DEBAJO)..
FILTRAR LA FILA
FILA::
PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS
CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS
CON CASOS O TIPOS ESPECIALES
ESPECIALES..
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
REEMPLAZAR EL VALOR
VALOR::
POR EL VALOR “ULO
ULO”” SI EL ALGORITMO LO TRATA BIEN
O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE
ES EL OUTLIER, O POR MEDIAS
MEDIAS.. A VECES SE PUEDE
PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO
CUALQUIER TÉCNICA DE ML
ML..
DISCRETIZAR::
DISCRETIZAR
TRASFORMAR UN VALOR CONTINUO EN UNO DISCRETO
(P.
(P.EJ.
EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE
QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY
BAJO” SIN MAYORES PROBLEMAS
PROBLEMAS..
MINERÍA DE DATOS
65
RAZONES SOBRE DATOS FALTATES (MISSIG VALUES
VALUES)):
A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS
DATOS FALTANTES Y ACTUAR EN CONSECUENCIA
CONSECUENCIA::
ALGUOS
VALORES
FALTATES
EXPRESA
CARACTERÍSTICAS RELEVATES
RELEVATES::
• P.EJ.
EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR
EN MUCHOS CASOS UN DESEO DE QUE NO SE
MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO
DE DOMICILIO RECIENTE
RECIENTE..
VALORES O EXISTETES
EXISTETES::
• MUCHOS VALORES FALTANTES EXISTEN EN LA
REALIDAD, PERO OTROS NO.
NO. P.EJ.
EJ. EL CLIENTE QUE SE
ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO
DE LOS ÚLTIMOS 12 MESES
MESES..
DATOS ICOMPLETOS
ICOMPLETOS::
• SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL
COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA
INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS
DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS
VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO.
RESTO.
MINERÍA DE DATOS
66
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
MINERÍA DE DATOS
67
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
MINERÍA DE DATOS
68
ITERCAMBIO DE DIMESIOES
DIMESIOES:: (FILAS POR COLUMNAS)
COLUMNAS)::
EJEMPLO
EJEMPLO::
UNA TABLA DE CESTAS DE LA COMPRA
COMPRA,, DONDE CADA
ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O
NO.
NO.
OBJETIVO
OBJETIVO:: VER SI DOS PRODUCTOS SE COMPRAN
CONJUNTAMENTE (REGLA DE ASOCIACIÓ
ASOCIACIÓ)).
ES MUY COSTOSO
COSTOSO:: HAY QUE MIRAR AL MENOS LA RAÍZ
CUADRADA DE TODAS LAS RELACIONES (CESTAS)
(CESTAS)::
• PUEDE HABER MILLONES EN UNA SEMANA
SEMANA...
...
• SIN EMBARGO
EMBARGO...
... PRODUCTOS SÓLO HAY UNOS 10
10..000
000..
SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA
SABER SI HAY ASOCIACIÓ
ASOCIACIÓ..
69
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
MINERÍA DE DATOS
70
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
TRASFORMACIÓ DE LOS CAMPOS:
CAMPOS:
UMERIZACIÓ / ETIQUETADO
ETIQUETADO::
VETAJAS
VETAJAS::
• SE REDUCE ESPACIO
ESPACIO::
– EJ:
EJ: APELLIDO ⇒ ETERO
ETERO..
• SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES
SIMPLES..
DESVETAJAS
DESVETAJAS::
• SE
NECESITA
META--IFORMACIÓ
META
PARA
DISTINGUIR
LOS
DATOS
INICIALMENTE
NO
NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE
LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES
RELEVANTE:: PRECIOS, UNIDADES, ETC
RELEVANTE
ETC..).
• A VECES SE PUEDE “SESGAR
SESGAR”” EL MODELO (BIASIG
BIASIG)).
MINERÍA DE DATOS
TABLA UIVERSAL
UIVERSAL::
CUALQUIER
ESQUEMA
RELACIOAL
SE
PUEDE
COVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA
TABLA UIVERSAL
UIVERSAL::
VETAJAS
VETAJAS::
• MODELOS
DE
APRENDIZAJE
MÁS
SIMPLES
(PROPOSICIONALES)..
(PROPOSICIONALES)
DESVETAJAS
DESVETAJAS::
• MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES)
INGENTES)..
LA INFORMACIÓN DEL ESQUEMA SE PIERDE
PIERDE.. MUCHAS
DEPENDENCIAS FUNCIONALES SE VUELVEN A RE
RE-DESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN
METAINFORMACIÓN..
FASE DE LIMPIEZA Y
TRASFORMACIÓ DE DATOS
DESORMALIZADO TIPO ESTRELLA O COPO DE IEVE
(DATAMARTS
DATAMARTS)):
VETAJAS
VETAJAS::
• SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN
SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN
COMPROBAR CON LA INFORMACIÓN DETALLADA
DETALLADA.. SE
UTILIZAN OPERADORES PROPIOS
PROPIOS:: ROLL
ROLL--UP, DRILL
DRILL-DOW, SLICIG AD DICIG
DICIG..
DESVETAJAS
DESVETAJAS::
• ORIENTADAS A EXTRAER U TIPO DE INFORMACIÓN
INFORMACIÓN..
MINERÍA DE DATOS
TRASFORMACIÓ DEL ESQUEMA
ESQUEMA::
ESQUEMA ORIGIAL
ORIGIAL::
VETAJAS
VETAJAS::
• LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE
MANTIENEN (NO HAY QUE REAPRENDERLAS, NO
DESPISTAN)..
DESPISTAN)
ICOVEIETES
ICOVEIETES::
• MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR
UTILIZAR..
71
DISCRETIZACIÓ:
DISCRETIZACIÓ:
VETAJAS
VETAJAS::
• SE REDUCE ESPACIO:
ESPACIO:
– EJ.
EJ. 0..10
..10 ⇒ (PEQUEÑO, MEDIAO, GRADE)
GRADE)..
• SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓ Y
CONSTRUIR REGLAS DISCRETAS
DISCRETAS..
DESVETAJAS
DESVETAJAS::
• UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS
RESULTADOS..
RESULTADOS
MINERÍA DE DATOS
72
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS –
TÉCICAS PREDICTIVAS DE
MODELIZACIÓ. TÉCICAS
DESCRIPTIVAS Y PREDICTIVAS DE
CLASIFICACIÓ. CLUSTERS Y
ÁRBOLES DE DECISIÓ. REDES
EUROALES
MINERÍA DE DATOS
73
EL PROBLEMA DE LA EXTRACCIÓ AUTOMÁTICA DE
COOCIMIETO::
COOCIMIETO
LA MIERÍA DE DATOS O ES MÁS QUE U CASO ESPECIAL
DE APREDIZAJE COMPUTACIOAL IDUCTIVO
IDUCTIVO..
¿QUÉ ES APREDIZAJE
APREDIZAJE??:
VISIÓ GEÉRICA
GEÉRICA::
• ES MEJORAR EL COMPORTAMIENTO A PARTIR DE LA
EXPERIENCIA..
EXPERIENCIA
• APRENDIZAJE = INTELIGENCIA
INTELIGENCIA..
VISIÓ MÁS ESTÁTICA
ESTÁTICA::
• ES LA IDETIFICACIÓ DE PATROES
PATROES,, DE
REGULARIDADES,, EXISTENTES EN LA EVIDENCIA.
REGULARIDADES
EVIDENCIA.
VISIÓ EXTERA
EXTERA::
• ES LA PREDICCIÓ DE OBSERVACIONES FUTURAS
CON PLAUSIBILIDAD
PLAUSIBILIDAD..
VISIÓ TEÓRICO
TEÓRICO--IFORMACIOAL
IFORMACIOAL::
• ES ELIMIACIÓ DE REDUDACIA = COMPRESIÓ
DE IFORMACIÓ
IFORMACIÓ..
MINERÍA DE DATOS
74
APREDIZAJE IDUCTIVO
IDUCTIVO::
RAZOAMIETO HIPOTÉTICO DE CASOS PARTICULARES
A CASOS GENERALES
GENERALES..
¿CÓMO SE VALIDA / DESCARTA LAS HIPÓTESIS PARA
COFORMAR EL COOCIMIETO ADQUIRIDO?
ADQUIRIDO?::
PRICIPIO DE LA IDUCCIÓ
IDUCCIÓ::
• LAS HIPÓTESIS PUEDEN SER REFUTADAS, PERO
NUNCA CONFIRMADAS
CONFIRMADAS..
PARA LAS QUE TODAVÍA O HA SIDO REFUTADAS,
¿CUÁL SE ELIGE?
ELIGE?::
• NECESIDAD DE CRITERIOS DE SELECCIÓN
SELECCIÓN::
– SIMPLICIDAD, REFUERZO, ETC.
ETC.
• EXISTENCIA DE MÉTODOS DE VALIDACIÓN
VALIDACIÓN::
– ESTADÍSTICOS,
CROSS
VALIDATION,
INFORMACIONALES, ETC
ETC..
¿CUÁTO AFECTA A LA PLAUSIBILIDAD EL ÚMERO DE
EJEMPLOS?..
EJEMPLOS?
¿CÓMO AFECTA LA PRESECIA DE RUIDO?
RUIDO?..
MINERÍA DE DATOS
76
FASE DE MIERÍA DE DATOS
TAXOOMÍA DE TÉCICAS DE DM (DATA MIIG)
MIIG)::
LOS PROBLEMAS DE APREDIZAJE SE PUEDEN CLASIFICAR
COMO SIGUE
SIGUE::
IDUCTIVOS
IDUCTIVOS::
• PREDICTIVOS
PREDICTIVOS::
– INTERPOLACIÓN
INTERPOLACIÓN..
– PREDICCIÓN SECUENCIAL
SECUENCIAL..
– APRENDIZAJE SUPERVISADO
SUPERVISADO..
• DESCRIPTIVOS
DESCRIPTIVOS::
– APRENDIZAJE NO SUPERVISADO
SUPERVISADO..
ABDUCTIVOS
ABDUCTIVOS::
• EXPLICATIVOS
EXPLICATIVOS::
– ABDUCCIÓN O APRENDIZAJE ANALÍTICO
ANALÍTICO..
MINERÍA DE DATOS
75
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
SU ESTUDIO COMPREDE
COMPREDE::
EL PROBLEMA DE LA EXTRACCIÓ AUTOMÁTICA DE
COOCIMIETO..
COOCIMIETO
EVALUACIÓ DE HIPÓTESIS
HIPÓTESIS..
TÉCNICAS O SUPERVISADAS Y DESCRIPTIVAS
DESCRIPTIVAS..
TÉCNICAS SUPERVISADAS Y PREDICTIVAS
PREDICTIVAS..
77
CLASIFICACIÓ DE LAS TÉCICAS DE APREDIZAJE
APREDIZAJE::
ITERPOLACIÓ
ITERPOLACIÓ::
• UNA
FUNCIÓN
CONTINUA
SOBRE
VARIAS
DIMENSIONES..
DIMENSIONES
PREDICCIÓ SECUECIAL
SECUECIAL::
• LAS
OBSERVACIONES
ESTÁN
ORDENADAS
SECUENCIALMENTE..
SECUENCIALMENTE
• SE PREDICE EL SIGUIENTE VALOR DE LA SECUENCIA
SECUENCIA..
• CASO PARTICULAR DE INTERPOLAC
INTERPOLAC.. CON 2 DIM
DIM.., UNA
DISCRETA Y REGULAR
REGULAR..
MINERÍA DE DATOS
78
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
APREDIZAJE SUPERVISADO
SUPERVISADO::
• CADA OBSERVACIÓN INCLUYE UN VALOR DE LA
CLASE A LA QUE CORRESPONDE
CORRESPONDE..
• SE APRENDE UN CLASIFICADOR
CLASIFICADOR..
• CASO PARTICULAR DE INTERPOLACIÓN
INTERPOLACIÓN::
– LA CLASE (IMAG.
(IMAG. FUNCIÓN) ES DISCRETA
DISCRETA..
APREDIZAJE O SUPERVISADO
SUPERVISADO::
• EL CONJUNTO DE OBSERVACIONES NO TIENEN
CLASES ASOCIADAS
ASOCIADAS..
• EL OBJETIVO ES DETECTAR REGULARIDADES EN
LOS DATOS DE CUALQUIER TIPO
TIPO::
– AGRUPACIONES, CONTORNOS, ASOCIACIONES,
VALORES ANÓMALOS
ANÓMALOS..
ABDUCCIÓ O APREDIZAJE AALÍTICO
AALÍTICO::
• EL CONTEXTO B ES MUY IMPORTANTE
IMPORTANTE..
• EL OBJETIVO ES EXPLICAR LA EVIDENCIA RESPECTO
A B.
MINERÍA DE DATOS
PREDICCIÓ SECUECIAL
SECUECIAL::
• 1, 2, 3, 5, 7, 11
11,, 13
13,, 17
17,, 19
19,, ... ?.
APREDIZAJE SUPERVISADO
SUPERVISADO::
• 1 3 → 4.
• 3 5 → 8.
• 7 2 → 9.
• 4 2 → ?.
MINERÍA DE DATOS
80
FASE DE MIERÍA DE DATOS
APREDIZAJE O SUPERVISADO
SUPERVISADO::
AÁLISIS EXPLORATORIO
EXPLORATORIO::
• CORRELACIONES, ASOCIACIONES Y DEPENDENCIA
DEPENDENCIA..
MINERÍA DE DATOS
81
FASE DE MIERÍA DE DATOS
EJEMPLOS DESCRIPTIVOS:
DESCRIPTIVOS:
SEGMETACIÓ (APREDIZAJE O SUPERVISADO)
SUPERVISADO)::
• ¿CUÁNTOS GRUPOS HAY?
HAY?..
• ¿QUÉ GRUPOS FORMO?
FORMO?..
EJEMPLOS PREDICTIVOS:
PREDICTIVOS:
ITERPOLACIÓ
ITERPOLACIÓ::
79
FASE DE MIERÍA DE DATOS
82
FASE DE MIERÍA DE DATOS
PREDICTIVO:
PREDICTIVO:
ITERPOLACIÓ
Y
PREDICCIÓ
SECUECIAL::
SECUECIAL
GENERALMENTE LAS MISMAS TÉCNICAS
TÉCNICAS::
• DATOS COTIUOS (REALES)
(REALES)::
– REGRESIÓ LIEAL
LIEAL::
– * REGRESIÓN LINEAL GLOBAL (CLÁSICA)
(CLÁSICA)..
– * REGRESIÓN LINEAL PONDERADA LOCALMENTE
LOCALMENTE..
– REGRESIÓ O LIEAL
LIEAL::
– * LOGARÍTMICA, PICK & MIX, ...
• DATOS DISCRETOS
DISCRETOS::
– NO HAY TÉCNICAS ESPECÍFICAS
ESPECÍFICAS::
– *
SE
SUELEN
UTILIZAR
TÉCNICAS
DE
ALGORITMOS GENÉTICOS O ALGORITMOS DE
ENUMERACIÓN REFINADOS
REFINADOS..
MINERÍA DE DATOS
MINERÍA DE DATOS
83
PREDICTIVO: APREDIZAJE SUPERVISADO
PREDICTIVO:
SUPERVISADO::
DEPENDIENDO DE SI SE ESTIMA UNA FUCIÓ O UNA
CORRESPODECIA::
CORRESPODECIA
• CLASIFICACIÓ
CLASIFICACIÓ::
– SE ESTIMA UNA FUCIÓ
FUCIÓ..
– LAS CLASES SON DISJUTAS
DISJUTAS..
• CATEGORIZACIÓ
CATEGORIZACIÓ::
– SE ESTIMA UNA CORRESPODECIA
CORRESPODECIA..
– LAS CLASES PUEDEN SOLAPAR
SOLAPAR..
MINERÍA DE DATOS
84
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
DEPENDIENDO DEL ÚMERO Y TIPO DE CLASES
CLASES::
• CLASE
DISCRETA::
DISCRETA
SE
CONOCE
COMO
“CLASIFICACIÓ
CLASIFICACIÓ””:
– EJEMPLO
EJEMPLO:: DETERMINAR EL GRUPO SANGUÍNEO A
PARTIR DE LOS GRUPOS SANGUÍNEOS DE LOS
PADRES..
PADRES
– SI SÓLO TIENE DOS VALORES (V (VERDADERO) Y F
(FALSO))
SE
CONOCE
COMO
“COCEPT
LEARIG””:
LEARIG
– * EJEMPLO
EJEMPLO:: DETERMINAR SI UN COMPUESTO
QUÍMICO ES CANCERÍGENO
CANCERÍGENO..
• CLASE COTIUA O DISCRETA ORDEADA
ORDEADA:: SE
CONOCE
COMO
“ESTIMACIÓ
ESTIMACIÓ””
(O
TAMBIÉN
“REGRESIÓ
REGRESIÓ”)
”)::
– EJEMPLO
EJEMPLO:: ESTIMAR EL NÚMERO DE HIJOS DE
UNA FAMILIA A PARTIR DE OTROS EJEMPLOS DE
FAMILIAS..
FAMILIAS
MINERÍA DE DATOS
85
FASE DE MIERÍA DE DATOS
87
86
DESCRIPTIVO:
DESCRIPTIVO:
SEGMETACIÓ
(APREDIZAJE
O
SUPERVISADO)::
SUPERVISADO)
TÉCNICAS DE CLUSTERIG :
• K-MEANS (COMPETITIVE LEARNING)
LEARNING)..
• REDES NEURONALES DE KOHONEN
KOHONEN..
• EM (ESTIMATED MEANS) (DEMPSTER ET AL.
AL. 1977)
1977).
• COBWEB (FISHER 1987
1987)).
• AUTOCLASS
AUTOCLASS..
• ...
MINERÍA DE DATOS
88
FASE DE MIERÍA DE DATOS
SIMILITUD / DISTACIA
DISTACIA::
UN
CONCEPTO IMPORTANTE EN EL APREDIZAJE
SUPERVISADO (CLASIFICACIÓ) Y O SUPERVISADO
(SEGMETACIÓ) ES EL CONCEPTO DE SIMILITUD
SIMILITUD::
LA RAZÓN DE ESTE USO ES QUE, INTUITIVAMETNE, DATOS
SIMILARES TENDRÁN CLASES / GRUPOS SIMILARES
SIMILARES::
• ¿CÓMO SE MIDE LA SIMILITUD
SIMILITUD??.
DISTACIA INVERSA A SIMILITUD
SIMILITUD..
LOS MÉTODOS DE SIMILITUD (O DE DISTANCIA) SE BASAN
EN:
EN:
• ALMACENAR LOS EJEMPLOS VISTOS, Y.
• CALCULAR LA SIMILITUD / DISTANCIA DEL NUEVO
CASO CON EL RESTO DE EJEMPLOS
EJEMPLOS..
MINERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
PREDICTIVO:
PREDICTIVO:
APREDIZAJE
SUPERVISADO
(CLASIFICACIÓ)::
(CLASIFICACIÓ)
TÉCICAS
TÉCICAS::
• SIMILARITY
SIMILARITY--BASED
BASED::
– K-NN (NEAREST NEIGHBOR)
NEIGHBOR)..
• FECE AD FILL
FILL::
– K-MEANS (COMPETITIVE LEARNING)
LEARNING)..
– PERCEPTRON LEARNING
LEARNING..
– MULTILAYER
ANN
(ARTIFITIAL
NEURAL
NETWORK) METHODS (E
(E..G. BACKPROPAGATION)
BACKPROPAGATION)..
– RADIAL BASIS FUNCTIONS
FUNCTIONS..
– DECISION TREE LEARNING.
LEARNING.
– BAYES CLASSIFIERS
CLASSIFIERS..
– CENTER SPLITTING METHODS
METHODS..
– RULES
RULES..
• PSEUDO
PSEUDO--RELATIOAL
RELATIOAL:: SUPERCHARGING, PICK
PICK--AND
AND-MIX..
MIX
• RELATIOAL
RELATIOAL:: ILP, IFLP, SCIL
SCIL..
FASE DE MIERÍA DE DATOS
DESCRIPTIVO: AÁLISIS EXPLORATORIO
DESCRIPTIVO:
EXPLORATORIO::
TÉCICAS
TÉCICAS::
• ESTUDIOS CORRELACIONALES
CORRELACIONALES..
• ASOCIACIONES
ASOCIACIONES..
• DEPENDENCIAS
DEPENDENCIAS..
• DETECCIÓN DATOS ANÓMALOS
ANÓMALOS..
• ANÁLISIS DE DISPERSIÓN
DISPERSIÓN..
MINERÍA DE DATOS
89
EXISTEN MUCHAS FORMAS DE CALCULAR LA DISTACIA
DISTACIA::
CON
VALORES
COTIUOS
(CONVENIENTE
ORMALIZAR ENTRE 0-1 ANTES):
ANTES):
• DISTACIA EUCLÍDEA
EUCLÍDEA..
• DISTACIA DE MAHATTA
MAHATTA..
• DISTACIA DE CHEBYCHEV
CHEBYCHEV..
CON
VALORES COTIUOS (O ES NECESARIO
ORMALIZAR)):
ORMALIZAR
• DISTACIA DEL COSEO
COSEO..
CON VALORES DISCRETOS
DISCRETOS::
• DISTACIAS POR DIFERECIA.
DIFERECIA.
• DISTACIA DE EDICIÓ
EDICIÓ..
• DISTACIAS ESPECÍFICAS
ESPECÍFICAS..
MINERÍA DE DATOS
90
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
DISTACIA EUCLÍDEA
EUCLÍDEA::
n
DISTACIA DE CHEBYCHEV
CHEBYCHEV::
maxi =1..n xi − yi
∑ (x − y )
2
i
i
i =1
DISTACIA DE MAHATTA
MAHATTA::
n
∑x −y
i
i
i =1
MINERÍA DE DATOS
91
FASE DE MIERÍA DE DATOS
DISTACIA DEL COSEO
COSEO::
CADA EJEMPLO ES UN VECTOR
VECTOR..
LA DISTANCIA ES EL COSENO DEL ÁNGULO QUE FORMAN
FORMAN..
DISTACIAS POR DIFERECIA:
DIFERECIA:
EJEMPLO
EJEMPLO::
IF X=Y THEN D=0
D=0 ELSE D=1
D=1.
DISTACIAS ESPECÍFICAS
ESPECÍFICAS::
PARA LOS EJEMPLOS COMPLEJOS DE CBR (CASE(CASE-BASED
REASONING)..
REASONING)
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
EVALUACIÓ DE HIPÓTESIS
HIPÓTESIS::
EL PROBLEMA DEL APRENDIZAJE NO ESTÁ ESPECIFICADO
COMPLETAMENTE..
COMPLETAMENTE
SI SÓLO NOS BASAMOS EN LA EVIDENCIA, UNA SOLUCIÓN AL
PROBLEMA SERÍA CUALQUIER HIPÓTESIS QUE CUBRE LA
EVIDECIA..
EVIDECIA
SI EL LENGUAJE ES EXPRESIVO, PUEDEN EXISTIR IFIITAS
HIPÓTESIS..
HIPÓTESIS
OBJETIVO
OBJETIVO::
ELEGIR LA HIPÓTESIS H QUE MINIMIZA EL ERROR DE LA
HIPÓTESIS H RESPECTO LA FUNCIÓN OBJETIVO F:
• ¿QUÉ ERROR?
ERROR?..
MEDIDAS DE ERROR PARA EVALUAR HIPÓTESIS
HIPÓTESIS::
SE CONSIDERA:
CONSIDERA:
• D: DOMIIO
DOMIIO..
• S: SAMPLE
SAMPLE:: MUESTRA
MUESTRA..
TRUE ERROR
ERROR::
• CASO DISCRETO
DISCRETO::
error D(h) = Pr [ f ( x) ≠ h( x)]
x∈ D
• CASO COTIUO (P.
(P.EJ.
EJ.ERROR CUADRÁTICO MEDIO)
MEDIO)::
error D(h) = lim
S→ D
MINERÍA DE DATOS
93
FASE DE MIERÍA DE DATOS
1
∑ ( f ( x) − h( x))2
n x∈S
MINERÍA DE DATOS
94
FASE DE MIERÍA DE DATOS
SAMPLE ERROR:
ERROR:
• CASO DISCRETO
DISCRETO::
errortrain (h) =
92
1
∑ ∂( f ( x) ≠ h( x))
n x∈trainSet
PROBLEMAS TÍPICOS:
TÍPICOS:
UDER
UDER--FITTIG
FITTIG::
SUBAJUSTE)::
SUBAJUSTE)
(SOBREGENERALIZACIÓN
O
• CASO COTIUO (P.
(P.EJ.
EJ.ERROR CUADRÁTICO MEDIO)
MEDIO)::
errortrain (h) =
1
∑ ( f ( x) − h( x)) 2
n x∈trainSet
OVER-FITTIG
OVERFITTIG::
SUPERAJUSTE)::
SUPERAJUSTE)
(SOBREESPECIALIZACIÓN
O
– DONDE (δ(TRUE)=
(TRUE)=1
1, δ(FALSE)=
(FALSE)=0
0) Y n= |TRAINSET|.
|TRAINSET|.
MINERÍA DE DATOS
95
MINERÍA DE DATOS
96
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
DEFIICIÓ DE OVER
OVER--FITTIG
FITTIG::
UNA
HIPÓTESIS h ∈ H SOBRE
SOBRE--ESPECIALIZA O
SUPERAJUSTA SI EXISTE UNA HIPÓTESIS ALTERNATIVA h’
∈ H TAL QUE:
QUE:
• SAMPLE OR TRAIN ERROR
ERROR::
errortrain (h) < errortrain (h' )
• TRUE ERROR:
ERROR:
error D( h) > error D( h' )
MINERÍA DE DATOS
97
FASE DE MIERÍA DE DATOS
98
EVALUACIÓ POR TÉCICAS BAYESIAAS
BAYESIAAS::
LA MEJOR HIPÓTESIS ES LA MÁS PROBABLE
PROBABLE..
BASADAS EN EL TEOREMA DE BAYES
BAYES::
• DESPEJAN P(h|D)
h|D).
LA DISTRIBUCIÓN DE HIPÓTESIS A PRIORI P(h) Y LA
PROBABILIDAD DE UNAS OBSERVACIONES RESPECTO A
CADA HIPÓTESIS P(D|h)
D|h) DEBEN SER CONOCIDAS.
CONOCIDAS.
SON SÓLO TÉCNICAS EVALUADORAS AUNQUE SI EL
CONJUNTO DE HIPÓTESIS H ES REDUCIDO SE PUEDEN
UTILIZAR EN ALGORITMOS DE APRENDIZAJE
APRENDIZAJE..
PERMITEN
ACOMODAR HIPÓTESIS PROBABILÍSTICAS
TALES COMO “ESTE PACIENTE DE NEUMONÍA TIENE UN
93%
93
% DE POSIBILIDADES DE RECUPERARSE”
RECUPERARSE”..
MUCHAS VECES NO SE CONOCE P(h) O INCLUSO P(D|h)
D|h):
• SE HACEN SUPOSICIONES
SUPOSICIONES:: DISTRIBUCIÓN UNIFORME,
NORMAL O UNIVERSAL
UNIVERSAL..
99
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
¿QUÉ HIPÓTESIS SE ELIGE
ELIGE??:
APROXIMACIONES EN FRÍO
FRÍO::
• ASUMIR DISTRIBUCIONES A PRIORI
PRIORI..
• SEPARAR
SEPARAR:: TRAINING SET Y TEST SET:
SET:
– CROSS
CROSS--VALIDATION
VALIDATION..
APROXIMACIONES EN CALIENTE
CALIENTE::
• CRITERIO DE SIMPLICIDAD, DE DESCRIPCIÓN O
TRANSMISIÓN MÍNIMAS
MÍNIMAS..
• BASADAS EN REFUERZO
REFUERZO..
OTRA PREGUNTA IMPORTANTE
IMPORTANTE::
CÓMO SE SABE LO BIEN QUE SE COMPORTARÁ EN EL
FUTURO..
FUTURO
MINERÍA DE DATOS
PROBLEMA: F (LA FUNCIÓN OBJETIVO) NO SE CONOCE!!!
PROBLEMA:
CONOCE!!!..
SE PUEDE CALCULAR EL SAMPLE ERROR PERO NO EL TRUE
ERROR..
ERROR
SI SE CONSIDERA SÓLO LA MUESTRA Y SE MIIMIZA EL
SAMPLE ERROR,
ERROR, APARECERÁN DOS PROBLEMAS
PROBLEMAS::
SI LA EVIDENCIA ES SÓLO POSITIVA
POSITIVA::
• UDER
UDER--FITTIG O SOBREGENERALIZACIÓN
SOBREGENERALIZACIÓN..
SI LA EVIDENCIA TIENE MÁS DE UNA CLASE
CLASE::
• OVER
OVER--FITTIG O SOBREESPECIALIZACIÓN
SOBREESPECIALIZACIÓN..
MINERÍA DE DATOS
100
FASE DE MIERÍA DE DATOS
TEOREMA DE BAYES, MAP Y MAXIMUM LIKELIHOOD
LIKELIHOOD::
P(h|D)
h|D):
• PROBABILIDAD DE UNA HIPÓTESIS DADO UN CJTO
CJTO.. DE
DATOS..
DATOS
P(h):
• PROBABILIDAD A PRIORI DE LAS HIPÓTESIS
HIPÓTESIS..
P(D|h)
D|h):
• PROBABILIDAD DE D DADA LA HIPÓTESIS
HIPÓTESIS..
P(D):
• PROBABILIDAD A PRIORI DE LOS DATOS (SIN OTRA
INFORMACIÓN)..
INFORMACIÓN)
TEOREMA DE BAYES
BAYES:: (PROB.
(PROB. A POSTERIORI A PARTIR DE A
PRIORI)::
PRIORI)
P(h | D) =
P ( D | h) P ( h)
P( D)
CRITERIO MAP (MAXIMUM A POSTERIORI) (h ES INDEP.
INDEP. DE
P(D)):
hMAP = arg max P(h | D ) = arg max
h∈H
h∈H
P ( D | h) P ( h)
= arg max P ( D | h) P(h)
P ( D)
h∈H
MAXIMUM LIKELIHOOD (ASUMIENDO P(h) UNIFORME)
UNIFORME)::
hML = arg max P ( D | h)
h∈H
MINERÍA DE DATOS
101
MINERÍA DE DATOS
102
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
EVALUACIÓ BAYESIAA
BAYESIAA::
SI EL CJTO.
CJTO. DE HIPÓTESIS H ES PEQUEÑO Y CONOCIDO
CONOCIDO::
• SE PUEDE ASUMIR LA DISTRIBUCIÓN UNIFORME
UNIFORME::
P ( h) =
EL PRICIPIO MDL (MIIMUM DESCRIPTIO LEGTH)
LEGTH)::
SE ASUME P(h) COMO LA DISTRIBUCIÓN UNIVERSAL
(OCCAM’S RAZOR)
RAZOR)::
P ( h) = 2 − K ( h )
1
|H |
SI H ES INFINITO:
INFINITO:
• LA DISTRIBUCIÓN UNIFORME NO ESTÁ BIEN DEFINIDA
(P=0
(P=0).
• AUNQUE EL MAXIMUM LIKELIHOOD SE PUEDE
SEGUIR UTILIZANDO
UTILIZANDO..
• K(·)
ES
LA
COMPLEJIDAD
DESCRIPCIONAL
(KOLMOGOROV) DE H.
FORMALIZACIÓN DE LA NAVAJA DE OCCAM
OCCAM::
• “LAS HIPÓTESIS CON MÍNIMA DESCRIPCIÓN MÁS
PEQUEÑA SON MÁS PROBABLES”
PROBABLES”..
SE ASUME P(D|h)
D|h) DE LA MISMA MANERA
MANERA::
P ( D | h ) = 2 − K ( D| h )
MINERÍA DE DATOS
103
FASE DE MIERÍA DE DATOS
hMAP = arg max P( D | h) P(h ) = arg max log[P( D | h) P(h )] =
k∈H
= arg max log P( D | h) + log P( h) = arg max log 2 − K ( D|h ) + log 2 − K ( h ) =
k∈H
k∈H
= arg max (− K ( D | h) − K ( h))
k∈H
RESULTA EN:
EN:
hMDL = arg min( K (h) + K ( D | h))
k∈H
MINERÍA DE DATOS
PARTICIÓ DE LA MUESTRA
MUESTRA::
EVALUAR UNA HIPÓTESIS SOBRE LOS MISMOS DATOS QUE
HAN SERVIDO PARA GENERARLA DA SIEMPRE
RESULTADOS MUY OPTIMISTAS
OPTIMISTAS..
SOLUCIÓ
SOLUCIÓ:: PARTIR E:
E: TRAIIG SET Y TEST SET
SET..
SI
LOS DATOS DISPONIBLES SON GRANDES (O
ILIMITADOS)::
ILIMITADOS)
• TRAIIG SET
SET:: CJTO.
CJTO. CON EL QUE EL ALGORITMO
APRENDE UNA O MÁS HIPÓTESIS
HIPÓTESIS..
• TEST SET
SET:: CJTO.
CJTO. CON EL QUE SE SELECCIONA LA
MEJOR DE LAS ANTERIORES Y SE ESTIMA SU VALIDEZ
VALIDEZ..
PARA PROBLEMAS CON CLASE DISCRETA
DISCRETA::
• SE CALCULA LA “ACCURACY”, QUE SE MIDE COMO EL
PORCENTAJE DE ACIERTOS SOBRE EL TEST SET.
SET.
PARA PROBLEMAS CON CLASE COTIUA
COTIUA::
• SE UTILIZA LA MEDIA DEL ERROR CUADRÁTICO U
OTRAS MEDIDAS SOBRE EL TEST SET.
SET.
MINERÍA DE DATOS
106
FASE DE MIERÍA DE DATOS
PARTICIÓ DE LA MUESTRA (CROSS
(CROSS--VALIDATIO)
VALIDATIO)::
SI LOS DATOS DISPOIBLES SO PEQUEÑOS
PEQUEÑOS,, PARTIR LOS
DATOS EN DOS CJTOS
CJTOS.. RESTRINGE EL NÚMERO DE
EJEMPLOS DISPONIBLES PARA EL ALGORITMO → PEORES
RESULTADOS..
RESULTADOS
SOLUCIOES
SOLUCIOES::
• 2-FOLD CROSSCROSS-VALIDATIO
VALIDATIO..
• K-FOLD CROSSCROSS-VALIDATIO
VALIDATIO..
• LEAVE OE OUT CROSSCROSS-VALIDATIO
VALIDATIO..
2-FOLD CROSSCROSS-VALIDATIO
VALIDATIO::
• SE PARTE EN 2 CJTOS
CJTOS.. S1 Y S2 DE IGUAL TAMAÑO
TAMAÑO..
• SE ENTRENA EL ALGORITMO CON S1 Y SE EVALÚAN
LAS HIPÓTESIS H1 CON S2.
• SE ENTRENA LUEGO EL ALGORITMO CON S2 Y SE
EVALÚAN LAS HIPÓTESIS H2 CON S1.
• SE SELECCIONA LA HIPÓTESIS CON LA MEJOR
PRECISIÓN O EL MENOR ERROR
ERROR..
MINERÍA DE DATOS
105
FASE DE MIERÍA DE DATOS
104
FASE DE MIERÍA DE DATOS
LA HIPÓTESIS MÁS PROBABLE ES LA QUE MINIMIZA LA
SUMA DE SU DESCRIPCIÓN Y LA DESCRIPCIÓN DE LOS
DATOS RESPECTO A ELLA
ELLA..
A PARTIR DE MAP (MAXIMUM A POSTERIORI) SE TIENE
TIENE::
k∈H
MINERÍA DE DATOS
107
K-FOLD CROSSCROSS-VALIDATIO
VALIDATIO::
• LOS n DATOS SE PARTEN k VECES (k<n
k<n)) EN 2 SUBCJTOS
SUBCJTOS..
• NORMALMENTE SE USA n/k PARA TEST Y n-n/k PARA
ENTRENAMIENTO, EXCLUYENDO CADA VEZ UN
SUBCONJUNTO DISTINTO
DISTINTO..
• EL ALGORITMO SE EJECUTA k VECES
VECES..
• SE ELIGE LA MEJOR SOLUCIÓN DE LAS k VECES
VECES..
LEAVE OE OUT CROSSCROSS-VALIDATIO
VALIDATIO::
• CUANDO k = n.
• NORMALMENTE NO HACE FALTA APURAR TANTO Y
CON K-FOLD PARA UN k SUFICIENTE ESTÁ BIEN.
BIEN.
• ADEMÁS, LA ACCURACY MEDIA OBTENIDA DE LOS k
CASOS DA UNA ESTIMACIÓN DE CÓMO SE VA A
COMPORTAR LA HIPÓTESIS PARA DATOS NUEVOS
NUEVOS..
MINERÍA DE DATOS
108
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
UA VEZ OBTEIDA UA HIPÓTESIS
HIPÓTESIS...
...
¿CÓMO OBTENER
SU PRECISIÓN (ACCURACY) PARA
DATOS FUTUROS?
FUTUROS?..
UTILIZAR LA PRECISIÓN PARA EL TRAIIG DATA PUEDE
SER UNA APROXIMACIÓN, ¿PERO CUÁN BUENA?
BUENA?..
LA ESTADÍSTICA NOS DA SOLUCIONES PARA ESTO
ESTO::
• SUPONIENDO LA MUESTRA S DE n EJEMPLOS, LA
HIPÓTESIS h ES DISCRETA Y SON INDEPENDIENTES
INDEPENDIENTES..
• SI n ≥ 30,
30, NOS PERMITE APROXIMAR LA DISTRIBUCIÓN
BINOMIAL CON LA NORMAL
NORMAL..
• CALCULADO EL ERRORS(h) SOBRE LA MUESTRA COMO
º ERRORES / n.
MINERÍA DE DATOS
DONDE Zc ES LA CONSTANTE OBTENIDA DE LA TABLA DE
CONFIANZAS DE LA NORMAL
NORMAL..
ALGUNOS VALORES DE LA TABLA NORMAL
NORMAL::
NIVEL DE CONFIANZA c:
CONSTANTE ZC:
50
50%
%
0.67
68
68%
%
1.00
80
80%
%
1.28
90
90%
%
1.64
95
95%
%
1.96
98%
98%
2.33
MINERÍA DE DATOS
99%
99%
2.58
110
DATOS IMPERFECTOS (COSECUECIAS):
(COSECUECIAS):
RUIDO O DISPERSIÓN DE DATOS ⇒ OVERFITTIG
OVERFITTIG::
• ES NECESARIO PODAR LAS HIPÓTESIS, ELIMINADO
PARTES DE LA HIPÓTESIS MUY ADAD-HOC (CUBREN UNO
O POCOS EJEMPLOS)
EJEMPLOS)..
• EL CRITERIO MDL ES UN BUEN MÉTODO PARA ESTO
ESTO..
CONOCIMIENTO
PREVIO
IAPROPIADO
⇒
ITRATABILIDAD::
ITRATABILIDAD
• DEMASIADO CONOCIMIENTO PREVIO
PREVIO::
– SE
NECESITA
METACONOCIMIENTO
O
PRIORIZACIÓN DE LOS PREDICADOS
PREDICADOS..
• POCO CONOCIMIENTO PREVIO O DEL DOMINIO:
DOMINIO:
– SE NECESITA INVENCIÓN DE NUEVOS FUNCIONES
/ CONCEPTOS / PREDICADOS
PREDICADOS..
ARGUMENTOS FALTANTES EN LOS EJEMPLOS ⇒ SE
PIERDE TAMAÑO DE MUESTRA SI NO SE ES CAPAZ DE
APROVECHARLOS::
APROVECHARLOS
• LOS SISTEMAS BASADOS EN ÁRBOLES DE DECISIÓN
LOS TRATAN
TRATAN..
111
MINERÍA DE DATOS
112
FASE DE MIERÍA DE DATOS
EVALUACIÓ DE MODELOS DESCRIPTIVOS:
DESCRIPTIVOS:
REGLAS DE ASOCIACIÓN
ASOCIACIÓN::
• EVALUACIÓN SENCILLA
SENCILLA::
– DOS PARÁMETROS (SUPPORT, COFIDECE)
COFIDECE)..
NO SUPERVISADOS
SUPERVISADOS::
• MUCHO MÁS COMPLEJA QUE EN LOS PREDICTIVOS
PREDICTIVOS..
• COCEPTO DE ERROR DIFÍCIL DE DEFIIR
DEFIIR..
EN LOS MÉTODOS BASADOS EN DISTANCIA SE PUEDEN
MIRAR CIERTOS PARÁMETROS:
PARÁMETROS:
• DISTANCIA ENTRE BORDES DE LOS CLUSTERS
CLUSTERS..
• DISTANCIA ENTRE CENTROS (DE HABERLOS)
HABERLOS)..
• RADIO Y DENSIDAD (DESV
(DESV.. TÍPICA DE LA DIST
DIST..) DE
LOS CLUSTERS
CLUSTERS..
PARA CADA EJEMPLO A AGRUPAR SE COMPRUEBA SU
DISTANCIA CON EL CENTRO O CON EL BORDE DE CADA
CLUSTER..
CLUSTER
MINERÍA DE DATOS
errorS ( h)(1 − errorS ( h))
n
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
errorS ( h) ± Z c ·
DATOS IMPERFECTOS (TIPOS):
(TIPOS):
RUIDO
RUIDO::
• EN EL CONOCIMIENTO PREVIO
PREVIO..
• EN LA EVIDENCIA O EJEMPLOS DE ENTRENAMIENTO
ENTRENAMIENTO::
– VALORES ERRÓNEOS DE ARGUMENTOS DE LOS
EJEMPLOS..
EJEMPLOS
– CLASIFICACIÓN ERRÓNEA DE ALGÚN EJEMPLO
EJEMPLO..
EJEMPLOS DE ETREAMIETO MUY DISPERSOS
DISPERSOS..
COOCIMIETO
PREVIO
CORRECTO
PERO
IAPROPIADO::
IAPROPIADO
• EXISTENCIA DE MUCHO CONOCIMIENTO PREVIO
IRRELEVATE PARA EL PROBLEMA A APRENDER
APRENDER..
• CONOCIMIENTO PREVIO ISUFICIETE PARA EL
PROBLEMA A APRENDER (ALGUNOS PREDICADOS
AUXILIARES SERÍAN NECESARIOS)
NECESARIOS)..
ARGUMETOS FALTATES E LOS EJEMPLOS.
EJEMPLOS.
MINERÍA DE DATOS
SE PUEDE OBTENER UN ITERVALO DE COFIAZA A UN
NIVEL c:
109
FASE DE MIERÍA DE DATOS
113
TÉCICAS O SUPERVISADAS Y DESCRIPTIVAS
DESCRIPTIVAS::
MÉTODOS
DESCRIPTIVOS:
DESCRIPTIVOS:
CORRELACIÓ
ASOCIACIOES (AÁLISIS EXPLORATORIO O
AALYSIS)::
AALYSIS)
COEFICIETE DE CORRELACIÓ
CORRELACIÓ::
Cor ( x , y ) =
Y
LIK
Cov ( x , y )
σ x ·σ y
• DONDE
DONDE::
Cov ( x , y ) =
1 n
∑ ( xi − µ x )( yi − µ y )
n i =1
MINERÍA DE DATOS
114
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• ASOCIACIOES:
ASOCIACIOES: CUADO LOS ATRIBUTOS SO
DISCRETOS::
DISCRETOS
– EJEMPLO
EJEMPLO:: TABAQUISMO Y ALCOHOLISMO ESTÁN
ASOCIADOS..
ASOCIADOS
• DEPEDECIAS
FUCIOALES
FUCIOALES::
ASOCIACIÓ
UIDIRECCIOAL::
UIDIRECCIOAL
– EJEMPLO
EJEMPLO::
EL
NIVEL
DE
RIESGO
DE
ENFERMEDADES CARDIOVASCULARES DEPENDE
DEL TABAQUISMO Y ALCOHOLISMO (ENTRE
OTRAS COSAS)
COSAS)..
MINERÍA DE DATOS
116
MATRIZ DE CORRELACIOES
CORRELACIOES::
Health
1
-0.7378
0.3116
0.3116
0.2771
0.22008
0.3887
0.3955
Need
Transp’tion
Child Care
Sick Time
Satisfaction
Ease
No-Show
1
-01041
-01041
0.0602
-0.1337
-0.0334
-0.5416
1
1
0.6228
0.6538
0.6504
-0.5031
1
0.6228
0.6538
0.6504
-0.5031
1
0.6257
0.6588
-0.7249
1
0.8964
-0.3988
1
-0.3278
1
COEFICIETES DE REGRESIÓ
REGRESIÓ::
Independent Variable
Health
Need
Transportation
Child Care
Sick Time
Satisfaction
Ease
Coefficient
.6434
.0445
-.2391
-.0599
-.7584
.3537
-.0786
• INDICA QUE UN INCREMENTO DE 1 EN EL FACTOR
HEALTH AUMENTA LA PROBABILIDAD DE QUE NO
APAREZCA EL PACIENTE EN UN 64
64..34
34%
%.
MINERÍA DE DATOS
118
FASE DE MIERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: REGLAS DE ASOCIACIÓ Y
DEPEDECIA::
DEPEDECIA
LA TERMINOLOGÍA NO ES MUY COHERENTE EN ESTE
CAMPO..
CAMPO
FAYYAD, P.EJ.
EJ. SUELE LLAMAR ASOCIACIOES A TODO Y
REGLA DE ASOCIACIÓN A LAS DEPEDECIAS
DEPEDECIAS..
ASOCIACIOES
ASOCIACIOES::
• SE BUSCAN ASOCIACIONES DE LA SIGUIENTE FORMA
FORMA::
– (X1 = a) ↔ (X4 = b).
• DE LOS n CASOS DE LA TABLA, QUE LAS DOS
COMPARACIOES SEA VERDADERAS O FALSAS SERÁ
CIERTO E RC CASOS
CASOS..
• EL PARÁMETRO TC (COFIDECE
COFIDECE)) ES
ES::
– TC= CERTEZA DE LA REGLA = RC/n
/n..
• SI CONSIDERAMOS VALORES NULOS, TENEMOS
TAMBIÉN UN NÚMERO DE CASOS EN LOS QUE SE
APLICA SATISFACTORIAMENTE (DIFERENTE DE TC) Y
DENOMINADO TS.
MINERÍA DE DATOS
Health
Need
Transportation
Child Care
Sick Time
Satisfaction
Ease
No-Show
117
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
EJEMPLO: ESTUDIO DE VISITAS
EJEMPLO:
VISITAS:: 11 PACIENTES, 7
FACTORES::
FACTORES
• HEALTH
HEALTH:: SALUD DEL PACIENTE (REFERIDA A LA
CAPACIDAD DE IR A LA CONSULTA)
CONSULTA).. (1-10)
10).
• NEED
NEED:: CONVICCIÓN DEL PACIENTE QUE LA VISITA ES
IMPORTANTE.. (1-10)
IMPORTANTE
10).
• TRANSPORTATION
TRANSPORTATION:: DISPONIBILIDAD DE TRANSPORTE
DEL PACIENTE AL CENTRO
CENTRO.. (1-10)
10).
• CHILD CARE
CARE:: DISPONIBILIDAD DE DEJAR LOS NIÑOS A
CUIDADO.. (1-10)
CUIDADO
10).
• SICK TIME
TIME:: SI EL PACIENTE ESTÁ TRABAJANDO,
PUEDE DARSE DE BAJA
BAJA.. (1-10)
10).
• SATISFACTION
SATISFACTION:: SATISFACCIÓN DEL CLIENTE CON SU
MÉDICO.. (1-10)
MÉDICO
10).
• EASE
EASE:: FACILIDAD DEL CENTRO PARA CONCERTAR
CITA Y EFICIENCIA DE LA MISMA
MISMA.. (1-10)
10).
• NONO-SHOW
SHOW:: INDICA SI EL PACIENTE NO SE HA PASADO
POR EL MÉDICO DURANTE EL ÚLTIMO AÑO (0-SE HA
PASADO, 1 NO SE HA PASADO)
PASADO)..
MINERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: CORRELACIOES Y ESTUDIOS
FACTORIALES::
FACTORIALES
PERMITEN ESTABLECER RELEVACIA / IRRELEVACIA
DE FACTORES Y SI AQUÉLLA ES POSITIVA O NEGATIVA
RESPECTO A OTRO FACTOR O VARIABLE A ESTUDIAR
ESTUDIAR..
115
FASE DE MIERÍA DE DATOS
119
DEPEDECIAS DE VALOR
VALOR::
• SE BUSCAN DEPENDENCIAS DE LA SIGUIENTE FORMA
(IF ATE THEN COS
COS)):
– P.EJ.:
EJ.: IF (X1
(X1= a, X3=c, X5=d) THEN (X4
(X4=b, X2=a)
=a)..
• DE LOS n CASOS DE LA TABLA, EL ATECEDETE SE
PUEDE HACER CIERTO E ra CASOS Y DE ESTOS E rc
CASOS SE HACE TAMBIÉ EL COSECUETE, TEEMOS
LOS PARÁMETROS
PARÁMETROS::
– TC (COFIDECE/ACCURACY
COFIDECE/ACCURACY)) Y TS (SUPPORT
SUPPORT)).
– TC= CERTEZA DE LA REGLA =rc/ra, FUERZA O
COFIAZA P(COS|ATE
COS|ATE)).
– TS = MÍIMO º DE CASOS O PORCETAJE E LOS
QUE SE APLICA
SATISFACTORIAMETE (rc O rc /n
RESPECTIVAMETE)::
RESPECTIVAMETE)
– TAMBIÉN SE LO DENOMINA PREVALECIA
PREVALECIA::
P(COS ∧ ATE
ATE)).
MINERÍA DE DATOS
120
FASE DE MIERÍA DE DATOS
DNI
11251545
30512526
22451616
25152516
23525251
FASE DE MIERÍA DE DATOS
EJEMPLO:
EJEMPLO:
• ASOCIACIOES
ASOCIACIOES::
– CASADO E (HIJOS > 0) ESTÁN ASOCIADOS (80
80%
%, 4
CASOS)..
CASOS)
– OBESO Y CASADO ESTÁN ASOCIADOS (80
80%
%, 4
CASOS)..
CASOS)
• DEPEDECIAS
DEPEDECIAS::
– (HIJOS > 0) CASADO (100
100%
%, 2 CASOS)
CASOS)..
– CASADO OBESO (100
100%
%, 3 CASOS)
CASOS)..
Renta Familiar
5.000.000
1.000.000
3.000.000
2.000.000
1.500.000
Ciudad
Barcelona
Melilla
León
Valencia
Benidorm
Profesión
Ejecutivo
Abogado
Ejecutivo
Camarero
Animador
Parque
Temático
Edad
45
25
35
30
30
Hijos
3
0
2
0
0
MINERÍA DE DATOS
Obeso
S
S
S
S
N
121
123
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
122
PROPIEDAD:
PROPIEDAD:
• CUALQUIER SUBCONJUNTO DE
GRANDE ES TAMBIÉN GRANDE
GRANDE..
UN
MINERÍA DE DATOS
CONJUNTO
124
FASE DE MIERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE
ASOCIACIOES::
ASOCIACIOES
FASE A:
• MÉTODO GENÉRICO DE BÚSQUEDA DE “LARGE
ITEMSETS”..
ITEMSETS”
• DADO UN SUPPORT MÍNIMO smin:
– 1. i=
i=1
1 (TAMAÑO DE LOS CONJUNTOS)
CONJUNTOS)..
– 2. GENERAR UN CONJUNTO UNITARIO PARA CADA
ATRIBUTO EN Si.
– 3. COMPROBAR EL SUPPORT DE TODOS LOS
CONJUNTOS EN Si. ELIMINAR AQUELLOS CUYO
SUPPORT < smin.
– 4. COMBINAR LOS CONJUNTOS EN Si PARA CREAR
CONJUNTOS DE TAMAÑO i+
i+1
1 EN Si+
i+1
1.
– 5. SI Si NO ES VACÍO ETOCES i:= i+
i+1
1. IR A 3.
– 6. SI O
O,, RETORNAR S2 ∪ S3 ∪ ... ∪ Si
MINERÍA DE DATOS
CODICIOES QUE SE SUELE IMPOER
IMPOER::
• TC > 95
95%
%.
• TS > 20 (ABSOLUTO) O 50
50%
% (RELATIVO)
(RELATIVO)..
• LA BÚSQUEDA DE ASOCIACIONES CON ESTAS
CONDICIONES NO ES UN PROBLEMA INDUCTIVO, YA
QUE SE TRATA DE UN PROBLEMA COMPLETAMENTE
DETERMINADO, SIN CRITERIOS DE EVALUACIÓN Y
RELATIVAMENTE SIMPLE.
SIMPLE.
COMPLEJIDAD DE LOS ALGORITMOS DE ASOCIACIONES Y
DEPENDENCIAS::
DEPENDENCIAS
• TEMPORAL
TEMPORAL::
– BAJO CIERTAS CONDICIONES DE DISPERSIÓN Y
PARA ATRIBUTOS DISCRETOS SE PUEDEN
ENCONTRAR EN CASI TIEMPO LINEAL
LINEAL..
FASE DE MIERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE
ASOCIACIOES Y DEPEDECIAS
DEPEDECIAS::
LA MAYORÍA SE BASA EN DESCOMPONER EL PROBLEMA
EN DOS FASES
FASES::
• FASE A:
– BÚSQUEDA DE “LARGE ITEMSETS”
ITEMSETS”..
– SE BUSCAN CONJUNTOS DE ATRIBUTOS CON
‘SUPPORT’ >= AL SUPPORT DESEADO, LLAMADOS
‘LARGE ITEMSETS’ (CONJUNTOS DE ATRIBUTOS
GRANDES)..
GRANDES)
– DE MOMENTO NO SE BUSCA SEPARARLOS EN
PARTE IZQUIERDA Y PARTE DERECHA.
DERECHA.
• FASE B:
– ESCLARECIMIETO
DE
DEPEDECIAS
(REGLAS)..
(REGLAS)
– SE HACEN PARTICIONES BINARIAS Y DISJUNTAS
DE LOS ITEMSETS Y SE CALCULA LA CONFIANZA
DE CADA UNO
UNO..
– SE RETIENEN AQUELLAS REGLAS QUE TIENEN
CONFIANZA >= A LA CONFIANZA DESEADA
DESEADA..
MINERÍA DE DATOS
Casado
S
N
S
S
N
FASE DE MIERÍA DE DATOS
125
• HAY REFINAMIENTOS QUE PERMITEN UNA MEJOR
PARALELIZACIÓN (DIVIDEN EN SUBPROBLEMAS CON
MENOS TUPLAS Y LUEGO COMPRUEBAN PARA TODO
EL PROBLEMA):
PROBLEMA):
– EL MÁS FAMOSO ES EL ALGORITMO “APRIORI”
(AGRAWAL & SRIKANT)
SRIKANT)..
MINERÍA DE DATOS
126
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
EJEMPLO:
EJEMPLO:
FASE A:
• SUPPORT = 2; CONFIDENCE = 0.75.
75.
• TABLA
TABLA::
Fila
1
2
3
4
1
x
x
2
x
x
x
S1= { {1}, {2}, {3}, {4}, {5} }
S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} }
S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} }
3
x
x
x
4
x
FASE B:
• SE EVALÚA LA CONFIANZA
CONFIANZA::
{1}→{3} : 1
{2}→{3} : 0.67
{2}→{5} : 1
{3}→{5} : 0.67
{2,3}→{5} : 1
5
x
x
x
{3}→{1} : 0.67
{3}→{2} : 0.67
{5}→{2} : 1
{5}→{3} : 0.67
{2,5}→{3} : 0.67
{3,5}→{2} : 1
S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 }
S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }
S’3:support = { {2,3,5}:2 }
Sfinal = S’2 ∪ S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
MINERÍA DE DATOS
127
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
128
FASE DE MIERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: PATROES SECUECIALES
SECUECIALES::
SE TRATA DE ESTABLECER ASOCIACIONES DEL ESTILO:
ESTILO:
• “SI COMPRA X E T COMPRARÁ Y E T+P
T+P””.
EJEMPLO
EJEMPLO::
MINERÍA DE DATOS
129
FASE DE MIERÍA DE DATOS
130
FASE DE MIERÍA DE DATOS
MÉTODOS REPRESETATIVOS (AGRAWAL SRIKAT)
SRIKAT)::
• APRIORIALL
APRIORIALL..
• APRIORISOME
APRIORISOME..
• DYAMICSOME
DYAMICSOME..
• PROBLEMA
PROBLEMA::
– LOS
USUARIOS
QUIEREN
ESPECIFICAR
RESTRICCIOES SOBRE EL TIEMPO MÁXIMO Y
MÍNIMO ENTRE EVENTOS SECUENCIALES
SECUENCIALES..
• EXTESIOES
EXTESIOES::
– MINERÍA DE PATRONES SECUENCIALES CON
RESTRICCIOES..
RESTRICCIOES
– P.EJ.
EJ. SÓLO PERMITIR LAS SECUENCIAS SI LOS
ELEMENTOS ADYACENTES (P.
(P.EJ.
EJ. COMPRAS)
SUCEDEN EN UN INTERVALO MENOR A DOS
MESES..
MESES
MINERÍA DE DATOS
MINERÍA DE DATOS
131
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: DEPEDECIAS FUCIOALES
FUCIOALES::
A ^ B ^ C → D.
SIGNIFICA QUE PARA LOS MISMOS VALORES DE A, B Y C
TENEMOS UN SOLO VALOR DE D, ES DECIR D ES FUCIÓ
DE A, B Y C.
SI REPRESENTAMOS LA PARTE IZQUIERDA COMO UN
CONJUNTO DE CONDICIONES, PODEMOS ESTABLECER UNA
RELACIÓ DE ORDE ENTRE LAS DEPENDENCIAS
FUNCIONALES..
FUNCIONALES
ESTO GENERA UN SEMI
SEMI--RETÍCULO
RETÍCULO::
• LA BÚSQUEDA SE REALIZA EN ESTE RETÍCULO.
RETÍCULO.
• SEGÚN
MANNILA
&
RÄIHÄ
TIENE
COSTE
EXPOECIAL..
EXPOECIAL
• SEGÚN FLACH & SAVNIK FDEP INCLUYE
INCLUYE::
– SIMPLE TOPTOP-DOW ALGORITHM
ALGORITHM..
– BOTTOM
BOTTOM--UP ALGORITHM.
ALGORITHM.
– BIBI-DIRECTIOAL ALGORITHM
ALGORITHM..
MINERÍA DE DATOS
132
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
A^B^C
A^B
B^ C
A
A^C
B
C
MINERÍA DE DATOS
133
FASE DE MIERÍA DE DATOS
134
MÉTODOS
DESCRIPTIVOS:
DESCRIPTIVOS:
APREDIZAJE
O
SUPERVISADO::
SUPERVISADO
CLUSTERIG (SEGMETACIÓ)
(SEGMETACIÓ)::
• SE TRATA DE BUSCAR AGRUPAMIETOS NATURALES
EN UN CONJUNTO DE DATOS TAL QUE TENGAN
SEMEJANZAS..
SEMEJANZAS
MINERÍA DE DATOS
136
FASE DE MIERÍA DE DATOS
MÉTODOS DE AGRUPAMIETO
AGRUPAMIETO::
• JERÁRQUICOS
JERÁRQUICOS::
– LOS DATOS SE AGRUPAN DE MANERA
ARBORESCENTE (P.
(P.EJ.
EJ. EL REINO ANIMAL)
ANIMAL)..
• O JERÁRQUICOS:
JERÁRQUICOS : GENERAR PARTICIONES A UN
NIVEL::
NIVEL
– PARAMÉTRICOS
PARAMÉTRICOS::
SE
ASUMEN
QUE
LAS
DENSIDADES CONDICIONALES DE LOS GRUPOS
TIENEN
CIERTA
FORMA
PARAMÉTRICA
CONOCIDA (P.
(P.E. GAUSSIANA), Y SE REDUCE A
ESTIMAR LOS PARÁMETROS
PARÁMETROS..
– O PARAMÉTRICOS:
PARAMÉTRICOS : NO ASUMEN NADA SOBRE
EL MODO EN EL QUE SE AGRUPAN LOS OBJETOS
OBJETOS..
MINERÍA DE DATOS
135
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
CLASIFICACIÓ:
CLASIFICACIÓ:
• ESTABLECEN (CLARIFICAN) UNA DEPENDENCIA
FUNCIONAL..
FUNCIONAL
• PUEDE SER UN CONJUNTO DE DEPENDENCIAS DE
VALOR (1).
MINERÍA DE DATOS
MÉTODOS DESCRIPTIVOS:
DESCRIPTIVOS: DIFERECIAS ASOCIACIOES /
DEPEDECIAS,
DEPEDECIAS
FUCIOALES
Y
CLASIFICACIÓ::
CLASIFICACIÓ
ASOCIACIOES Y DEPEDECIAS
DEPEDECIAS::
• A=a ^ B=b ^ C=c → D=d ^ E=e
E=e..
ASOCIACIOES EGATIVAS
EGATIVAS::
• A=a ^ B=b ^ C=c → D<>d ^ E<>e
E<>e..
DEPEDECIAS FUCIOALES
FUCIOALES::
• A ^ B ^ C → D.
• SI EXISTE UNA TUPLA TAL QUE A=X ^ B=Y ^ C=Z ^ D=W
ENTONCES PARA CUALQUIER OTRA TUPLA QUE A=X ^
B=Y ^ C=Z ENTONCES D=W
D=W..
• O DICHO DE OTRA MANERA
MANERA::
– (
SELECT MAX(COUNT(DISTINCT D))
–
FROM R
–
GROUP BY A, B, C;
) = 1;
137
CLUSTERIG
(SEGMETACIÓ)
(SEGMETACIÓ)..
MÉTODOS
JERÁRQUICOS::
JERÁRQUICOS
• UN MÉTODO SENCILLO CONSISTE EN IR SEPARANDO
INDIVIDUOS SEGÚN SU DISTANCIA (EN CONCRETO
MEDIDAS DERIVADAS DE ENLAZADO, LIKAGE
LIKAGE)) E IR
AUMENTANDO EL LÍMITE DE DISTANCIA PARA HACER
GRUPOS..
GRUPOS
• ESTO NOS DA DIFERENTES AGRUPACIONES A
DISTINTOS NIVELES, DE UNA MANERA JERÁRQUICA
JERÁRQUICA::
– SE DENOMINA DEDOGRAMA O HIERARCHICAL
TREE PLOT
PLOT::
MINERÍA DE DATOS
138
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
139
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
140
FASE DE MIERÍA DE DATOS
141
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
142
FASE DE MIERÍA DE DATOS
• MIIMAL
SPAIG
TREE
CLUSTERIG
ALGORITHM..
ALGORITHM
• ALGORITMO (DADO UN NÚMERO DE CLUSTERS
DESEADO C)
C)..
• INICIALMENTE CONSIDERA CADA EJEMPLO COMO UN
CLÚSTER::
CLÚSTER
– AGRUPA EL PAR DE CLUSTERS MÁS CERCANOS
PARA FORMAR UN NUEVO CLUSTER
CLUSTER..
– REPITE EL PROCESO ANTERIOR HASTA QUE EL
NÚMERO DE CLUSTERS = C.
MINERÍA DE DATOS
MINERÍA DE DATOS
143
CLUSTERIG
(SEGMETACIÓ)
(SEGMETACIÓ)..
MÉTODOS
PARAMÉTRICOS::
PARAMÉTRICOS
• EL ALGORITMO EM (EXPECTATIO MAXIMIZATIO
MAXIMIZATIO,,
MAXIMUM LIKELIHOOD ESTIMATE) O ALGORITMO DE
DEMPSTER..
DEMPSTER
MINERÍA DE DATOS
144
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
CLUSTERIG
(SEGMETACIÓ)
(SEGMETACIÓ)..
MÉTODOS
O
PARAMÉTRICOS::
PARAMÉTRICOS
• MÉTODOS
MÉTODOS::
– K-NN.
NN.
– K-MEANS CLUSTERING
CLUSTERING..
– ONLINE K-MEANS CLUSTERING
CLUSTERING..
– CENTROIDES
CENTROIDES..
– SOM (SELF
(SELF--ORGANIZING MAPS) O REDES
KOHONEN..
KOHONEN
• OTROS ESPECÍFICOS
ESPECÍFICOS::
– EL ALGORITMO COBWEB (FISHER).
(FISHER).
– EL ALGORITMO AUTOCLASS (CHEESEMAN &
STUTZ)..
STUTZ)
MINERÍA DE DATOS
145
FASE DE MIERÍA DE DATOS
– LA CONECTIVIDAD ENTRE PUNTOS GENERA LOS
GRUPOS..
GRUPOS
– A VECES HACE GRUPOS PEQUEÑOS
PEQUEÑOS..
– EXISTEN VARIANTES
VARIANTES:: k-NN O COMO EL SPANNING
TREE QUE PARA DE AGRUPAR CUANDO LLEGA A
UN NÚMERO DE GRUPOS
GRUPOS..
MINERÍA DE DATOS
146
FASE DE MIERÍA DE DATOS
• k-MEAS CLUSTERIG
CLUSTERIG::
– SE UTILIZA PARA ENCONTRAR LOS k PUNTOS MÁS
DENSOS EN UN CONJUNTO ARBITRARIO DE
PUNTOS..
PUNTOS
– ALGORITMO
ALGORITMO::
– 1. DIVIDIR ALEATORIAMENTE LOS EJEMPLOS EN k
CONJUNTOS Y CALCULAR LA MEDIA (EL PUNTO
MEDIO) DE CADA CONJUNTO
CONJUNTO..
– 2. REASIGNAR CADA EJEMPLO AL CONJUNTO CON
EL PUNTO MEDIO MÁS CERCANO
CERCANO..
– 3. CALCULAR LOS PUNTOS MEDIOS DE LOS k
CONJUNTOS..
CONJUNTOS
– 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS
CONJUNTOS NO VARÍEN
VARÍEN..
MINERÍA DE DATOS
• 1- (EAREST EIGHBOUR)
EIGHBOUR)::
– DADO UNA SERIE DE EJEMPLOS EN UN ESPACIO,
SE CONECTA CADA PUNTO CON SU PUNTO MÁS
CERCANO::
CERCANO
147
FASE DE MIERÍA DE DATOS
– EL VALOR DE k SE SUELE DETERMINAR
HEURÍSTICAMENTE..
HEURÍSTICAMENTE
– PROBLEMAS
PROBLEMAS::
– 1- SI SE SABE QUE HAY n CLASES, HACER k=n
PUEDE RESULTAR EN QUE, ALGUNAS VECES,
ALGÚN GRUPO USE DOS CENTROS Y DOS GRUPOS
SEPARADOS TENGAN QUE COMPARTIR CENTRO
CENTRO..
– 2- SI k SE ELIGE MUY GRANDE, LA
GENERALIZACIÓN
ES
POBRE
Y
LAS
AGRUPACIONES FUTURAS SERÁN MALAS
MALAS..
– 3- DETERMINAR EL k IDEAL ES DIFÍCIL
DIFÍCIL..
MINERÍA DE DATOS
148
FASE DE MIERÍA DE DATOS
– 1:
– 2:
– 3:
MINERÍA DE DATOS
149
MINERÍA DE DATOS
150
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
151
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
152
FASE DE MIERÍA DE DATOS
153
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
154
FASE DE MIERÍA DE DATOS
155
MINERÍA DE DATOS
156
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
157
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
158
FASE DE MIERÍA DE DATOS
159
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
160
FASE DE MIERÍA DE DATOS
161
MINERÍA DE DATOS
162
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
163
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
164
FASE DE MIERÍA DE DATOS
165
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS
166
FASE DE MIERÍA DE DATOS
167
MINERÍA DE DATOS
168
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
169
FASE DE MIERÍA DE DATOS
170
FASE DE MIERÍA DE DATOS
• OO-LIE k-MEAS CLUSTERIG (COMPETITIVE
LEARIG)::
LEARIG)
– REFINAMIENTO INCREMENTAL DEL ANTERIOR.
ANTERIOR.
– ALGORITMO
ALGORITMO::
– 1. INICIALIZAR ALEATORIAMENTE k PUNTOS,
LLAMADOS CETROS
CETROS..
– 2. ELEGIR EL SIGUIENTE EJEMPLO Y VER CUÁL ES
EL CENTRO MÁS CERCANO
CERCANO.. MOVER EL CENTRO
HACIA EL EJEMPLO.
EJEMPLO. (P.
(P.EJ.
EJ. DISTANCIA / 2).
– 3. REPETIR EL PASO 2 PARA CADA EJEMPLO
EJEMPLO..
– 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS
EJEMPLOS CAPTURADOS POR CADA CENTRO NO
VARÍEN..
VARÍEN
MINERÍA DE DATOS
MINERÍA DE DATOS
171
FASE DE MIERÍA DE DATOS
– EL VALOR DE k SE SUELE DETERMINAR
HEURÍSTICAMENTE..
HEURÍSTICAMENTE
– PROBLEMAS
PROBLEMAS::
– 1- SI k SE ELIGE MUY PEQUEÑO, HAY GRUPOS QUE
SE QUEDAN SIN CENTRO
CENTRO..
– 2- SI k SE ELIGE MUY GRANDE, HAY CENTROS QUE
SE QUEDAN HUÉRFANOS
HUÉRFANOS.. AUQUE ESTO ES
PREFERIBLE A...
– 3- INCLUSO CON k EXACTO, PUEDE HABER ALGÚN
CENTRO QUE QUEDE HUÉRFANO
HUÉRFANO..
– UNA VARIANTE ES
ES:: LVQ (LINEAR VECTOR
QUANTIZATION) (KOHONEN)
(KOHONEN)..
MINERÍA DE DATOS
172
FASE DE MIERÍA DE DATOS
– 1:
• SOM (SELF(SELF-ORGAIZIG MAPS) O REDES KOHOE
KOHOE::
– TAMBIÉ COOCIDOS COMO LVQ (LIEAR(LIEARVECTOR
QUATIZATIO)
O
REDES
DE
MEMORIA ASOCIATIVA
ASOCIATIVA..
– LA MATRIZ DE NEURONAS DE LA ÚLTIMA CAPA
FORMA UN GRID BIDIMENSIONAL
BIDIMENSIONAL..
– 2:
– 3:
MINERÍA DE DATOS
173
MINERÍA DE DATOS
174
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
– DURANTE EL ETREAMIETO CADA UNO DE
LOS NODOS DE ESTE GRID COMPITE CON LOS
DEMÁS PARA GANAR CADA UNO DE LOS
EJEMPLOS..
EJEMPLOS
– FINALMENTE
LOS
NODOS
FUERTES
(REPRESENTADOS CON COLORES MÁS OSCUROS)
GANAN MÁS EJEMPLOS QUE LOS NODOS DÉBILES
DÉBILES..
– AL FINAL DEL APRENDIZAJE LA RED SE
ESTABILIZA
Y
SÓLO
UNAS
POCAS
COMBINACIONES DE PARES (X,Y) OBTIENEN
REGISTROS..
REGISTROS
– ESTOS SON LOS GRUPOS FORMADOS
FORMADOS..
– TAMBIÉN PUEDE VERSE COMO UNA RED QUE
REDUCE LA DIMENSIONALIDAD A 2.
– POR
ESO
ES
COMÚN
REALIZAR
UNA
REPRESETACIÓ BIDIMESIOAL CON EL
RESULTADO DE LA RED PARA BUSCAR GRUPOS
VISUALMENTE..
VISUALMENTE
MINERÍA DE DATOS
175
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
176
FASE DE MIERÍA DE DATOS
TÉCICAS SUPERVISADAS Y PREDICTIVAS
PREDICTIVAS::
MÉTODOS PREDICTIVOS:
PREDICTIVOS: ITERPOLACIÓ Y PREDICCIÓ
SECUECIAL::
SECUECIAL
REGRESIÓ LIEAL GLOBAL
GLOBAL::
• SE BUSCAN LOS COEFICIENTES DE UNA FUNCIÓN
LINEAL::
LINEAL
fˆ ( x) = w0 + w1 x1 +... + wn xn
• UNA MANERA FÁCIL (SI ES LIEAL SIMPLE
SIMPLE,, SÓLO
DOS DIMENSIONES x E y):
y):
w1 =
n(∑ xy )(∑ x )(∑ y )
(
)
n ∑ x − (∑ x )
2
2
(∑ y )(∑ x )− (∑ x )(∑ xy )
n(∑ x ) − (∑ x )
2
w0 =
2
2
• OBTENIENDO y = w0 + w1x.
MINERÍA DE DATOS
177
FASE DE MIERÍA DE DATOS
• ERROR TÍPICO
SIMPLE::
SIMPLE
DE
UA
REGRESIÓ
)
[
LIEAL
]
(
178
FASE DE MIERÍA DE DATOS
(n∑ xy )− (∑ x )(∑ y ) 2 
 1 
2
2
Etipico = 
  n ∑ y − (∑ y ) −
2
n ∑ x 2 − (∑ x )

 n(n − 2)  
(
MINERÍA DE DATOS
)
REGRESIÓ LIEAL
GLOBAL
POR
GRADIETE
DESCEDETE::
DESCEDETE
• UNA MANERA USUAL ES UTILIZANDO “GRADIET
DESCET””.
DESCET
• SE INTENTA MINIMIZAR LA SUMA DE CUADRADOS
CUADRADOS::
E=
1
∑ x∈D ( f ( x) − fˆ ( x))2
2
• DERIVANDO
DERIVANDO::
∆w j = r ·∑ x∈D ( f ( x) − fˆ ( x)) x j
• ITERATIVAMENTE
SE
VAN
AJUSTANDO
COEFICIENTES Y REDUCIENDO EL ERROR.
ERROR.
MINERÍA DE DATOS
179
MINERÍA DE DATOS
LOS
180
FASE DE MIERÍA DE DATOS
REGRESIÓ O LIEAL
LIEAL::
• ESTIMACIÓN LOGARÍTMICA (SE
FUNCIÓN A OBTENER POR y=ln
ln((f)):
FASE DE MIERÍA DE DATOS
SUSTITUYE
LA
y = w0 + w1 x1 +... + wm xm
REGRESIÓ LIEAL PODERADA LOCALMETE
LOCALMETE::
• LA FUNCIÓN LINEAL SE APROXIMA PARA CADA
PUNTO xq A INTERPOLAR
INTERPOLAR::
fˆ ( x ) = w0 + w1 x1 +... + wm xm
• SE HACE REGRESIÓN LINEAL PARA CALCULAR LOS
COEFICIENTES Y A LA HORA DE PREDECIR SE
CALCULA LA f = ey.
REGRESIÓ LOGÍSTICA
LOGÍSTICA::
• VARIACIÓN QUE SE USA PARA CLASIFICACIÓ
ENTRE 0 Y 1 USANDO LA f= ln
ln(p/(
(p/(1
1-p)).
p)).
PICK AD MIX – SUPERCHARGIG
SUPERCHARGIG::
• SE AÑADEN DIMENSIONES, COMBINANDO LAS DADAS
DADAS..
• P. EJ.:
EJ.: SI SE TIENEN CUATRO DIMENSIONES
DIMENSIONES:: x1, x2, x3
(ADEMÁS DE y) SE PUEDE DEFINIR x4 = x1·x2 , x5= x32, x6 =
x1x2 Y OBTENER UNA FUNCIÓN LINEAL DE x1, x2, x3, x4,
x5, x6.
MINERÍA DE DATOS
181
FASE DE MIERÍA DE DATOS
1
∑ ( f ( x) − fˆ ( x))2 K (d ( xq , x))
2 x∈{ los k puntos más cercanos}
• DONDE d(·,·) ES UNA DISTANCIA Y K ES UNA FUNCIÓN
QUE DISMINUYE CON LA DISTANCIA (UNA FUNCIÓN
KERNEL), P.EJ.
EJ. 1/d2.
• GRADIENT DESCENT
DESCENT::
∆w j = r ·
∑ ( f ( x) − fˆ ( x))·K (d ( x , x))·x
q
182
FASE DE MIERÍA DE DATOS
• SE INTENTA MINIMIZAR LA SUMA DE CUADRADOS DE
LOS k MÁS CERCANOS
CERCANOS::
E=
MINERÍA DE DATOS
j
REGRESIÓ ADAPTATIVA
ADAPTATIVA::
• SON CASOS PARTICULARES DE REGRESIÓN LOCAL,
EN LOS QUE SE SUPONE UN ORDEN Y SE UTILIZA
PREFERENTEMENTE PARA PREDECIR
FUTUROS
VALORES DE UNA SERIE
SERIE::
– MUY UTILIZADA EN COMPRESIÓN DE SONIDO Y
DE VÍDEO, EN REDES, ETC.
ETC. (SE PREDICEN LAS
SIGUIENTES TRAMAS)
TRAMAS)..
– ALGORITMOS
MUCHO
MÁS
SOFISTICADOS
(CADENAS DE MARKOV, VQ)
VQ)..
– ALGORITMO
MARS
(MULTIPLE
ADAPTIVE
REGRESSION SPLINES) (FRIEDMAN)
(FRIEDMAN)..
x∈{ los k puntos más cercanos }
• A MAYOR k MÁS GLOBAL, A MENOR k MÁS LOCAL
(PERO OJO CON EL OVERFITTING).
OVERFITTING).
MINERÍA DE DATOS
183
MÉTODOS PREDICTIVOS:
PREDICTIVOS: APREDIZAJE SUPERVISADO
SUPERVISADO::
k- (EAREST EIGHBOUR)
EIGHBOUR)::
• 1. SE MIRAN LOS k CASOS MÁS CERCANOS
CERCANOS..
• 2. SI TODOS SON DE LA MISMA CLASE, EL NUEVO
CASO SE CLASIFICA EN ESA CLASE
CLASE..
• 3. SI NO, SE CALCULA LA DISTANCIA MEDIA POR
CLASE O SE ASIGNA A LA CLASE CON MÁS
ELEMENTOS..
ELEMENTOS
• EL
VALOR
DE k SE SUELE DETERMINAR
HEURÍSTICAMENTE..
HEURÍSTICAMENTE
MINERÍA DE DATOS
184
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
185
• MEJORA (PONDERAR MÁS LOS MÁS CERCANOS)
CERCANOS)::
Atracción(c j , xq ) = {xi : xi ∈ c j } ·krnli
• DONDE
DONDE::
krnli =
1
d ( xq , xi ) 2
• SE CALCULA LA FUERZA DE ATRACCIÓN DE CADA
CLASE cj PARA EL NUEVO PUNTO xq.
• SE ELIGE LA CLASE QUE MÁS ATRAE
ATRAE..
• SI EL PUNTO xq COINCIDE CON UN PUNTO xi, LA CLASE
ES LA DE xi.
• SI EL PUNTO xq COINCIDE CON MÁS DE UN PUNTO xi, SE
PROCEDE DE LA FORMA ANTERIOR
ANTERIOR..
MINERÍA DE DATOS
186
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• PARA
VALORES
CONTINUOS
(SIRVE
PARA
INTERPOLAR)::
INTERPOLAR)
– SI LA CLASE ES UN VALOR REAL, EL k-NN ES
FÁCILMENTE ADAPTABLE
ADAPTABLE::
k
fˆ ( xq ) =
∑ krnl f ( x )
i
(O-LIE) k-MEAS CLUSTERIG
(OCLUSTERIG::
• AUNQUE LO VIMOS COMO UNA TÉCNICA NO
SUPERVISADA, TAMBIÉN SE PUEDE UTILIZAR PARA
APRENDIZAJE
SUPERVISADO,
SI
SE
UTILIZA
CONVENIENTEMENTE..
CONVENIENTEMENTE
i
i =1
k
∑ krnl
i
i =1
• ELEGIR UN k MAYOR QUE EL NÚMERO DE CLASES
PERO NO MUCHO MAYOR
MAYOR..
– DONDE LOS xi SON LOS k VECINOS MÁS PRÓXIMOS
Y f(·) ES LA FUNCIÓN QUE DA EL VALOR REAL DE
CADA UNO
UNO..
MINERÍA DE DATOS
187
FASE DE MIERÍA DE DATOS
MINERÍA DE DATOS
188
FASE DE MIERÍA DE DATOS
PERCEPTRO LEARIG
LEARIG::
• SE AÑADE UN THRESHOLD ESCALÓ:
ESCALÓ:
output j = sgn( y ' j )
1 si x > 0
sgn( x) = 

− 1 si no 
• COMPUTAN UNA FUNCIÓN LINEAL
LINEAL..
• PARA CADA yj ES
ES::
n
y ' j = ∑ wi, j ·xi
i =1
MINERÍA DE DATOS
189
MINERÍA DE DATOS
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• SI SE QUIERE DISMINUIR EL ERROR POCO A POCO
POCO..
• EL GRADIENTE ES LA DERIVADA POR CADA
COMPONENTE DEL VECTOR:
VECTOR:
• GRADIET DESCET (FORMUL
(FORMUL.. PARA UNA SOLA
SALIDA)::
SALIDA)
∂E
∂ 1
1 ∂
=
∑ ( yk − y 'k ) 2 = 2 ∂w
∂wi ∂wi 2 k :1.. p
i
• EL ERROR DE LEAST MEAN SQUARES DE LOS p
EJEMPLOS SE DEFINE COMO
COMO::
=
∑(y
k :1.. p
k
− y 'k )
∑(y
k
− y'k ) 2 =
k :1.. p
1
∂
∑ 2( yk − y 'k ) ∂w ( yk − y'k ) =
2 k :1.. p
i
rr
∂
( yk − w·xk ) = ∑ ( yk − y'k )(− xi ,k )
∂wi
k :1.. p
• QUEDA
QUEDA::
r
1
1
E ( w) = ∑ (ek ) 2 = ∑ ( yk − y 'k ) 2
2 k :1.. p
2 k:1.. p
∆wi =
∑(y
k
− y 'k )xi ,k =
k :1.. p
MINERÍA DE DATOS
190
191
MINERÍA DE DATOS
∑x
i ,k
·ek
k :1.. p
192
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• EL ALGORITMO GRADIET DESCET AJUSTA ASÍ
ASÍ::
– 1. SE ASIGNA A LOS wi,j UN VALOR PEQUEÑO
ALEATORIO ENTRE 0 Y 1.
– 2. HASTA QUE LA CONDICIÓN DE TERMINACIÓN
SE CUMPLE, HACER
HACER::
– 3. PARA TODOS LOS p EJEMPLOS (xk,yk)t SE
CALCULA LA MATRIZ DE ERROR (etk=ytk-y’tk).
– 4. SE RECALCULAN LOS PESOS SIGUIENDO LEAST
LEAST-MEAN SQUARES (LMS
LMS),
), CON UN LEARNING RATE
(r):
wit,+j1 = wit, j +
∑ r(x
t
i ,k
• EL
ALGORITMO
PERCEPTRON
(VERSIÓ
ICREMETAL O APROXIMACIÓ ESTOCÁSTICA AL
GRADIET DESCET
DESCET)):
– 1. SE ASIGNAN ALEATORIAMENTE LOS wi,j ENTRE 0
Y 1 (O SE PONE .5).
– 2. T=
T=1
1 (SE TOMA EL PRIMER EJEMPLO)
EJEMPLO)..
– 3. PARA EL EJEMPLO (x,y
x,y))t SE CALCULA EL VECTOR
ERROR (et=yt-y’t).
– 4. SE RECALCULAN LOS PESOS SIGUIENDO LEAST
LEAST-MEAN SQUARES (LMS
LMS),
), TAMBIÉN LLAMADA
REGLA DELTA, ADALINE O WIDROW
WIDROW--HOFF
HOFF::
·e tj ,k )
wit,+j1 = wit, j + r ( xit ·etj )
k :1.. p
– 5. t:= t+
t+1
1, IR A 2.
– r ES UN VALOR GEERALMETE PEQUEÑO (0.05
05))
Y SE DETERMIA HEURÍSTICAMETE
HEURÍSTICAMETE.. A MAYOR
r CONVERGE MÁS RÁPIDO PERO PUEDE PERDERSE
EN VALLES LOCALES
LOCALES..
MINERÍA DE DATOS
193
FASE DE MIERÍA DE DATOS
194
FASE DE MIERÍA DE DATOS
– 5. t:= t+
t+1
1, IR A 2 HASTA QUE NO QUEDEN EJEMPLOS
O EL ERROR MEDIO SE HA REDUCIDO A UN VALOR
DESEADO..
DESEADO
– EN GENERAL, ESTA VERSIÓN ES MÁS EFICIETE
QUE LA ANTERIOR Y EVITA ALGUNOS MÍNIMOS
LOCALES..
LOCALES
MINERÍA DE DATOS
MINERÍA DE DATOS
195
FASE DE MIERÍA DE DATOS
MULTILAYER PERCEPTRO (REDES NEURONALES
ARTIFICIALES, ANN)
ANN)::
• EL PERCEPTRON DE UNA CAPA NO ES CAPAZ DE
APRENDER LAS FUNCIONES MÁS SENCILLAS
SENCILLAS..
• SE AÑADEN CAPAS INTERNAS, SE INTRODUCEN
DIFERENTES FUNCIONES DE ACTIVACIÓN E INCLUSO
RECIENTEMENTE SE INTRODUCEN BUCLES Y
RETARDOS..
RETARDOS
MINERÍA DE DATOS
196
FASE DE MIERÍA DE DATOS
• EN EL CASO MÁS SENCILLO, CON LA FUNCIÓN DE
ACTIVACIÓN SG
SG,, EL NÚMERO DE UNIDADES
INTERNAS k DEFINE EXACTAMENTE EL NÚMERO DE
BOUDARIES QUE LA FUNCIÓN GLOBAL PUEDE
CALCULAR POR CADA SALIDA
SALIDA..
• EL
VALOR
DE k SE SUELE DETERMINAR
HEURÍSTICAMENTE..
HEURÍSTICAMENTE
• PERO, ¿CÓMO ENTRENAR ESTE TIPO DE RED?
RED?..
• PARA PODER EXTENDER EL GRADIENT DESCENT
NECESITAMOS UNA FUNCIÓN DE ACTIVACIÓN
CONTINUA::
CONTINUA
• LA MÁS USUAL ES LA FUNCIÓN SIGMOIDAL
SIGMOIDAL::
σ ( x) =
1
1 + e− x
• ESTO PERMITE PARTICIONES NO LINEALES
LINEALES::
MINERÍA DE DATOS
197
MINERÍA DE DATOS
198
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
ALGORITMO BACKPROPAGATIO (RUMELHART)
(RUMELHART)::
• INICIALIZAR TODOS LOS PESOS A VALORES
PEQUEÑOS ALEATORIOS (ENTRE -.05 Y .05)
05).
• HASTA QUE SE CUMPLA LA CONDICIÓN DE
TERMINACIÓN HACER
HACER::
– PARA CADA EJEMPLO (x,y
x,y)):
– SE CALCULAN LAS SALIDAS DE TODAS LAS
UNIDADES ou
– SE CALCULA EL ERROR EN CADA SALIDA k:
δ k = ok (1 − ok )( yk − ok )
MINERÍA DE DATOS
∑ (w
k ,h
× δk )
k ∈outputs
– SE ACTUALIZAN LOS PESOS
PESOS::
w j ,i = w j ,i + r ×δ j × x j ,i
199
MINERÍA DE DATOS
200
FASE DE MIERÍA DE DATOS
RADIAL-BASIS FUCTIO (CLUSTERING METHOD + LMS)
RADIALLMS)::
• PRIMER PASO
PASO:: ALGORITMO CLUSTERIG
CLUSTERIG::
– 1. DIVIDIR ALEATORIAMENTE LOS EJEMPLOS EN k
CONJUNTOS Y CALCULAR LA MEDIA (EL PUNTO
MEDIO) DE CADA CONJUNTO
CONJUNTO..
– 2. REASIGNAR CADA EJEMPLO AL CJTO
CJTO.. CON
PUNTO MEDIO MÁS CERCANO
CERCANO..
– 3. CALCULAR LOS PUNTOS MEDIOS DE LOS k
CONJUNTOS..
CONJUNTOS
– 4. REPETIR LOS PASOS 2 Y 3 HASTA QUE LOS
CONJUNTOS NO VARÍEN
VARÍEN..
• SEGUDO PASO
PASO:: RECODIFICAR LOS EJEMPLOS COMO
DISTANCIAS A LOS CENTROS Y NORMALIZAR (CADA
EJEMPLO PASA A SER UN VECTOR DE k ELTOS)
ELTOS)..
• TERCER PASO
PASO:: CON UN PERCEPTRON DE k
ELEMENTOS DE ENTRADA Y UNA SALIDA, APLICAR EL
ALGORITMO VISTO ANTES
ANTES..
MINERÍA DE DATOS
201
FASE DE MIERÍA DE DATOS
δh = oh (1 − oh )
• SE NECESITAN MUCHOS EJEMPLOS
EJEMPLOS::
– AL MENOS 10 EJEMPLOS POR CADA PESO Y
OUTPUT A APRENDER
APRENDER.. P.EJ, UNA RED CON 50
ENTRADAS Y 10 NODOS INTERNOS, NECESITA
10..220 EJEMPLOS POR LO MENOS
10
MENOS..
FASE DE MIERÍA DE DATOS
– PARA CADA EJEMPLO (x,y
x,y)) (CONTINUACIÓN)
(CONTINUACIÓN)::
– PARA CADA UNIDAD OCULTA h SE CALCULA SU
ERROR::
ERROR
MINERÍA DE DATOS
202
FASE DE MIERÍA DE DATOS
ÁRBOLES DE DECISIÓ
DECISIÓ::
• ALGORITMO DIVIDE Y VECERÁS
VECERÁS::
– 1. SE CREA UN NODO RAÍZ CON S:= TODOS LOS
EJEMPLOS..
EJEMPLOS
– 2. SI TODOS LOS ELEMENTOS DE S SON DE LA
MISMA CLASE, EL SUBÁRBOL SE CIERRA
CIERRA..
SOLUCIÓN ENCONTRADA
ENCONTRADA..
– 3. SE ELIGE UNA CONDICIÓN DE PARTICIÓN
SIGUIENDO UN CRITERIO DE PARTICIÓN (SPLIT
CRITERION)..
CRITERION)
– 4. EL PROBLEMA (Y S) QUEDA SUBDIVIDO EN DOS
SUBÁRBOLES (LOS QUE CUMPLEN LA CONDICIÓN
Y LOS QUE NO) Y SE VUELVE A 2 PARA CADA UNO
DE LOS DOS SUBÁRBOLES
SUBÁRBOLES..
MINERÍA DE DATOS
203
MINERÍA DE DATOS
204
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
EJEMPLO CON DATOS DISCRETOS
DISCRETOS::
• REPRESETACIÓ LÓGICA
LÓGICA::
– (OUTLOOK=SUNNY AND HUMIDITY=NORMAL) OR
(OUTLOOK=OVERCAST) OR (OUTLOOK=RAIN AND
WIND=WEAK)..
WIND=WEAK)
– EJ.:
EJ.: LA INSTANCIA (OUTLOOK = SUNNY,
TEMPERATURE = COOL, HUMIDITY = HIGH, WIND
= STRONG) ES NO.
NO.
MINERÍA DE DATOS
205
FASE DE MIERÍA DE DATOS
206
FASE DE MIERÍA DE DATOS
• EL CRITERIO GANANCIA DE INFORMACIÓN (C4
(C4.5) HA
DADO MUY BUENOS RESULTADOS
RESULTADOS.. SUELE DERIVAR
EN UNA PREFERENCIA EN ÁRBOLES PEQUEÑOS
(NAVAJA DE OCCAM)
OCCAM)..
• VENTAJAS
VENTAJAS::
– MUY FÁCIL DE ENTENDER Y DE VISUALIZAR EL
RESULTADO..
RESULTADO
– SON ROBUSTOS AL RUIDO
RUIDO.. EXISTEN ALGORITMOS
DE POST
POST--PRUIG PARA PODAR HOJAS POCO
SIGNIFICATIVAS (QUE SÓLO CUBREN UNO O MUY
POCOS EJEMPLOS)
EJEMPLOS)..
• DESVENTAJAS
DESVENTAJAS::
– SUELE
SER
MUY
VORAZ
(NO
HACE
BACKTRACKING:: MÍNIMOS LOCALES)
BACKTRACKING
LOCALES)..
– SI EL CRITERIO DE PARTICIÓN NO ESTÁ BIEN
ELEGIDO, LAS PARTICIONES SUELEN SER MUY
ADAD-HOC Y GENERALIZAN POCO
POCO..
MINERÍA DE DATOS
MINERÍA DE DATOS
AIVE BAYES CLASSIFIERS
CLASSIFIERS::
arg max P (ci | ( x1 , x2 ,..., xm )) = arg max
Bayes
ci ∈C
ci ∈C
P (( x1 , x2 ,..., xm ) | ci )·P (ci )
=
P ( x1 , x2 ,..., xm )
= arg max P (( x1 , x2 ,..., xm ) | ci )·P(ci )
ci ∈C
• ASUMIENDO
IDEPEDECIA
ATRIBUTOS, TENEMOS
TENEMOS::
ENTRE
LOS
VB = arg max P(ci )∏ P( x j | ci )
ci ∈C
207
j
MINERÍA DE DATOS
208
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• SI ESTOS xj SON CONTINUOS PODEMOS DISCRETIZAR
EN INTERVALOS Y CALCULAR P(
P(cci | tk<xj≤tk+1).
• CUANTO MÁS FINOS, MÁS COSTOSO SERÁ EL
ALGORITMO..
ALGORITMO
AIVE BAYES CLASSIFIERS m-ESTIMATE
ESTIMATE::
• GENERALMENTE, SI HAY POCOS DATOS,
DATOS, ES POSIBLE
QUE ALGUNA PROBABILIDAD CONDICIONAL SEA 0
PORQUE NO HA APARECIDO UN DETERMINADO
VALOR DE UN ATRIBUTO PARA UNA CIERTA CLASE:
CLASE:
– P.EJ.
EJ. P(WATER=COOL| ENJOYSPORT=NO)
ENJOYSPORT=NO)..
• PARA EVITAR ESTE PROBLEMA SE UTILIZA UN mESTIMADO DE LA PROBABILIDAD
PROBABILIDAD::
nc + mp
n+m
MINERÍA DE DATOS
209
MINERÍA DE DATOS
210
FASE DE MIERÍA DE DATOS
FASE DE MIERÍA DE DATOS
• DONDE n SON LOS CASOS DE LA CLASE
CONSIDERADA..
CONSIDERADA
• nc SON LOS CASOS DE ESTA CLASE EN LOS QUE EL
ATRIBUTO CONSIDERADO TOMA UN CIERTO VALOR.
VALOR.
• m ES UNA CONSTANTE DENOMINADA “TAMAÑO
EQUIVALENTE DE MUESTRA”
MUESTRA”..
• p ES LA PROBABILIDAD DE CADA VALOR DEL
ATRIBUTO A PRIORI
PRIORI..
• GENERALMENTE p SE ESCOGE UNIFORMEMENTE, ES
DECIR, SI HAY k VALORES POSIBLES, p = 1/k
/k..
• EL VALOR DE m SE ESCOGE LO MÁS PEQUEÑO
POSIBLE (1 A 10)
10) PARA NO INTERFERIR EN LA
PROPORCIÓN OBSERVADA (nc/n
/n)).
MINERÍA DE DATOS
211
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MINERÍA DE DATOS
213
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
CARACTERÍSTICAS ESPECIALES DE LA EXTRACCIÓ DE
COOCIMIETO DE IFO
IFO.. O ESTRUCTURADA:
ESTRUCTURADA:
OBJETIVOS LIGERAMENTE ESPECIALES:
ESPECIALES:
BÚSQUEDA
DE
INFORMACIÓN
RELEVANTE
O
RELACIONADA..
RELACIONADA
CREACIÓN DE NUEVA INFORMACIÓN A PARTIR DE
INFORMACIÓN EXISTENTE (RESÚMENES, LISTAS, ...
...)).
PERSONALIZACIÓN DE LA INFORMACIÓN
INFORMACIÓN..
APRENDIZAJE A PARTIR DE LOS USUARIOS, VISITANTES O
CONSUMIDORES..
CONSUMIDORES
MINERÍA DE DATOS
214
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MÉTODOS O APROPIADOS:
APROPIADOS :
SIN UNA PROFUNDA TRANSFORMACIÓN DE LOS DATOS,
MUCHAS TÉCNICAS DE APRENDIZAJE AUTOMÁTICO SON
INÚTILES PARA MUCHAS APLICACIONES
APLICACIONES::
MÉTODOS DE CLASIFICACIÓ (ÁRBOLES DE DECISIÓN,
FENCE & FILL, ...
...)):
• ESTÁN BASADOS EN UNA CLASE DEPENDIENTE DE UN
NÚMERO
DE
ATRIBUTOS
PREDETERMINADOS
(EXCEPTUANDO NAIVE BAYES)
BAYES)..
MÉTODOS
UMÉRICOS
(REGRESIÓN,
REDES
NEURONALES, ...
...)):
• LOS DATOS SON SIMBÓLICOS, NO NUMÉRICOS
NUMÉRICOS..
MÉTODOS POR CASOS (KNN, CBR, ...
...)):
• TIEMPOS DE RESPUESTA SERÍAN MUY ALTOS
ALTOS..
MINERÍA DE DATOS
212
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MINERÍA DE DATOS
CETER SPLITTIG
SPLITTIG::
• 1. INICIALIZAR EL PRIMER CENTRO EN LA MEDIA DE
LOS EJEMPLOS
EJEMPLOS..
• 2. ASIGNAR TODOS LOS EJEMPLOS A SU CENTRO MÁS
CERCANO..
CERCANO
• 3. SI HAY ALGÚN CENTRO QUE TIENE EJEMPLOS DE
DIFERENTE CLASE, BORRAR EL CENTRO Y CREAR
TANTOS NUEVOS CENTROS DISTITOS COMO CLASES
HAYA, CADA UNO SIENDO LA MEDIA DE LOS
EJEMPLOS DE LA CLASE
CLASE.. IR A 2.
215
MÉTODOS APROPIADOS:
APROPIADOS :
ESTRUCTURADOS
ESTRUCTURADOS::
MÉTODOS BAYESIANOS
BAYESIANOS..
OTROS MÉTODOS ESTADÍSTICOS
ESTADÍSTICOS..
MÉTODOS RELACIONALES
RELACIONALES..
SEMIESTRUCTURADOS
SEMIESTRUCTURADOS::
GRAMATICALES (AUTÓMATAS)
(AUTÓMATAS)..
MÉTODOS RELACIONALES CON CONSTRUCTORES
CONSTRUCTORES..
MINERÍA DE DATOS
216
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
COCEPTOS:
COCEPTOS:
WEB MIIG SE REFIERE AL PROCESO GLOBAL DE
DESCUBRIR
INFORMACIÓN
O
COOCIMIETO
POTENCIALMENTE ÚTIL Y PREVIAMENTE DESCONOCIDO A
PARTIR DE DATOS DE LA WEB (ETZIONI)
(ETZIONI)..
WEB MINING
COMBIA OBJETIVOS Y TÉCNICAS DE
DISTINTAS ÁREAS
ÁREAS::
INFORMATION RETRIEVAL (IR).
(IR).
NATURAL LANGUAGE PROCESSING (NLP)
(NLP)..
DATA MINING (DM)
(DM)..
DATABASES (DB)
(DB)..
WWW RESEARCH.
RESEARCH.
AGENT TECHNOLOGY
TECHNOLOGY..
MINERÍA DE DATOS
219
VISIÓ CLÁSICA COMO RECUPERACIÓN DE INFORMACIÓN
INFORMACIÓN::
WEB MIIG COMO IFORMATIO RETRIEVAL (IR)
(IR)::
• DISPARADO POR CONSULTA (QUERY
(QUERY--TRIGGERED)
TRIGGERED)::
– ES EL OBJETIVO DE NUMEROSAS HERRAMIENTAS
HERRAMIENTAS::
BUSCADORES E ÍNDICES
ÍNDICES..
– LAS
HERRAMIETAS
SO
CLÁSICAS
ESTADÍSTICAS Y ADAD-HOC
HOC....
....
VISIÓ
MÁS
AMBICIOSA
COMO
EXTRACCIÓN
DE
INFORMACIÓN::
INFORMACIÓN
WEB MIIG COMO IFORMATIO EXTRACTIO (IE)
(IE)::
• DISPARADO POR DATOS (DATA
(DATA--TRIGGERED)
TRIGGERED)::
– ES UNA VISIÓN MÁS AMBICIOSA DEL WEB
MINING..
MINING
– LAS HERRAMIETAS SO MÁS GEERALES Y
DE APREDIZAJE AUTOMÁTICO
AUTOMÁTICO..
MINERÍA DE DATOS
220
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
IR PERSIGUE SELECCIONAR DOCUMETOS RELEVATES
MIENTRAS
QUE
IE
PERSIGUE
EXTRAER
HECHOS
RELEVATES A PARTIR DE LOS DOCUMENTOS
DOCUMENTOS.. (KOSALA &
BLOCKEEL)..
BLOCKEEL)
NO SÓLO SE REQUIERE IFORMACIÓ RELEVANTE SINO
INFORMACIÓN DE CALIDAD O AUTORIZADA
AUTORIZADA..
PARA ELLO ES IMPORTANTÍSIMO NO ANALIZAR LOS
DOCUMENTOS DE FORMA INCONEXA, SINO ANALIZAR SU RED
DE INTERCONEXIONES (SUS ELACES
ELACES)).
MUCHA INFORMACIÓN ESTÁ EN ELACES ETRATES
ETRATES::
MUCHAS PÁGINAS NO SE AUTODESCRIBEN
AUTODESCRIBEN.. P.EJ.
EJ. UNA
PÁGINA PUEDE SER CLASIFICADA POR LOS ENLACES QUE
LE
LLEGAN
(REFERENTES),
QUE
SUELEN
IR
ACOMPAÑADOS DE UNA PEQUEÑA DESCRIPCIÓN DE LA
PÁGINA O JUNTO A OTROS ENLACES SIMILARES
(CLUSTERING)..
(CLUSTERING)
TAMBIÉN (NO TANTA) INFORMACIÓN SOBRE LA PÁGINA SE
ENCUENTRA EN ELACES SALIETES
SALIETES..
MINERÍA DE DATOS
218
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
¿ESTÁ LA INFORMACIÓN DE LA WEB LO SUFICIETEMETE
ESTRUCTURADA PARA FACILITAR MINERÍA DE DATOS
EFECTIVA? (ETZIONI).
(ETZIONI).
WEB MINING SE PUEDE ESTRUCTURAR EN FASES (KOSALA &
BLOCKEEL)::
BLOCKEEL)
DESCUBRIMIETO DE RECURSOS
RECURSOS..
EXTRACCIÓ DE IFORMACIÓ
IFORMACIÓ..
GEERALIZACIÓ
GEERALIZACIÓ..
AÁLISIS, VALIDACIÓ E ITERPRETACIÓ DE LOS
PATRONES..
PATRONES
MINERÍA DE DATOS
DESCUBRIMIETO DE RECURSOS
RECURSOS::
LOCALIZACIÓN DE DOCUMENTOS RELEVANTES O NO
USUALES EN LA RED
RED..
ÉSTA ES LA FUNCIÓN DE:
DE:
• ÍNDICES BUSCADORES
BUSCADORES:: EXTRAEN CONTENIDO EN
PALABRAS, ZONA DEL DOCUMENTO, IDIOMA
IDIOMA..
• ÍNDICES TEMÁTICOS
TEMÁTICOS:: CLASIFICAN LOS DOCUMENTOS
DOCUMENTOS..
EXTRACCIÓ DE IFORMACIÓ
IFORMACIÓ::
EXTRAER DETERMINADA INFORMACIÓN A PARTIR DE UN
DOCUMENTO, YA SEA HTML, XML, TEXTO, PS, PDF, LATEX,
FAQS, ....
GEERALIZACIÓ::
GEERALIZACIÓ
DESCUBRIR PATRONES GENERALES A PARTIR DE SITIOS
WEB INDIVIDUALES:
INDIVIDUALES : CLUSTERING, ASOCIACIONES ENTRE
DOCUMENTOS..
DOCUMENTOS
MINERÍA DE DATOS
217
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
221
CLASIFICACIÓ DEL WEB MIIG:
MIIG:
DISJUNTA (KOSALA & BLOCKEEL)
BLOCKEEL)::
WEB COTET MIIG
MIIG..
WEB STRUCTURE MIIG
MIIG..
WEB USAGE MIIG
MIIG..
MINERÍA DE DATOS
CLASIFICACIÓN
NO
222
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
WEB COTET MIIG
MIIG::
EXTRAER
INFORMACIÓN DEL CONTENIDO DE LOS
DOCUMENTOS EN LA WEB
WEB..
SE PUEDE CLASIFICAR A SU VEZ EN:
EN:
• TEXT MINING:
MINING: SI LOS DOCUMENTOS SON TEXTUALES
(PLANOS)..
(PLANOS)
• HYPERTEXT
MINING
MINING::
SI
LOS
DOCUMENTOS
CONTIENEN ENLACES A OTROS DOCUMENTOS O A SÍ
MISMOS..
MISMOS
• MARKUP
MINING
MINING::
SI
LOS
DOCS
DOCS..
SON
SEMIESTRUCTURADOS (CON MARCAS)
MARCAS)..
• MULTIMEDIA MINING
MINING:: PARA IMÁGENES, AUDIO,
VÍDEO, ...
MINERÍA DE DATOS
224
WEB COTET MIIG
MIIG.. TEXT MIIG
MIIG::
CIENTOS O MILES DE PALABRAS
PALABRAS..
HAY APLICACIONES DIFERENTES
DIFERENTES:: TEXT CATEGORIZATIO,
TEXT CLUSTERIG
CLUSTERIG..
EXISTEN VARIAS APROXIMACIONES A LA REPRESENTACIÓN
DE LA INFORMACIÓN (HEARST AND HIRSH)
HIRSH)::
“BAG OF WORDS”
WORDS”..
N-GRAMAS O FRASES
FRASES..
REPRESENTACIÓN RELACIONAL (PRIMER ORDEN)
ORDEN)..
CATEGORÍAS DE CONCEPTOS
CONCEPTOS..
ALGUNOS PROBLEMAS
PROBLEMAS::
“VOCABULARY PROBLEM
PROBLEM”” (FURNAS).
(FURNAS).
SINONIMIA
Y
QUASI
QUASI--SINONIMIA
(COMUNICADO,
DECLARACIÓN)..
DECLARACIÓN)
POLISEMIA (BOMBA)
(BOMBA)..
LEMAS (DESCUBRIR, DESCUBRIMIENTO)
DESCUBRIMIENTO)..
MINERÍA DE DATOS
226
ETC
ETC..
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
“BAG OF WORDS”
WORDS”:
CADA PALABRA CONSTITUYE UNA POSICIÓN DE UN
VECTOR..
VECTOR
EL VALOR SE CORRESPONDE CON EL Nº DE VECES QUE HA
APARECIDO..
APARECIDO
-GRAMAS O FRASES:
FRASES:
PERMITE
TENER EN CUENTA EL ORDEN DE LAS
PALABRAS..
PALABRAS
TRATA MEJOR FRASES NEGATIVAS “... EXCEPTO ...
...”,
”, “...
PERO NO...
NO...”,
”, QUE TOMARÍAN EN OTRO CASO LAS
PALABRAS QUE LE SIGUEN COMO RELEVANTES
RELEVANTES..
REPRESETACIÓ RELACIOAL (PRIMER ORDEN)
ORDEN)::
PERMITE DETECTAR PATRONES MÁS COMPLEJOS
COMPLEJOS::
• SI LA PALABRA X ESTÁ A LA IZQUIERDA DE LA
PALABRA Y EN LA MISMA FRASE
FRASE..
CATEGORÍAS DE COCEPTOS
COCEPTOS..
MINERÍA DE DATOS
MINERÍA DE DATOS
225
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
WEB STRUCTURE MIIG
MIIG::
SE INTENTA DESCUBRIR UN MODELO A PARTIR DE LA
TOPOLOGÍA DE ENLACES DE LA RED
RED..
ESTE MODELO PUEDE SER ÚTIL PARA CLASIFICAR O
AGRUPAR DOCUMENTOS
DOCUMENTOS..
WEB USAGE MIIG
MIIG::
SE
INTENTA
EXTRAER
INFORMACIÓN
(HÁBITOS,
PREFERENCIAS, ETC
ETC.. DE LOS USUARIOS O CONTENIDOS Y
RELEVANCIA DE DOCUMENTOS) A PARTIR DE:
DE:
• LAS SESIONES
SESIONES..
• COMPORTAMIENTOS
DE
LOS
USUARIOS
Y
NAVEGANTES..
NAVEGANTES
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
WEB COTET MIIG
MIIG::
LAS TÉCICAS VARÍA DEPENDIENDO DEL TIPO DE
DOCUMETO::
DOCUMETO
TEXT
MIIG
MIIG:: TÉCNICAS DE RECUPERACIÓN DE
INFORMACIÓN (IR) FUNDAMENTALMENTE
FUNDAMENTALMENTE.. TÉCNICAS
ESTADÍSTICAS Y LINGÜÍSTICAS
LINGÜÍSTICAS..
HYPERTEXT MIIG
MIIG:: NO SÓLO SE REFIERE A ENLACES
ENTRE
DOCUMENTOS
SINO
TAMBIÉN
INTRO
INTRO-DOCUMENTOS (OEM)
(OEM).. SE HA DE CONSTRUIR UN GRAFO DE
REFERENCIAS...
REFERENCIAS
...
MARKUP MIIG
MIIG:: LA INFORMACIÓN DE LAS MARCAS
CONTIENE INFORMACIÓN (HTML
(HTML:: SECCIONES, TABLAS,
NEGRITAS:: RELEVANCIA, CURSIVA, ETC
NEGRITAS
ETC.., XML:
XML: MUCHO
MÁS...
MÁS
...)).
MULTIMEDIA
MIIG
MIIG:: ALGUNOS TRABAJOS SOBRE
BIBLIOTECAS DE IMÁGENES
IMÁGENES..
MINERÍA DE DATOS
223
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
227
CLASIFICADO TEXTO CO B CLASSIFIER
CLASSIFIER::
EJEMPLO
EJEMPLO::
CONSIDEREMOS
DOCUMENTOS DE TEXTO O DE
HIPERTEXTO T, QUE SE PUEDEN CLASIFICAR EN VARIAS
CLASES, P.EJ.
EJ. (INTERESANTE, NONO-INTERESANTE) O EN
DIFERENTES TEMAS.
TEMAS.
DEFINIMOS UN ATRIBUTO ai COMO CADA POSICIÓN i DE
CADA PALABRA EN EL TEXTO:
TEXTO:
• POR EJEMPLO, DADO ESTE PÁRRAFO, TENDRÍAMOS 40
ATRIBUTOS, DONDE EL VALOR ti PARA EL PRIMER
ATRIBUTO SERÍA “DEFINIMOS”, EL VALOR PARA EL
SEGUNDO SERÍA “UN”, ETC
ETC..
MINERÍA DE DATOS
228
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
SE DEBE HACER LA SIGUIENTE SUPOSICIÓ FALSA
FALSA::
LA
PROBABILIDAD
DE
UA
PALABRA
ES
IDEPEDIETE DE SUS PRECEDETES Y SUS
SIGUIETES..
SIGUIETES
LOS P(
P(a
ai|vj) SO IDEPEDIETES ETRE SÍ.
SÍ.
FALSO, POR EJEMPLO, CON LAS PALABRAS “POR” Y
“EJEMPLO”..
“EJEMPLO”
ESTE SUPUESTO NO ES TAN GRAVE EN GENERAL Y PERMITE
UTILIZAR EL CLASIFICADOR BAYESIANO NAÏVE
NAÏVE..
|T |


vB = arg max P(v j )·∏ P( ai = ti | v j ) 
v j ∈{ sí , no} 
i =1

P( ai = wk | v j ) = P( am = wk | v j ) para todo i, j , k , m
MINERÍA DE DATOS
229
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
ESTO SUPONE ESTIMAR ÚNICAMENTE LAS P(wk|vj). ES DECIR,
LA PROBABILIDAD DE APARICIÓN DE CADA PALABRA SEGÚN
LA CLASE
CLASE..
MINERÍA DE DATOS
230
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
SE ADOPTA UN m-ESTIMADO
ESTIMADO::
1
nk + | Voc |
n + mp
n +1
| Voc |
P( wk | v j ) = k
=
= k
n+m
n+ | Voc |
n+ | Voc |
A PRIMERA VISTA, PARECE QUE:
QUE:
P(vj) ES FÁCIL DE DETERMINAR (LA PROPORCIÓN DE
DOCUMENTOS DE CADA CLASE)
CLASE)..
P(ai= wk|vj), SIN EMBARGO, REQUERIRÍA MILLONES DE
CASOS PARA TENER UNA ESTIMACIÓN
ESTIMACIÓN..
OTRA SUPOSICIÓN (MÁS RAZONABLE)
RAZONABLE)::
LAS PROBABILIDADES SO IDEPEDIETES DE LA
POSICIÓ..
POSICIÓ
QUITANDO LAS PRIMERAS Y ÚLTIMAS, LA PROBABILIDAD
QUE UNA PALABRA APAREZCA EN LA POSICIÓN 45 ES LA
MISMA QUE EN LA 87
87..
ESTO QUIERE DECIR QUE:
QUE:
CLASIFICADO TEXTO POR COCEPTOS:
COCEPTOS:
UNA MANERA DE EVITAR EL PROBLEMA DEL VOCABULARIO
ES CLASIFICAR POR COCEPTOS (LOH)
(LOH)..
SE REALIZA EN DOS FASES
FASES::
DONDE n ES EL NÚMERO TOTAL DE POSICIONES DE PALABRAS
EN LOS EJEMPLOS DE ENTRENAMIENTO (DOCUMENTOS)
DONDE LA CLASE ES vj:
ES LA SUMA DE LAS LONGITUDES (EN Nº DE PALABRAS)
DE TODOS LOS DOCUMENTOS DE LA CLASE vj.
DONDE nk ES EL NÚMERO DE VECES QUE SE HA ENCONTRADO
EN ESTOS DOCUMENTOS DE LA CLASE vj.
|Voc
Voc|| ES EL NÚMERO DE PALABRAS DEL LENGUAJE
CONSIDERADO (INGLÉS, CASTELLANO, O LENGUAJES
INFORMÁTICOS)::
INFORMÁTICOS)
VOC PUEDE SER UN SUBCONJUNTO (SE PUEDEN ELIMINAR
PALABRAS MUY USUALES
USUALES:: PREPOSICIONES, ARTÍCULOS,
VERBOS MUY COMUNES, ETC
ETC..).
MINERÍA DE DATOS
231
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
232
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
PRIMER PASO
PASO::
• ASOCIAR
LAS
PALABRAS
CO
DISTINTOS
COCEPTOS..
COCEPTOS
• CON EL OBJETIVO DE NO UTILIZAR ANÁLISIS
SINTÁCTICO DEL TEXTO (TÉCNICAS LINGÜÍSTICAS
COSTOSAS), SE UTILIZA RAZONAMIENTO DIFUSO
(FUZZY)..
(FUZZY)
• LAS ASOCIACIONES DEL ESTILO, TERM → COCEPT
COCEPT,,
SON DIFUSAS
DIFUSAS..
• EJEMPLO
EJEMPLO::
– {CRIME, CRIMES, FRAUD, FRAUDULENT, ILLEGAL,
...
...}}.
– SE ASOCIAN CON EL CONCEPTO “CRIMES”
“CRIMES”..
– {ELECTION, ELECTIONS, TERM, REELECTION,
VOTER, ELECTED, ELECTORATE, ...
...}}.
– SE ASOCIAN CON EL CONCEPTO “ELECTIONS”
“ELECTIONS”..
SEGUDO PASO
PASO::
• ASOCIAR COCEPTOS CO COCEPTOS
COCEPTOS,, COMO P.EJ.
EJ.
“CRIMES” → “ELECTIOS”
“ELECTIOS”..
MINERÍA DE DATOS
MINERÍA DE DATOS
233
WEB STRUCTURE MIIG
MIIG::
COSISTE E ESTUDIAR LA ESTRUCTURA DE ELACES
ETRE E ITRA DOCUMETOS
DOCUMETOS..
LAS TÉCNICAS SE INSPIRAN EN EL ESTUDIO DE REDES
SOCIALES Y ANÁLISIS DE CITACIONES (CHAKRABARTI)
(CHAKRABARTI)::
UNA PÁGINA (PERSONA, ARTÍCULO) SE VE REFORZADO
POR LA CANTIDAD DE REFERENCIAS (AMISTADES, CITAS)
QUE TIENE
TIENE..
GRAFO DE ELACES
ELACES::
CADA PÁGINA ES UN NODO Y CADA HIPERVÍNCULO DE
PÁGINA A PÁGINA, CONSTITUYE UN ARCO DIRIGIDO
DIRIGIDO..
LOS ENLACES DUPLICADOS SE IGNORAN
IGNORAN..
LOS ENLACES ENTRE PÁGINAS DEL MISMO DOMINIO SE
IGNORAN (NO SON AUTORIZATIVOS Y SUELEN SER DE
NAVEGACIÓN:: BACK, ...
NAVEGACIÓN
...)).
MINERÍA DE DATOS
234
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
EJEMPLO:
EJEMPLO:
EL SISTEMA CLEVER (CHAKRABARTI)
(CHAKRABARTI)..
ANALIZA LOS HIPERELACES PARA DESCUBRIR
DESCUBRIR::
• AUTORIDADES
AUTORIDADES,, QUE PROPORCIONAN LA MEJOR
FUENTE SOBRE UN DETERMINADO TEMA
TEMA..
• “HUBS
HUBS”,
”, QUE PROPORCIONAN COLECCIONES DE
ENLACES A AUTORIDADES
AUTORIDADES..
MINERÍA DE DATOS
237
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MINERÍA DE DATOS
LA COSA SE COMPLICA SI ES XML CON OIDS
OIDS::
LA
ESTRUCTURA
DEL
DOCUMENTO
SE
DEBE
REPRESENTAR COMO UN GRAFO Y NO COMO UN ÁRBOL
ÁRBOL..
ESTO TAMBIÉN PUEDE OCURRIR CON DOCUMETOS HTML U
OTROS QUE UTILIZAN EL MODELO DE ITERCAMBIO DE
OBJETOS (OEM) (ABITEBOUL)
(ABITEBOUL)..
GRAFO::
GRAFO
LOS ODOS DEL GRAFO SON LOS OBJETOS
OBJETOS,, QUE ESTÁN
FORMADOS DE UN IDENTIFICADOR (OID) Y UN VALOR QUE
PUEDE SER ATÓMICO (ENTERO, CADENA, GIF, HTML, ...
...)) O
REFERENCIA, DENOTADO POR UN CONJUNTO DE PARES
(ETIQUETAS, OID)
OID)..
LAS ARISTAS DEL GRAFO ESTÁN ETIQUETADAS
ETIQUETADAS..
MINERÍA DE DATOS
238
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
EJEMPLO::
EJEMPLO
MINERÍA DE DATOS
236
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
XML MIIG
MIIG::
EXTRACCIÓN DE INFORMACIÓN A PARTIR DE DOCS
DOCS.. XML
XML..
DISTINTOS OBJETIVOS
OBJETIVOS::
SCHEMA EXTRACTIO
EXTRACTIO::
• ESQUEMA ES ALGO SIMILAR A UN DTD O UN XML
XML-SCHEMA, AUNQUE REPRESENTADO CON OTROS
FORMALISMOS (PROGRAMAS LÓGICOS, GRAFOS, ...
...)).
DATAGUIDES
DATAGUIDES::
• ESPECIE DE RESUMEN ESTRUCTURADO DE DATOS
SEMIESTRUCTURADOS, A VECES APROXIMADO.
APROXIMADO.
MULTI
MULTI--LAYER
LAYER--DATABASES (MLDB)
(MLDB)::
• HAY DISTINTOS NIVELES DE GRANULARIDAD EN EL
ESQUEMA EXTRAÍDO
EXTRAÍDO.. SE PUEDEN CONSTRUIR LO QUE
SE DENOMINAN MLDBS (NESTOROV), EN LA QUE
CADA CAPA SE OBTIENE POR GENERALIZACIONES DE
CAPAS INFERIORES
INFERIORES..
CLASIFICACIÓ
CLASIFICACIÓ..
UN DOCUMENTO XML (SIN OIDS) ES UN ÁRBOL
ÁRBOL...
...
MINERÍA DE DATOS
APROXIMACIOES RELACIOALES
RELACIOALES::
AL TRABAJAR CON UN GRAFO
GRAFO::
NO SE PUEDEN APLICAR TÉCNICAS PROPOSICIONALES
PROPOSICIONALES..
LAS TÉCNICAS ADAD-HOC NO PUEDEN COMBINAR WEB
STRUCTURE MINING CON WEB CONTENT MINING, PORQUE
DICHA INFORMACIÓN ES DIFÍCIL DE EXPRESAR EN EL
GRAFO (HACEN FALTA OTROS GRAFOS O SUBGRAFOS)
SUBGRAFOS)..
SOLUCIÓ
SOLUCIÓ::
PROBLEMA RELACIONAL ⇒ TÉCNICAS DE ILP.
ILP.
SE AÑADEN PREDICADOS EN EL BACKGROUND PARA
REPRESENTAR::
REPRESENTAR
• DOCUMENTOS ENLAZAN CON OTROS DOCUMENTOS
DOCUMENTOS..
• DOCUMENTOS CONTIENEN PALABRAS U OTROS
OBJETOS..
OBJETOS
• TIPO DE DOCUMENTO (.HTML, .DOC, .TXT, ...
...)).
235
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
239
EQUIVALECIA DOCUMENTO XML CON UNA ESTRUCTURA
RELACIONAL.. EL XML DEL EJEMPLO ANTERIOR
RELACIONAL
ANTERIOR::
<biblioteca oid
oid=
= “&oid2
“&oid2” escritor= “&oid3
“&oid3 &oid4
&oid4” libro= “&oid5
“&oid5
&oid6
&oid
6”>
<escritor oid
oid=“&oid
=“&oid3
3” es_autor_de=“&oid
es_autor_de=“&oid5
5 &oid6
&oid6” nombre=
“&oid7
“&oid
7”> </escritor>
<escritor
oid
oid=“&oid
=“&oid4
4”
es_autor_de=“&oid
es_autor_de=“&oid15
15”
”
nombre=
“&oid8
“&oid
8”> </escritor>
<libro
oid
oid=“&oid
=“&oid5
5” escrito_por=“&oid
escrito_por=“&oid3
3” titulo= “&oid9
“&oid9”>
</libro>
<libro oid
oid=“&oid
=“&oid6
6” .... >
<nombre oid
oid=“&oid
=“&oid7
7” > Cervantes </nombre>
<nombre oid
oid=“&oid
=“&oid8
8” > Ausias March </nombre>
<titulo oid
oid=“&oid
=“&oid9
9” > El Quijote </titulo>
...
</biblioteca>
MINERÍA DE DATOS
240
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
EXPRESADO RELACIOALMETE
RELACIOALMETE::
obj
&oid7
&oid8
&oid9
...
value
“Cervantes”
“Ausias March”
“El Quijote”
...
source
&oid1
&oid2
&oid2
&oid2
&oid2
&oid3
&oid3
&oid3
&oid4
&oid4
&oid5
&oid5
...
label
“biblioteca”
“escritor”
“escritor”
“libro”
“libro”
“es_autor_de”
“es_autor_de”
“nombre”
“es_autor_de”
“nombre”
“escrito_por”
“titulo”
...
MINERÍA DE DATOS
dest
&oid2
&oid3
&oid4
&oid5
&oid6
&oid5
&oid6
&oid7
&oid15
&oid8
&oid3
&oid9
...
241
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
242
PREVIA A LA MINERÍA, ESTA INFORMACIÓN DEBE SER
PREPROCESADA:
PREPROCESADA:
ELIMINAR REINTENTOS
REINTENTOS..
SEPARAR DISTINTOS USUARIOS
USUARIOS..
UNIR DIFERENTES SESIONES.
SESIONES.
JUNTAR PÁGINAS CON MARCOS
MARCOS..
FILTRAR POR TIEMPOS
TIEMPOS..
CRIBAR PÁGINAS IRRELEVANTES
IRRELEVANTES..
ETC
ETC..
EL RESULTADO DEL PREPROCESADO PUEDE SER
SER::
DATOS ESPECÍFICOS PARA MÉTODOS ESPECÍFICOS
ESPECÍFICOS..
DATOS RELACIONALES (UNA B.D. CORRIENTE)
CORRIENTE)..
DATOS EN XML
XML..
MINERÍA DE DATOS
244
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
SEA COMO SEA LA REPRESENTACIÓN, MUCHAS TÉCICAS
PROPOSICIOALES O SO ÚTILES
ÚTILES::
LOS PATRONES DE NAVEGACIÓN SUELEN SER GRAFOS.
GRAFOS.
SE REQUIERE DE NUEVO EXPRESIVIDAD RELACIOAL
RELACIOAL..
ADEMÁS, LA IMPORTANCIA DEL COOCIMIETO PREVIO ES
FUNDAMENTAL::
FUNDAMENTAL
ESTOS COMPORTAMIENTOS DEPENDEN DE LA TOPOLOGÍA
DE LA RED, DEL CONTENIDO DE LAS PÁGINAS Y DE
CATEGORÍAS DE CONCEPTOS
CONCEPTOS..
MINERÍA DE DATOS
243
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MINERÍA DE DATOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
WEB USAGE MIIG (MIERÍA DE UTILIZACIÓ DE LA WEB)
WEB)::
SE CENTRA EN TÉCNICAS QUE PUEDAN PREDECIR EL
COMPORTAMIETO DEL USUARIO CUANDO INTERACCIONA
CON LA WEB
WEB..
TAMBIÉN
SE CONSIDERA INFORMACIÓN SOBRE LA
TOPOLOGÍA Y RELEVANCIA DE LOS ELACES
ELACES..
ESTA INFORMACIÓN PUEDE RESIDIR EN:
EN:
CLIENTES WEB:
WEB: P.EJ.
EJ. COOKIES.
COOKIES.
SERVIDORES
SERVIDORES..
PROXIES
PROXIES..
SERVIDORES DE BANNER
BANNER:: DOUBLECLICK.
DOUBLECLICK.COM
COM...
...
MINERÍA DE DATOS
XML MIIG Y TÉCICAS RELACIOALES
RELACIOALES::
AUNQUE YA ESTÉ EN UNA FORMA (TABLA) TRATABLE
APARENTEMENTE POR TÉCNICAS TRADICIONALES
TRADICIONALES..
SEA CON TRANSFORMACIÓN O SIN ELLA, LOS DATOS CON
OIDS TIENEN REFERENCIAS (GRAFO) Y SON RELACIONALES
RELACIONALES..
SÓLO ILP O TÉCNICAS ADAD-HOC PUEDEN TRATAR CON ESTOS
TIPOS DE PROBLEMA RELACIONALES O DE GRAFOS
GRAFOS..
245
BATCH PROCESS (LEARIG PROCESS)
PROCESS)::
MINERÍA DE DATOS
246
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
OO-LIE PROCESS
PROCESS::
EJ.:
EJ.: RECOMENDACIÓN DE VISITAS
VISITAS..
MINERÍA DE DATOS
247
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MINERÍA DE DATOS
249
¿QUÉ VALORES PROBABILÍSTICOS PONEMOS EN LAS
FLECHAS?..
FLECHAS?
EXISTEN DOS PARÁMETROS PARA CONSTRUIR ESTA HPG
HPG::
• α: IMPORTANCIA DE INICIO
INICIO::
– SI α=0 SÓLO HABRÁ FLECHAS DE S A LOS NODOS
QUE HAN SIDO ALGUNA VEZ INICIO DE SESIÓN, Y
EL VALOR DE LA FLECHA DEPENDERÁ DE
CUÁNTAS VECES LO HAN SIDO
SIDO..
– SI α=1 EL PESO DE LAS FLECHAS DEPENDERÁ DE
LA PROBABILIDAD DE VISITAS A CADA NODO,
INDEPENDIENTEMENTE
DE
QUE
FUERAN
INICIALES..
INICIALES
– SI α>0 HABRÁ FLECHAS CON PESO > 0 DE S A
TODOS LOS NODOS
NODOS..
MINERÍA DE DATOS
250
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
• (DONDE ≥1):
– VALOR DE -GRAMA
GRAMA..
– DETERMINA LA MEMORIA CUANDO SE NAVEGA
LA RED, ES DECIR EL NÚMERO DE URLS
ANTERIORES QUE PUEDEN INFLUIR EN LA
ELECCIÓN DEL PRÓXIMO URL
URL..
– SI =1 EL RESULTADO SERÁ UNA CADENA DE
MARKOV..
MARKOV
EJEMPLO: SUPONGAMOS
EJEMPLO:
NAVIGATION TRAILS
TRAILS::
MINERÍA DE DATOS
248
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
BUSCADO PATROES DE AVEGACIÓ MEDIANTE HPGS
(BORGES & LEVENE):
LEVENE):
LOS
“AVIGATIO TRAILS
TRAILS”” SE UTILIZAN PARA
CONSTRUIR
UNA
HYPERTEXT
PROBABILISTIC
GRAMMAR (HPG
HPG)).
UNA HPG
HPG::
• ES UNA TUPLA <V, Σ, S, P>.
P>.
• NO ES MÁS QUE UN TIPO ESPECIAL DE GRAMÁTICAS
PROBABILÍSTICAS
REGULARES,
CON
LA
CARACTERÍSTICA ESPECIAL QUE TIENEN EL MISMO
NÚMERO DE TERMINALES Σ QUE NO TERMINALES V
(CON LO QUE SE HACE UNA CORRESPONDENCIA 1 A 1
ENTRE ELLOS).
ELLOS).
SE CONSTRUYE EL GRAFO DE TRANSICIONES DE LA
GRAMÁTICA DE LA SIGUIENTE MANERA
MANERA::
• SE AÑADE UN ÚNICO NODO INICIAL S Y UN NODO
FINAL F, QUE NO CORRESPONDEN CON NINGÚN URL
URL..
• SE AÑADEN TANTOS NODOS COMO URLS DISTINTOS
HAYA EN LOS DISTINTOS TRAILS
TRAILS..
MINERÍA DE DATOS
BUSCADO PATROES DE AVEGACIÓ
AVEGACIÓ::
LAS SESIONES O LOG FILES DE NAVEGACIÓN TOMAN LA
FORMA DE SECUENCIAS DE ENLACES RECORRIDOS POR
UN USUARIOS, CONOCIDOS COMO AVIGATIO TRAILS O
SESIONES..
SESIONES
LAS DISTINTAS SESIONES DE UN MISMO USUARIO SE
SEPARAN CUANDO ENTRE LA VISITA DE UN ENLACE Y
OTRO EXISTE MÁS DE 30 MINUTOS DE DIFERENCIA
DIFERENCIA..
ESTE VALOR SE DETERMINA COMO 1.5 DESVIACIÓN
ESTÁNDAR DE LA MEDIA DE TIEMPO ENTRE VISITAS DE
ENLACES (BORGES & LEVENE):
LEVENE):
• TAMBIÉN SE PUEDE UTILIZAR PORCIONES MÁS
PEQUEÑAS, LLAMADAS EPISODIOS
EPISODIOS..
A PARTIR DE AHORA COSIDERAREMOS ELACE COMO
SIÓIMO DE PÁGIA, DOCUMETO, URL O VISITA
VISITA..
251
LA
SIGUIENTE
TABLA
DE
DE AQUÍ EXTRAEMOS LOS NO TERMINALES Y LOS
TERMINALES CORRESPONDIENTES
CORRESPONDIENTES::
• V = {S, A1, A2, A3, A4, A5, A6, F}.
• Σ = {a1, a2, a3, a4, a5, a6}.
TENEMOS 6 TRAILS Y 24 VISITAS, DONDE A1, P.EJ.
EJ., FUE
VISITADA 4 VECES, 2 DE LAS CUALES COMO PÁGINA DE
INICIO..
INICIO
POR TANTO, TOMANDO P.EJ.
EJ. α=0.5 y =1, PODEMOS
CALCULAR LA PROBABILIDAD DE LA PRODUCCIÓN p(S →
a1A1) QUE CORRESPONDE CON LA FLECHA DE S A A1 EN EL
GRAFO DE TRANSICIONES DE LA SIGUIENTE MANERA
MANERA::
• p(S → a1A1) = (0.5 · 4)/
)/24
24 + (0.5 · 2)/
)/6
6 = 0.25
25..
MINERÍA DE DATOS
252
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
LAS FLECHAS INTERIORES SE CALCULAN DE MANERA
SIMILAR..
SIMILAR
P.EJ.:
EJ.: SI A4 SE HA VISITADO 4 VECES, 1 JUSTO ANTES DEL
FINAL, OTRA ANTES DE A6 Y DOS ANTES DE A1 TENEMOS
TENEMOS::
• P(A4 → A1A1) = 2/4.
• P(A4 → A6A6) = ¼.
• P(A4 → F) = ¼.
SIGUIENDO ASÍ PARA EL RESTO SE TIENE:
TIENE:
MINERÍA DE DATOS
253
MIERÍA WEB - TÉCICAS Y
PRICIPALES ALGORITMOS
PERSPECTIVAS:
PERSPECTIVAS:
LA NAVEGACIÓN ES MUCHO MÁS QUE UN RECORRIDO DE
ENLACES..
ENLACES
LAS PÁGINAS WEB SON CADA DÍA MÁS INTERACTIVAS,
EXISTEN BÚSQUEDAS, FORMULARIOS, ... (MENA)
(MENA)..
POR EJEMPLO
EJEMPLO::
• IF SEARCH
SEARCH--KEYWORDS ARE “RELIABLE SOFTWARE
SOFTWARE””
• AND AGE 2424-29
• THEN DOWNLOAD = ‘LINUX’
• WITH ACCURACY = 20%
20% AND SUPPORT = 1%
EXISTE UNA TENDENCIA HACIA “ADAPTIVE WEB SITES”
SITES”
(PERKOWITZ & ERTZIONI).
ERTZIONI).
NOS ACERCAMOS AL “APPLICATIO USAGE MIIG
MIIG”,
”, O
LA EXTRACCIÓN DE CONOCIMIENTO AUTOMÁTICO SOBRE
CÓMO UN USUARIO UTILIZA UNA DETERMINADA
APLICACIÓN SOFTWARE, SEA DISTRIBUIDA O NO:
NO:
• PERSOALIZACIÓ
PERSOALIZACIÓ..
MINERÍA DE DATOS
255
EN FORMA TABULAR PODEMOS EXPRESAR EL CONJUNTO
DE PRODUCCIONES PROBABILÍSTICAS P DERIVADAS DEL
GRAFO ANTERIOR (PARA α=0.5 Y =1 ):
MINERÍA DE DATOS
254