Introduction to Machine Learning

GTI770
Systèmes
Intelligents
Chargé de cours :
Patrice Boucher
Local: A-3466
Téléphone: (514) 396-8800
#7810
Courriel:
[email protected]
Responsable de cours :
Christian Desrosiers, ing., Ph.D.,
Local: A-3485
Téléphone: (514) 396-8531
Courriel:
[email protected]
Calendrier de la session Été
2014
Légende:
Cours #1 à 13
Labo #1 à 12
Examens finaux
Cours: Mercredi 13h30–17h00;
Labo : Vendredi 8h45 -10h45;
Date à retenir:
Examen Intra:
18
juin 2014
Abandon:
7 juillet 2014
13 périodes au total
12 périodes au total
2
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Site internet

https://cours.etsmtl.ca/gti770/
3
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
INTRODUCTION TO
Machine
Learning
ETHEM ALPAYDIN
© The MIT Press, 2004
[email protected]
http://www.cmpe.boun.edu.tr/~ethem/i2ml
CHAPITRE 1:
Introduction
Des algorithmes ...
6
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Développer des algorithmes ...

Complexe quand ...





L’expertise humaine n’existe pas (naviguer sur Mars),
L’humain n’arrive pas à expliquer comment il arrive à
accomplir une tâche (reconnaissance automatique de la
parole)
Large quantité de données à traiter.
La solution change en court de route (routage sur un réseau
Internet)
La solution doit s’adapter à son utilisateur (biométrie, filtrage:
e-mail).

Solution : machine d’apprentissage!

Lien entrée/sortie inféré à partir des données via les
paramètres d’un modèle
7
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Qu’assumons-nous lorsque
nous parlons d’apprentissage”



Apprentissage de modèles génériques à partir de données
d’exemples particuliers (apprentissage par des exemples).
Les données sont de faibles coûts et abondantes (data
warehouses, data marts); les connaissances coûtent chers
et sont rares.
Exemple dans le milieu du commerce: les transactions
commerciales versus les comportements des
consommateurs:
Un consommateur qui achète “Da Vinci Code” est sujet à
acheter aussi “The Five People You Meet in Heaven”
(www.amazon.com)

Développer un modèle qui a une bonne et utile
approximation des données.
8
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Forage de données (Data
Mining)








Vente: Analyse du panier du marché, Customer
relationship management (CRM)
Finance: analyse du crédit, détection de fraudes
Fabrication manufacturière: Optimisation,
détection de problèmes
Médecine: diagnostic médical
Télécommunications: Qualité de service ,
optimisation
Bioinformatique: Motifs, alignement de séquences
Forage de l’Internet (Web mining): Engins de
recherche
...
9
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Objectif de l’apprentissage
machine?

Optimiser un critère de performance à partir de
données ou d’expériences passées.

Minimiser




Probabilité des sorties erronées produites par le système.
Moyenne des coûts produits par des décisions erronées
Rôle des statistiques: inférence à partir de
données
Rôle de la science informatique : algorithmes
efficaces pour :
 Solutionner le problème d’optimisation
 Représenter et évaluer le modèle d’inférence
10
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réaliser un système
d’apprentissage et de
reconnaissance de formes

Codage


La modélisation


Représentation d’une forme
Choisir un modèle approprié pour modéliser les
échantillons
La mesure de performance

Trouver une bonne métrique pour mesurer les erreurs
produites par ce système.
11
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Exemple d’un système
d’apprentissage

Navigation d’un robot, exemple :




Données: position des obstacles dans l’environnement
But: se rendre à une destination
Mesures: nombre de collisions, temps de réalisation de
la tâche… confort de la navigation!
Parole / Ecriture



Données : (entrée : signal + sortie : transcription)
But : reconnaître signal
mesure : nombre de mots correctement reconnus
12
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Types d’apprentissage


Association
Apprentissage supervisé



Apprentissage non-supervisé:



Classification
Régression
Données non étiquetées
Apprentissage semi-supervisé
Apprentissage par renforcement
13
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage par association

Analyse du panier du marché:
P (Y | X ) est la probabilité qu’une personne qui
achète X achète aussi Y

où X et Y sont des produits ou services.
Exemples:
P ( chips | bière ) = 0.7
P ( lait | bière ) = 0.01
14
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage par association




Problème: Un vendeur
d’automobile a étudié ses
20 dernières ventes
d’auto. Que valent les
probabilités suivantes:
Pr( Mazda 3 | blonde)
Pr( Mazda 3 | blonde,
sport)
Pr( MX-5 | blonde)
Type
Cheveux
Tenue
Madza 3
châtaine
jeans
Madza 3
brune
habit
Madza 3
blonde
sport
Madza 3
noire
jeans
Madza 5
rousse
habit
Madza 5
grise
sport
Madza 5
châtaine
jeans
Madza 5
brune
habit
Madza 5
blonde
sport
Madza 6
rousse
jeans
Madza 6
blonde
habit
Madza 6
noire
sport
Madza 6
noire
jeans
MX-5
blonde
habit
MX-5
blonde
sport
Tribute
gris
jeans
Tribute
noire
habit
Tribute
blanc
sport
RX-8
rousse
jeans
RX-8
noire
habit
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
15
Classification


Exemple: obtention de
crédit
Différenciation entre
les clients à bas-risque
(low-risk) et à hautrisque (high-risk) en
fonction de leurs
revenus (income) et
leurs épargnes (savings)
Discriminant: SI income > θ1 ET savings > θ2
ALORS low-risk SINON high-risk
16
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classification: Applications
Sous-problèmes de la Reconnaissance de formes
 Reconnaissance des visages: Pose, luminance, occlusion
(verres, barbe), maquillage, coiffure
 Reconnaissance de l’écrit: différentes calligraphies.
 Reconnaissance de la parole: dépendance temporelle.
Utilisation d’un dictionnaire de prononciation, de modèles de
langage.
 Fusion de données: Combiner plusieurs modalités i.e. visuelle
(lecture labiale) et données acoustiques



Diagnostic médicaux: du symptôme jusqu’à la maladie
...
17
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression


Exemple: prix d’une
automobile usagée
x : attributs d’une
auto
y : prix
y = g (x | θ )
g ( ) modèle,
θ paramètres
y = wx+w0
18
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Applications de la régression


Navigation d’une automobile de façon
automatique: angle du volant de conduite (CMU
NavLab)
Cinématique
d’un αbras
robot
(x,y)
= gde
(x,y)
1
α2
1
α2= g2(x,y)
α1

Réponse de la surface de conception
19
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage supervisé
Chaque donnée d’entraînement comprend à la fois
l’état des entrées et des sorties correspondantes



Classification : sorties = étiquettes des noms de
classes {démocrate, républicain, indépendant},
{normal, anormal}
Régression : sorties = valeurs numériques, (par
exemple, des probabilités)
Permet de prédire la sortie résultant d’une entrée
future
20
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage non supervisé

Exemples d’applications
 Bioinformatique: apprentissage de motifs



DNA: séquences de bases, A, G, C, T
Un des problèmes en biologie moléculaire est
d’aligner une séquences de bases avec une autre
séquences.
C’est un problème complexe car les séquences
peuvent être longues et qu’il peut y avoir des
substitutions, des insertions et des élisions.
23
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage par
renforcement



Le système génère une séquence de décisions de
manière plus ou moins aléatoire
Plus une décision génère une récompense élevée
(où un coût bas), plus elle contribue au
paramétrage de la structure du modèle (de sorte
à se répéter)
Exemple, navigation d’un robot mobile:




Entrée: position des obstacles, destination
Décision: séquence de commandes de déplacements
Récompense: atteinte de la destination
Coûts: nombre de collisions, temps d’exécution,
longueur du trajet.
24
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
A Visual Servoing Approach
to Manipulation using
Neural Reinforcement
learning
25
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Reconnaissance de faces
Ensemble de données d’entraînement
Ensemble de données de test
AT&T Laboratories, Cambridge UK
http://www.uk.research.att.com/facedatabase.html
26
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Reconnaissance de visages
27
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Reconnaissance de la voix
28
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture labiale
29
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Suivi de la bouche
30
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Suivi de piéton et d’automobile
31
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Ressources: Banque de
données

UCI Repository:
http://www.ics.uci.edu/~mlearn/MLRepository.html

UCI KDD Archive:
http://kdd.ics.uci.edu/summary.data.application.html



Statlib: http://lib.stat.cmu.edu/
Delve: http://www.cs.utoronto.ca/~delve/
Linguistic Data Consortium:
http://www.ldc.upenn.edu/

ELDA: http://www.elda.org/
32
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Ressources: Journaux
scientifiques









Journal of Machine Learning Research
www.jmlr.org
Machine Learning
Neural Computation
Neural Networks
IEEE Transactions on Neural Networks
IEEE Transactions on Pattern Analysis and
Machine Intelligence
Annals of Statistics
Journal of the American Statistical Association
...
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
33
Ressources: Conférences








International Conference on Machine Learning (ICML)
 ICML05: http://icml.ais.fraunhofer.de/
European Conference on Machine Learning (ECML)
 ECML05: http://ecmlpkdd05.liacc.up.pt/
Neural Information Processing Systems (NIPS)
 NIPS05: http://nips.cc/
Uncertainty in Artificial Intelligence (UAI)
 UAI05: http://www.cs.toronto.edu/uai2005/
Computational Learning Theory (COLT)
 COLT05: http://learningtheory.org/colt2005/
International Joint Conference on Artificial Intelligence (IJCAI)
 IJCAI05: http://ijcai05.csd.abdn.ac.uk/
International Conference on Neural Networks (Europe)
 ICANN05: http://www.ibspan.waw.pl/ICANN-2005/
...
34
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)