410 likes | 889 Views
LES RESEAUX DE NEURONES. Rachid Ladjadj. IR 3e année. SOMMAIRE. Introduction Pourquoi les réseaux de neurones? Historique Le neurone biologique Le neurone formel Le modèle Mc Culloch et Pitts Architecture des réseaux de neurones Réseaux bouclés et réseaux non bouclés
E N D
LES RESEAUX DE NEURONES Rachid Ladjadj IR 3e année
SOMMAIRE • Introduction Pourquoi les réseaux de neurones? Historique • Le neurone biologique • Le neurone formel Le modèle Mc Culloch et Pitts • Architecture des réseaux de neurones Réseaux bouclés et réseaux non bouclés • Notion d’apprentissage Apprentissage supervisé et non supervisé • Quelques modèles de réseaux de neurones Le perceptron multicouche Le modèle de Hopefield Les cartes de Kohonen • Exemples d’applications • Conclusion
Pourquoi les réseaux de neurones? • Caractéristiques de l’architecture du cerveau humain: • une architecture massivement parallèle • un mode de calcul et une mémoire distribués • une capacité d'apprentissage • une capacité de généralisation • une capacité d'adaptation • une résistance aux pannes • une faible consommation énergétique
Utilisation des réseaux de neurones: • Classification • Catégorisation • Approximation de fonctions • Prédiction - prévision • Optimisation • Mémoire adressable par le contenu
Historique • 1943 : • Modèle de McCulloch et Pitts • 1960 : • Rosenblatt : perceptron et théorème de convergence • Minsky et Papert : limites du perceptron mono-couche • 1980 : • Modèle de Hopefield • Werbos : rétropropagation dans le cadre des perceptrons multi-couches (popularisé en 1986 par Rumelhart)
Le neurone biologique • Dendrites : Signaux d’entrée • Axone : Signal de sortie
Synapse • Transmission entre un axone et une dendrite • Synapses excitatrices / synapses inhibitrices
Fonctions de transfert (ou fonctions d’activation) • (a) :seuil (fonction de Heavyside) • (b) : linéaire par morceaux • (c) : sigmoïde g(x) = (1 + e – βx) - 1 • (d) : gaussienne
Réseaux bouclés • Les neurones ne peuvent pas être ordonnés de sorte qu’il n’y ai pas de connexion vers l’arrière • Exemple -> réseau entièrement connecté :
Réseaux « non bouclés » ou réseaux à couches • Les neurones peuvent être ordonnés de sorte qu’il n’y ai pas de connexion vers l’arrière • Exemple -> réseau à une couche intermédiaire :
Si Y est le vecteur des sorties et X le vecteur des entrées: Y = FW(X) • FW : fonction d’activation du réseau • W : vecteur des « poids » des liaisons synaptiques • Apprentissage = détermination des poids permettant d’obtenir une sortie proche d’une sortie Y0 voulue à partir d’une entrée X
Mise à jour des poids de connexion, en général à partir d’un ensemble de données d’entraînement • Modification itérative des poids • Paradigme d’apprentissage : modélisation de l’environnement dans lequel le réseau opèrera. • 3 paradigmes d’apprentissage: • Supervisé : on veut qu’à une entrée corresponde une sortie préalablement définie • Non supervisé : on veut construire un réseau dont on ne connaît pas a priori la sortie correspondant à des entrées données • Hybride • Règles d’apprentissage : gouvernent la mise à jour des poids du réseau • Algorithme d’apprentissage : procédure dans laquelle les règles d’apprentissage sont utilisées en vue de l’ajustement des poids
4 types de règles d’apprentissage: • Correction d’erreur • Apprentissage de Boltzmann • Règle de Hebb • Apprentissage par compétition
Correction d’erreur • Si d est la sortie désirée et y la sortie obtenue, la modification des poids se fait en fonction de (d-y) • Algorithme de retro-propagation • Algorithme d’apprentissage du perceptron: • Initialisation des poids et du seuil à de petites valeurs aléatories • Présenter un vecteur d’entrées x(μ) et calculer sa sortie • Mettre à jour les poids en utilisant : wj(t+1) = wj(t) + η (d- y) xj avec d la sortie désirée, w vecteur des poids
Le Perceptron multicouches • Modèle du perceptron simple: • pas de seuil • fonction d’activation = fonction signe • Séparation de deux classes d’entiers A et B -> apprentissage supervisé • Inconvénient : A et B doivent être linéairement séparables
Le modèle de Hopefield • Mémorisation de formes et de motifs • Mémoire distribuée • Mémoire associative
N neurones binaires (1 ou -1) : 2N états possibles pour le réseau • Réseau entièrement connecté, connexion de poids Cij = Cji • État du neurone i à l’instant t: • L’état du neurone i dépend de l’état du réseau en général -> mémoire distribuée • But : trouver les Cji qui vont permettre de mémoriser un état particulier du réseau • Soient S1, S2… Sp p configuration du réseau à mémoriser : on veut, a partir d’une configuration proche de Sm, converger vers Sm -> mémoire associative • Principe de Hebb :
Les cartes de Kohonen • On veut un réseau ayant deux caractéristiques particulières : • Apprentissage non supervisé • Les réponses associées à des entrées voisines sont voisines : auto organisation • Notion de voisinage entre les classes d’observation • Algorithme : • Initialisation : à chaque classe on associe un vecteur code dans l’espace d’observation • Etape : on tire un point au hasard dans l’espace des observations (données). On déplace ensuite la classe la plus proche, ainsi que tous ses voisins les plus proches, vers ce point.
Applications industrielles: • Reconnaissance de codes postaux (AT&T, la Poste) • Contrôle de paramètres de processus de production industrielle de pâte à papier (Siemens) • Prévision de consommation d’eau (Générale des eaux) • Logiciels d’aide à la décision • Prévisions météorologiques
Essor important ces 30 dernières années • Approximateurs universels • Aujourd’hui utilisés dans la vie quotidienne (systèmes de tarifications basés sur la classification des types de consommation)