630 likes | 807 Views
La métrologie sur les réseaux : enjeux et quelques problèmes intéressants. Métropolis METROlogie Pour L’Internet et les Services. Projet RNRT. Labellisation en 2001 Projet phare du RNRT en 2001 Projet exploratoire sur 36 mois Date de début : Novembre 2001 LIP6 (coordinateur)
E N D
La métrologie sur les réseaux : enjeux et quelques problèmes intéressants Métropolis METROlogie Pour L’Internet et les Services
Projet RNRT • Labellisation en 2001 • Projet phare du RNRT en 2001 • Projet exploratoire sur 36 mois • Date de début : Novembre 2001 • LIP6 (coordinateur) • FT R&D, GET, INRIA, Eurecom, LAAS, Renater
Objectifs • Développer un cadre commun pour la métrologie des réseaux IP • Mesure de la Qualité de Service • Développement de modèles réalistes • Analyse des protocoles et du comportement du réseau • Dimensionnement des réseaux
Organisation du projet • SP 1 : Etat de l’art sur la métrologie dans les réseaux • SP 2 : Classification et dimensionnement • SP3 : Analyse du réseau • SP4 : Méthodes pour la mesure et échantillonnage • SP5 : Modélisation • SP6 : Tarification et SLA • SP7 : Plate-formes de mesures
SP 2 : Classification et dimensionnement • Objectifs • Effectuer un classification des flots • Granularité • Type d’application • Protocoles • Définir des méthodes de dimensionnement et valider celle ci • Répartition de charge
Tomographie réseau • Inférer l’intérieur du réseau par des mesures marginales • Estimation de matrices de trafic • Inférence de la topologie du réseau • Inférence des caractéristiques du réseau
SEA 5 CHI 2 NYC 10 3 4 4 SJ 3 KC 3 ATL RLY 3 8 15 4 STK PEN ORL 5 13 Dimensionnement du réseau • Estimation des matrices de trafic • Determiner la matrice de trafic • Seul le trafic de chaque lien est connu • Objectif • Estimer la matrice de trafic avec des informations limitées = POPs avec mesures POP = Point of Presence
SEA 5 CHI 2 NYC 10 3 4 4 SJ 3 KC 3 ATL RLY 3 8 15 4 STK PEN ORL 5 13 Notations • Xj: Demande de trafic pour la paire de POP j • A: matrice de routage • Yi: trafic sur le lien i • c = n * (n - 1) ArxcXc = Yr
Techniques de résolution Arxc Xc = Yr • est un système linéaire fortement sous-déterminé • La solution est une optimisation statistique • Deux directions, 3 techniques : • Approche déterministe: • Programmation linéaire • Approche Statistique : • Bayesienne • Approche EM
Approche EM • Suppose • Avec and S = • Estimation MLE de q par Algorithme EM • L’algorithme nécessite un bon point de départ (A priori nécessaire) • Minimum locaux • Estimation des composants de X par:
Classification de flots dans l’Internet • Objectifs de la Classification des flots • Caractérisation du trafic • pour comprendre • Rasoir d’Occam • Ingénierie de trafic • pour traiter • Améliorer la QoS • Surveillance • Détecter les flots anormaux • Classification comportementale • Data mining • Notre approche • Caractériser chaque flot par son histogramme • Classifier en fonction des histogrammes
Histogrammes et classification • Chaque histogramme • Chaque histogramme est une réalisation d’une distribution aléatoire • La classification se fait à l’aide d’un mélange de loi de Dirichlet. où appartient au simplex • La distribution marginale de chaque bin suit une distribution béta
Procédure d’inférence • Mélange de Dirichlet • Paramètre à estimer • Probabilité a posteriori probabilité d’appartenance aux classes Appartenance au classe par MAP • Critère de Maximum de vraisemblance • Maximum d’a posteriori pour l’appartenance aux classes. • L’optimisation des paramètres de ce mélange utilise l’algorithme SAEM. • Réduit le problème des minimums locaux
Classification sur Internet • Données brutes • Volume de trafic d’un flot BGP • Granularité de 5 mins (SNMP) • Application dans l’ingénierie de trafic • Mesure dans un lien OC-48 • Autour de 2600 flots BGP dans le cœur de réseau • 800 sont négligeables • Le nombre d’observations est inférieur à 2 • Chaque histogramme est calculée sur une journée de données • 24*12 échantillons • 20 bins par histogramme
4 classes Vert : 21% des flots 70%BP Bleu : 20% des flots 17% BP Noir : 41% des flots 7% BP Rouge : 18% des flots 6% BP
SP 3 : Analyse du réseau • Objectifs • Analyser in vivo le réseaux • Analyse des flots TCP • Analyse des délais dans les routeurs • Etude des attaques
Diversité du trafic Internet (1) • Caractéristiques générales du trafic IP • 2 grandes classes de trafic : streaming (audio/vidéo) et élastique (données) • 3 entités principales de trafic : paquets, flots, sessions • Répartition par protocole • Prédominance de TCP (> 95% des octets transférés)
Diversité du trafic Internet (2) • Répartition par application • Prédominance “classique” de HTTP • Emergence récente et rapide du trafic Pair à pair • 80 % du trafic dans certains réseaux
Réseau, IP » Transport TCP, UDP Application Caractéristiques du trafic IP • Trois entités de trafic (échelles de temps) • Paquets: unités élémentaires traitées par la couche IP • Flots: suite cohérente de paquets (même instance d’une application donnée) • Trafic streaming : Communication téléphonique ou video • Trafic élastique : Fichier, message, objet d’une page HTML, … • Sessions: "connexions" au niveau usager • Session Telnet, connexion FTP, e-mail • Navigation Web : ensemble de pages HTML
Modélisation - Processus paquets • Trafic au niveau paquets - Introduction sur l’auto-similarité • Processus d’arrivée : extrême variabilité • Mono- ou multi-fractal, LRD, phénomènes d’échelle, … Trafic IP observé Trafic de Poisson Débit intégré sur 0.01 s 0.1 s 1 s
Temps de « lecture » Début de session Fin de session Arrivées de flots Modèle générique de trafic (TCP) • Hypothèses du modèle • Les sessions sont indépendantes, apparaissent selon un processus de Poisson (un « invariant » de l’Internet) • Les flots sont générés « en série » au sein des sessions • Le partage de la Bande Passante est équitable entre les flots présents (idéalisation du contrôle dynamique exercé par TCP) • La performance, en termes de débit moyen de transfert des flots, est insensible aux caractéristiques détaillées des flots
Distribution des inter-arrivées de micro-flots TCP Fonction d’auto-corrélation des inter-arrivées de micro-flots TCP Modélisation - Processus flots (1) • Processus d’arrivée des flots • Dépend des différentes définitions possibles des flots (Granularité, TimeOut de terminaison, …) • Arrivées non conformes à un processus de Poisson Possible LRD (dépendances à long terme) ?
Modélisation - Processus flots (2) • Distribution de la taille des flots (en paquets, octets, durée) • Comportement “heavy-tailed” : très bon ajustement par une loi de Pareto (décroissance sous forme de fonction puissance) • Extrême variabilité de la taille des flots : la variance, voire la moyenne, de la loi théorique peuvent être infinies • Phénomène “souris/éléphants” : les flots TCP de taille supérieure à 10 Mo, 1/1000 en nombre, contribuent pour 50% de la charge totale en trafic
Distribution des inter-arrivées de sessions Fonction d’auto-corrélation des inter-arrivées de sessions Modélisation - Processus sessions • Trafic au niveau sessions • Périodes d’activité des utilisateurs • Arrivées conformes à un processus de Poisson • Longueur, durée des sessions : loi de distribution “heavy-tailed” (Pareto)
Etude du passage du micro au macro • Les régles de composition des flots microscopiques et macroscopiques ne sont pas les mêmes • Comment étudier le passage du au • Système de couplage • Deux problèmes intéressants • Etude de convergence • Inférence statistique des paramètres de couplages
SP 4 : Méthodes pour la mesure et échantillonnage • Objectifs • Développement d’une théorie de l’échantillonnage • Similaire à la théorie classique dans le traitement de signal • Echantillonnage • Spatial • Temporel • Applicatif
Mesures actives • Un agent emet des paquets sur le réseau • Chaque paquet est une sonde qui s’imprégne de l’état du réseau en le traversant • A la réception le processus de pertes et de délai est extrait • Modèle sous-jacent • Le réseau est ressenti grâce à ces effets • Les effets sont les pertes et les délais S(t) T4+D(T4) T2+D(T2) D(t) T1+D(T1) T3+D(T3) T1 T2 T3 T4
Challenges existants • Développer une théorie de l’échantillonnage pour la mesure dans le réseau • PASTA ou PIZZA ???? • Comment échantillonner dans un graphe • Quelle est la taille d’Internet ? • Quelle sont les performances d’un algorithme de routage
SP 5 : Modélisation • Objectifs • Développer des modèles réalistes du réseau • Macroscopique • Modèle de flots • Microscopique • Modèles de TCP • Comment passer du micro au macro • Vers une théorie macroéconomique du réseau
De l’interprétation • Des mesures • Mais que veulent t’elle dire ? • Interprétation? • Relier les effets aux causes • Être capable de prédire le comportement • A différentes échelle de temps • Pouvoir réagir • L’interprétation nécessite un a priori
Approches de modélisation • Approche constructive • Approche classique • Utilise un modèle explicatif des processus internes au réseau • Le réseau est constitué de files d’attentes, routeurs, liens, … • Appliquer la simulation ns or des méthodes analytiques de files d’attente ou le network calculus, etc… • Approche de bas en haut • On commence avec les scenarii d’entrée et la structure du réseau et obtient les mesures de performances • Problèmes • La Généralisation est difficile • Trop de paramètres • Les résultats de simulation ne ressemblent pas aux mesures réelles • L’approche est en boucle ouverte • Approche descriptive • Le réseau est un boite noire de structure inconnue • Décrire les observations par le biais de paramètres descriptifs statistique • Moyenne, variance, Paramètres de Hurst multi-fractaux, etc… • Approche haut en bas • On commence par les observations et on calcule les paramètres descriptifs • Problème • Cela ne répond pas au pourquoi? • Cela ne répond pas au what if? • Il est difficile d’interpréter les résultats de modèlisation • L’Interpretation nécessite des a priori • Nous n’utilisons pas toute l’information disponible • Nous pouvons utiliser notre a priori sur le phénomène aboutissant à l’observation
Objectifs de modélisation • Nous avons besoin de modèles pour • Interpréter les mesures • Relier les effets aux causes • Developper des descriptions réalistes de réseaux réels • Afin de controller la QoS dans les réseaux réels • Définir des scénarios pour des évaluations réalistes • En nourissant des modèles avec des paramètres réalistes calibrés sur des traces empiriques • Il faut mélanger les approches descriptives et constructives
La caverne de Platon Socrate. - … Figure-toi des hommes dans une demeure souterraine, en forme de caverne, ayant sur toute sa largeur une entrée ouverte à la lumière;…Figure-toi maintenant le long de ce petit mur des hommes portant des objets de toute sorte…, qui dépassent le mur, Glaucon— Voilà, s'écria-t-il, un étrange tableau et d'étranges prisonniers.- Ils nous ressemblent, répondis-je; et d'abord, penses-tu que dans une telle situation ils aient jamais vu autre chose d'eux-mêmes et de leurs voisins que les ombres projetées par le feu sur la paroi de la caverne qui leur fait face ?
Cadre de l’interprétation contexte • Quelle est la cause cachée (X et ) qui a abouti à l’observation de Y • Quelle est ma compréhension du phénomène qui génère l’observation ? • Le modèle a priori condense cette compréhension dans Y=M(X,) Modèle a priori Y observations Y X cachés
Interprétation • Nous avons à résoudre deux problèmes inverses • Le problème de modélisation • Quelles sont les paramètres de contexte qui décrivent le mieux l’environnement • Le problème d’interprétation • Connaissant les paramètres quelle est la valeur de l’entrée cachée X qui décrit le mieux l’observation • Beaucoup de problèmes de modélisation peuvent s’exprimer dans ce cadre • L’interprétation de mesures actives • La tomographie du réseau
Interprétation de mesures actives • Mesures actives • Un agent de mesure envoit des paquets sur le réseau • Chaque paquet est une sonde qui s’imprégne des informations du chemin qu’il emprunte • A la réception les pertes et le délai sont extrait et stockés • Modèle sous-jacent • Les effets du réseau sur le flot de mesure sont les délais et les pertes S(t) T4+D(T4) T2+D(T2) D(t) T1+D(T1) T3+D(T3) T1 T2 T3 T4
Mesure active • Trace obtained between France and US • 50 msec interval, Pkt size = 100 Bytes
µ K Buffer Measurement Traffic Internet Traffic {i, ij } Modèle a priori pour l’interprétation • Nous supposons a priori que le réseau peut être décrit par un simple goulot d’étranglement qui est nourrit par un traffic MMPP • Chaque état de traffic MMPP génère un traffic de Poisson de débit • La matrice de transition suit une chaîne de Markov de matrice de transition • Les paramètres de contexte sont =(µ ,K, i, ij) • L’entrée X est la suite des états de la MMPP