1 / 28

Analyse longitudinale Typologie de parcours professionnels à partir des cartes de Kohonen

Analyse longitudinale Typologie de parcours professionnels à partir des cartes de Kohonen. Jean-Francois Giret et Patrick Rousset giret@cereq.fr , rousset@cereq.fr. Thème principal: Une typologie des parcours d’insertion. Vs Economie :

rhys
Download Presentation

Analyse longitudinale Typologie de parcours professionnels à partir des cartes de Kohonen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse longitudinale Typologie de parcours professionnels à partir des cartes de Kohonen Jean-Francois Giret et Patrick Rousset giret@cereq.fr , rousset@cereq.fr

  2. Thème principal:Une typologie des parcours d’insertion • Vs Economie : Mise en évidence de la durée et des formes de processus de transitions à partir : • De données longitudinales issues de l’enquête Génération 98 : la position mensuelle sur le marché du travail de jeunes pendant leur phase d’intégration. • D’une méthode longitudinale qui prend en compte la proximité entre les situations de travail en intégrant la dynamique dans le temps. • Vs Statistiques : Classification de séries temporelles qualitatives : • L’information des variables est qualitative. • L’information temporelle donnée par l’ordre des variables est quantitative.

  3. La méthode • La méthode proposée : • Elaboration d’une distance entre les trajectoires en deux étapes: • Distance entre les statuts de travail en intégrant l’évolution dans le temps (approche qualitative). • Déduction de la distance entre les trajectoires (approche euclidienne). • Classification sur un grand nombre de classes (100 ) à partir des cartes d’auto-organisation. • Quelques méthodes de traitement des trajectoires: • Analyse de données classiques : cumul mensuel des écarts, c2, euclidien, axes principaux, classification • Optimal matching : mesure des écarts entre items, évolution dans le temps et ordre des données. • Processus markoviens, en particulier chaines de Markov cachées: approche de la dynamique du temps.

  4. Les données Les données sont issues de l’enquête du Céreq Génération98 • Un échantillon de 16000 jeunes interrogés en mars 1998, 2003 et octobre 2005 représentatif des 750000 sortants du système éducatif en 1998. • L’emploi est codé en 5 états: CDI, CDD, apprentissage, emploi jeunes, intérim. • Le hors-emploi est codé en 4 états: chômage, inactivité, service national, reprise d’études. 4 exemples de parcours codées à partir de 5 positions mensuelles : Etudes, service national, Inactivité, Chômage, emploi.

  5. Problématique des parcours • La notion de corrélation doit intégrer le délai dans le temps: • Cas où on assimile corrélation et incidence. • La trajectoire “Chômage -> CDD -> CDI” est plus révélatrice de transitions Chômage – CDDet CDD – CDI que Chômage – CDI. • Nécessité d’un équilibre entre petites et grandes fréquences? • Le regroupement d’items doit être « neutre » : principe d’équivalence distributionnel. • L’intérêt de certains états décroit avec le temps et avec leur fréquence (par exemple le service militaire). • Du point de vue de l’individu, rare ne signifie pas important : Exemple du CDI. + fait référence à une approche qualitative et – à une approche quantitative.

  6. Problèmes liés aux données • Quand finit l’insertion? / Quelle longueur de trajectoires? Quand plus rien ne change? / Tant qu’on a des données? / Poids des mois en fonction de l’innovation? • La pratique montre que la stabilisation de parcours marque fortement toute classification. Privilégier les séquences où il se passe quelque chose?/ Quelle importance donner à la stabilisation en fin de la trajectoire? / Travailler sur un grand nombre de trajectoires? • Problème du poids de certains item (CDI) qui se traduit par une forte inertie pour une faible variation de trajectoire. Eviter les classes fourre-tout en travaillant sur un grand nombre de classes.

  7. Distances

  8. Evènement principal 2 Evènement principal 1 CDD fin CDD début CDI début CDI fin Intérim G Apprentissage Inactivité Evènement principal 5 Chômagedébut Emploi jeunes Chômage fin Evènement principal 3 Evènement principal 4 Hypothèse sur les états de travail • Hypothèse :Existence de proximités entre les statuts de travail qui évoluent en fonction du temps.

  9. Profils de transitions probables • La situationS=(état, mois) introduit le temps. • L’univers des transitions probables du présent S vers chaque situation future S’ est définie par le profil PSde composantes : • avec • Le coefficient a assure que PS est un profil : • Fmesure leflux relatif entre les situations S et S’comme la probabilité empirique d’atteindre S’en partant deS : • Le coefficient d’inertie dans le temps bpondère la proximité entre S et S’ en décroissant avec le délai : • La distance intra situations = la distance du c² intra profils.

  10. Distance entre situation La distance intra situations = la distance du c² intra profils. Aspects principaux: • Respect du principe d’équivalence distributionnel. • || distance intra situations et coût (de substitution) de l’optimal matching. • || coefficient d’inertie b et chaine de Markov. Remarque: • Possibilité d’introduire une information complémentaire (sur les états de travail) pour définir la distance entre les situations.

  11. Les évènements principaux • De la matrice des distances intra situations, on déduit : • L’inertie des situations et la matrice de covariance D(cf J.P. Benzecri) : , où d est le carré de la distance. • Les composantes principales d’inertie (les vecteurs propres de D ) • Les vecteurs propres sont appelées évènements principaux. Ils positionnent une situation dans la structure des états d’emploi, le temps et la durée. Par exemple contrat de qualification d’un an dès la sortie des études et enchainement par un CDI, stabilisation en situation de non-emploi (à mi-chemin entre chômage et inactivité) 4 ans après la sortie du système scolaire.

  12. Distance entre trajectoires • Au final, les trajectoires sont codées comme combinaisons linéaires des évènements principaux. Canonique (en terme de situations) Combinaison linéaire des évènements principaux Ee: • La distance entre les trajectoires est la distance euclidienne entre les trajectoires recodées. • Le poids des mois est lié à leur innovation.

  13. Classification par les cartes d’auto-organisation • Point de départ : distance de type euclidienne entre les trajectoires. • Cas traité: distance précédente.

  14. La classification à partir des cartes d’auto-organisation • L’algorithme vs Kohonen: Généralise les méthodes de classification de type « centres mobiles » ou « nuées dynamiques » en introduisant unenotion de voisinage entre les classes. • Le système de représentation : Les classes sont organisées sur une carte en fonction de leur proximité dans l’espace des données. • Préservation de la topologie: Deux individus associés à des unités voisines sur la carte sont proches dans l’espace des données. • Exemples de structures à une ou deux dimensions: Vert, Bleu and Rouge indiquent 3 niveaux de voisinage aux rayons 2, 1, 0

  15. Classification des algorithmes de classification. Les classiques : - Laclassification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné à priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. • Les cartes d’auto-organisation : nombre de classes fixé, données de grande taille • L’algorithme de Kohonen. structure de carte fixée à priori avec système de représentation adapté. • Neural Gas. apprentissage de la structure de la carte, pas de système de représentation.

  16. L’algorithme de Kohonen : Une généralisation des Centres Mobiles • On détermine à priori un réseau (carte) et une fonction de voisinage (rayon) qui décroit en fonction du temps. • Initialisation aléatoire des centres de classes. • A chaque itération t+1: • On tire au hasard une observation x(t+1). • On détermine comme gagnant Gt+1 le centre de classe le plus prochede x. • On modifie par la formule : • Centres Mobiles (vs stochastique Forgy 1965) : seul Gt+1. • Kohonen : Gt+1et ses voisins (définies sur la carte par la fonction de voisinage). - Remarque : Si R et R’ sont modifiés ensemble, ils se rapprochent

  17. Représentation de la typologie des parcours à partir des cartes d’auto-organisation Chaque unité est utilisée comme une fenêtre graphique dans laquelle un chronogramme caractérise la classe. • Deux classes voisines ont des chronogrammes similaires. • la proximité traduit bien la continuité dans le temps. Cartographie des parcours professionnels Chronogramme Fréquence temps

  18. CDI Vers CDI Perte de CDI Hors CDI Deux niveaux de regroupement Le regroupement en macro-classes des centres de classes correspond à un positionnement par rapport au CDI. Deux niveaux de regroupement : les macro-classes

  19. La proximité sur la carte interprétée par le type de contrat • Axe Nord-sud : Opposition CDI - autres situations • Autre situations décliné en hors emploi, contrats courts, emplois aidés Contrats«courts » Hors emploi Emplois aidés

  20. Parcours et caractéristiques individuelles Cartographie du sexe Cartographie du niveau de diplôme Cartographie de l’origine ethnique Cartographie de l’origine sociale + Femme - Niveau de diplôme - père cadre + Origine étrangère

  21. La robustesse • De la bonne prise en compte de la proximité entre les états de travail dépend la qualité et la robustesse de la représentation. • Effets robustes: • Opposition CDI-hors CDI. • L’évolution (décalage) dans le temps. • Proximités: chômage-inactivité, CDD en fin de période-chômage, intérim-chômage.

  22. Effet de la distance sur la robustesse De la bonne prise en compte de la proximité entre les états de travail dépend la robustesse de la méthode. Cas du couplage « codage binaire de la trajectoire, distance euclidienne » : • Les proximités liées à l’évolution dans le temps sont bien rendues par les cartes (l’information quantitative). • Les Proximités en terme de situation de travail manquent de robustesse et de signification (l’information qualitative). Deux apprentissages des cartes d’auto-organisations

  23. Effet de la distance sur la robustesse Perspectives • La robustesse est liée au coefficient bde pondération du futur. • La robustesse dépend de b sans pouvoir être le critère principal de son choix qui doit être d’abord économique. • Les modèles markoviens pour déterminer b. • La sensibilité des cartes d’auto-organisation à une distorsion due à la distance doit être relativisée: • L’avantage de la représentation avec les cartes d’auto-organisation est assuré dès que la distance prend en compte une part « assez grande » de la proximité entre les situations. • Le champ d’application ne demande pas un niveau de précision maximal. • La représentation symbolique des cartes inclue déjà une distorsion. Elle y est donc moins sensible que les plans de projection.

  24. Perspective: La pondération du futurLe coefficient b • Les critères pour choisir b doivent d’abord être économiques et ensuite concerner la robustesse. Rappel : expression du potentiel pour le futur b(t)=1: Robustesse mais Perte de pertinence. b(t)=0 après 6 mois : Diminution de la robustesse.

  25. Autres perspectives • Travailler sur un découpage du travail plus large (nombre d’items>9). • Travailler sur une structure de carte de dimension 3. • Mesure et amélioration de la robustesse de l’apprentissage des cartes.

  26. Extensions • Tout travail explicatif des classes • Qualitatif • Quantitatif dans un espace euclidien Par exemple à partir de la distance des individus aux centres des classes.

  27. Conclusion • Concernant le choix de la distance • La distance entre les items introduit la dynamique du temps. • La méthode distingue la distance entre les situations de celle entre les trajectoires: • La distance entre les situations (un c² entre profils) répond aux problèmes usuels de l’information qualitative. • La distance entre les trajectoires est la distance euclidienne.  Les poids des mois dans une trajectoire ne dépendent pas des fréquences des items mais de leur innovation. • Concernant le choix des cartes d’auto-organisation L’organisation des classes par voisinage traite la redondance due à l’évolution au cours du temps et à l’inertie dû au poids du CDI  Les cartes d’auto-organisation permettent de travailler confortablement avec un grand nombre de classes.

  28. ! Merci pour votre attention ! Les parcours d’insertion : Jean-François Giret giret@cereq.fr et Yvette!! Les cartes d’auto-organisation et distance : Patrick Rousset rousset@cereq.fr

More Related