210 likes | 364 Views
Les évaluations des acquis des élèves Panorama et aspects méthodologiques Philippe Claus, inspecteur général Prague, le 24 novembre 2011. Panorama des évaluations. Qui ?. Direction de l’Evaluation, de la Prospective et de la Performance
E N D
Les évaluations des acquis des élèvesPanorama et aspects méthodologiquesPhilippe Claus, inspecteur généralPrague, le 24 novembre 2011
Qui? Direction de l’Evaluation, de la Prospective et de la Performance • Service statistique du Ministère de l’éducation nationale, production statistique, expertise, évaluation Direction générale de l’enseignement scolaire • Mise en œuvre et évaluation de la politique éducative arrêtée par le Ministre Inspection générale de l’éducation nationale • Expertise, impulsion et animation
Les dispositifs d’évaluations (1) • CEDRE : • cycle des évaluations disciplinaires réalisées sur échantillons en CM2 et en 3ème • évaluation d’une discipline spécifique chaque année depuis 2003, reprise tous les six ans • maîtrise de la langue/compétences générales, langues vivantes, attitudes à l’égard de la vie en société, histoire-géographie/éducation civique, sciences expérimentales, mathématiques, lecture sur support électronique (L.S.E) • Indicateurs LOLF : • Maîtrise des compétences de base en français et en mathématiques en CM2 et en 3ème (depuis 2007) • Maîtrise des compétences du socle (tests en construction) • Comparaisons longitudinales : • Suivi d’une cohorte d’élèves entrés en 6ème en 2007 • Suivi d’une cohorte d’élèves entrés au CP en 2011
Les dispositifs d’évaluations (2) • Evaluations exhaustives • Évaluations CE1/CM2 depuis 2009 (DGESCO), travail spécifique sur la comparabilité dans le temps • Tests de lecture de la JDC (ex-JAPD), jeunes Français de 17 ans, depuis 1998 • Comparaisons « historiques » : • « Lire, écrire, compter » en CM2 (1987-2007) • Difficultés de lecture à l’entrée en 6ème (1997-2007)
Les étapes • Objectifs et cadre de référence : • objectifs : que veut-on mesurer ? • tableau de compétences • caractéristiques de l’instrument (formats des items, types de supports, etc.) • Construction des items • Expérimentation d’un vaste ensemble d’items • Élaboration du test définitif à partir des résultats de l’expérimentation • Campagne de test définitive • Modèle de mesure, construction de l’échelle • Analyses et interprétation des résultats
Principes • Une évaluation valide : • Elle mesure ce qu’elle censée mesurer • Une évaluation fidèle • La mesure est fiable et précise • Une évaluation standardisée : • Réduire l’erreur de mesure à toutes les étapes du dispositif • Une évaluation comparable : • Dans le temps : comparabilité entre des tests différents • Dans l’espace : comparabilité entre des langues/cultures différentes
La passation des tests • Standardisation : • des consignes précises • l’« administrateur de test » n’est pas un enseignant de la discipline évaluée (collège) • son intervention est réduite • les élèves n’ont pas les mêmes cahiers (cahiers tournants), ce qui évite les copies • Motivation des élèves : • les élèves n’ont aucun intérêt particulier à s’investir dans le test • comment favoriser la motivation ? (consignes données, supports attrayants, adapter la difficulté …)
La correction des tests • Biais liés à la correction des questions • habitudes culturelles et niveaux d’exigence des correcteurs • effet d’ordre, de halo, de rattrapage • Correction centralisée • Logiciel de télé-correction (AGATE) : • dématérialisation (avantage gestion/coût) • correction par items • contrôle de la qualité des corrections • corrections multiples
L’élaboration d’échelle • Une même échelle pour les élèves et les items Distribution des élèves (θ) Distribution des items (b) élèves les meilleurs items difficiles élèves les plus faibles items faciles
Exemple d’échelle • Extrait du cycle des évaluations disciplinaires de la DEPP, histoire-géographie, fin de 3ème (2006) • Le score moyen est fixé à 250, l’écart-type à 50 • Groupes 0 et 1 : 15%, Groupe 5 : 10% • Détermination des seuils : travail de « standard setting » qui sera conduit pour les indicateurs du socle
Unicité de la tâche • A chaque item sa difficulté : Exemple (CM2) Compare les deux nombres placés sur chaque ligne en utilisant à chaque fois le symbole qui convient : <(plus petit que) ; > (plus grand que) ; = (égal) Réussite : 76 % Réussite : 66 %
Principe • Illustration évaluation nationale CM2 : • En 2009, 15,3% des élèves ont un score ≤ 13 • En 2010, 26,2% des élèves ont un score ≤ 13 • Le pourcentage d’élèves « n’ayant pas les acquis suffisants » a-t-il réellement augmenté de 11 points en un an ? • Autre explication : l’épreuve de 2010 est plus difficile que l’épreuve de 2009 • Nécessité d’un ancrage : • Via des items passés par tous les élèves • Via des élèves qui passent tous les items • Objectif : • Séparer difficulté des items et niveau des élèves
Comparaisons temporelles • CM2 1987-2007 • En lecture-compréhension : • 20% d’élèves en difficulté en 2007 contre 10% en 1987 • Augmentation des inégalités sociales : la baisse touche plus particulièrement les enfants d’origine sociale défavorisée • En orthographe : • A une dictée d’une d’une dizaine de lignes, augmentation du nombre d’erreurs (de 11 à 15) • La baisse concerne toutes les origines sociales • Ce sont principalement le nombre de fautes grammaticales qui augmente Note d’information 08.38
Comparaisons temporelles (suite) • 6ème 1997-2007 • Ces trois dimensions sont les plus corrélées aux résultats scolaires