Les notes constituent-elles une mesure fiable des compétences et de la valeur des élèves ? Hélas, non ! confirment les recherches sur la question. De multiples biais viennent s’introduire dans l’évaluation des copies. C’est pourquoi, selon Pierre Merle, remplacer le baccalauréat par un contrôle continu présente certains dangers.
« J’ai été saqué ! », « Le prof s’est trompé », « Avec Mme X, j’aurais eu une meilleure note »… Lorsque l’on pose la question de l’exactitude et de la justice de la notation à neuf cents collégiens, on est surpris des réponses. En français, seulement un élève sur six pense qu’il aurait la même note si sa copie était corrigée par un autre professeur. Presque 50 % pensent que leur note serait différente (les autres ne savent pas).
Les mathématiques inspirent davantage confiance : un tiers des collégiens pense obtenir la même note, un autre tiers une note différente, le dernier tiers ne sait pas.
Beaucoup d’élèves sont donc peu convaincus de la fiabilité des notes, surtout dans les disciplines littéraires, probablement en raison de l’absence d’un barème explicite ou d’une interprétation simple de celui-ci.
Certains élèves vont plus loin que se poser la question de la fiabilité de leurs notes : ils expérimentent. Bruno, par exemple, élève de seconde, a toujours eu 9/20 en français depuis le début de l’année. Cette fois, c’est décidé, il tente l’expérience. Sa sœur, en licence de lettres, va faire son devoir. Sa note ? Encore une fois 9/20 ! Bruno avait des doutes, il a maintenant une conviction : il est « catalogué ». Il en tire une conséquence logique. Il est tout à fait inutile de travailler son français, sa note sera toujours bloquée à 9/20. La petite histoire est instructive : si les élèves pensent que leurs notes ne récompensent pas leur travail de façon juste, la motivation dégringole. Cette question de la justice des notes n’intéresse pas seulement les élèves mais également les professeurs et l’école tout entière.
Le baccalauréat n’est pas une loterie
Les premières recherches sur la fiabilité de la notation datent des années 1930. Pour valider les résultats d’un point de vue statistique, les chercheurs ont multiplié les corrections d’une même copie ainsi que le nombre de copies soumises à ces multiples corrections. Le verdict est devenu classique : des copies de français corrigées par un très grand nombre de correcteurs (plus de soixante-dix par copie) obtiennent des notes très différentes. On retrouve une courbe en cloche, comme celle de la distribution du poids ou de la taille dans une population. Conclusion : la note dépend beaucoup plus du correcteur que de la copie ! Même constat en mathématiques mais les écarts entre correcteurs sont moindres.
Les premières recherches de grande ampleur se sont intéressées à la fiabilité des notes au baccalauréat. On comprend bien pourquoi. A l’époque, le premier diplôme de l’enseignement supérieur permettait d'accéder au statut de cadre. L’expérience est la suivante : cent copies de bac (session 1930) dans six disciplines – version latine, composition française, anglais, mathématiques, philosophie, physique – ont fait l’objet de cinq corrections par des examinateurs différents. Les écarts maximaux de notes sur ses copies évaluées cinq fois sont effrayants : treize points en composition française, douze en philosophie, neuf en mathématiques ! Mais l’écart maximal n’est pas statistiquement un indicateur très pertinent. Il est plus instructif de connaître les écarts les plus fréquents entre les différentes corrections. Ceux-ci restent extraordinairement élevés : six points en français, quatre en anglais et en mathématiques. Pourtant, malgré la grande incertitude portant sur la correction de chaque copie, le baccalauréat n’est pas une loterie. Si dans chaque discipline, la note est assez aléatoire, la multiplication des épreuves diminue l’aléa final. Il est rarissime d’être noté sévèrement dans toutes les disciplines à la fois.
À qui vont les meilleures notes ?
Trois quarts de siècle plus tard, ces recherches n’ont pas pris une ride. L’incertitude de la notation est une constante. Elle provient du fait que la note n’est pas une mesure physique (elle-même aléatoire d'ailleurs) mais l’appréciation d’un expert sur une prestation. Les variations de jugements sont inévitables. De grands pas ont été faits en revanche sur la connaissance des facteurs susceptibles d’influencer le correcteur.
Les chercheurs ont mis en évidence de nombreux biais de notation chez les correcteurs. Le premier de ces biais résulte de l’ordre de correction des copies. Les copies placées dans le premier tiers d’un paquet sont notées de façon plus indulgente que les suivantes. Tout se passe comme si, lors des premières corrections, le correcteur connaissait des hésitations sur la note à mettre et tranchait de façon indulgente. La notation d’une copie est également liée au niveau de la copie précédente. Si le correcteur vient de corriger une excellente copie, par contraste, il notera plus sévèrement la suivante. Et inversement. Enfin, si au début d’un paquet de copies, le chercheur ajoute trois copies très mauvaises, l’ensemble des notes est modifié à la hausse. Si trois bonnes copies sont ajoutées en début de paquet, l’ensemble des notes est revu à la baisse.
Un troisième biais d’évaluation tient au statut scolaire de l’élève. De nombreuses recherches, menées à la fois par des psychologues et des sociologues, sont parvenues au même résultat en utilisant des méthodologies différentes. Lorsque les professeurs pensent qu’ils corrigent la copie d’un bon élève, la note est toujours meilleure. Et inversement, lorsque les professeurs pensent noter un élève faible (1). Voilà pourquoi Bruno n’a pas dépassé 9/20 lorsque sa sœur a rédigé sa copie à sa place. Il a raison : il est catalogué comme un élève faible ne valant pas la moyenne.
Plus surprenant est le biais de notation lié à l’origine sociale de l’élève. Là encore, les études sont totalement convergentes et ne permettent pas de douter du résultat. En sociologie, le résultat est apparu nettement en comparant les moyennes des élèves pendant l’année à des résultats obtenus à des tests standardisés de compétences. A résultats identiques aux tests de compétences, les élèves d’origine aisée sont en moyenne mieux notés par leurs professeurs que les autres élèves (2). Le fait pour les professeurs de connaître l’origine sociale de leurs élèves influence positivement ou négativement leurs attentes à leur égard. Le comportement des élèves d’origine aisée en classe, sans doute plus conforme à l’idéal du bon élève, est également susceptible de modifier dans un sens favorable la notation des professeurs. Les élèves d’origine aisée bénéficient d’un stéréotype positif.
Un biais de notation favorise également les filles par rapport aux garçons. De nouveau, les recherches aboutissent à des résultats stables. Pour l’instant, on n’est pas parvenu à savoir si la féminisation du corps professoral est susceptible d’expliquer cette surnotation des filles. On peut penser que l’attitude des filles en cours, par rapport aux garçons plus indisciplinés et souvent moins dociles, est un facteur explicatif. Dans les enquêtes, notamment en français, les filles déclarent bavarder moins que les garçons et apprécier beaucoup plus cette discipline. Leur comportement coopératif en classe a probablement des effets positifs sur leur notation. On peut de nouveau penser à Bruno : c’est peut-être un élève agité. Inconsciemment, devant sa copie, le professeur est influencé par son comportement. De fait, il est découragé et n’attribue pas beaucoup de crédit à son professeur et à sa notation.
Dans le même ordre d’idée, d’autres recherches ont montré un effet de l’apparence physique. Sur des copies identiques, soumises à de multiples corrections, les chercheurs avaient agrafé des photos d’identité jugées plus ou moins attrayantes. Il existe bien un effet positif de l’attractivité du visage sur la notation de la copie. Une relation inconsciente amène à associer la compétence scolaire à la beauté physique.
Effet classe, effet établissement
D’autres recherches encore ont montré un biais d’évaluation lié à l’âge de l’élève et à son statut de redoublant. A qualité égale, mesurée par des tests anonymes de compétences, les élèves redoublants et plus âgés font toujours l’objet d’une notation plus sévère. Ces élèves sont victimes du stéréotype négatif de l’élève redoublant. L’échec antérieur suggère un élève en difficulté scolaire et cette perception entraîne une sous-notation.
Il existe d’autres biais de notation qui ne sont pas liés aux caractéristiques scolaires et sociales des élèves mais au contexte de scolarisation. Le type d’établissement fréquenté en est un. Ainsi, dans les établissements regroupant des élèves de niveau scolaire faible, les notations des professeurs sont en moyenne plus indulgentes, et inversement dans les établissements regroupant des élèves de niveau scolaire fort. Dans le premier cas, cette surnotation s’explique par la nécessité pour les professeurs de ne pas décourager des élèves souvent en perte de motivation. Dans le second cas, la notation sévère permet une sursélection et assure à l’établissement sa réputation. Pour les lycées, cette pratique assure d’excellents taux de réussite au bac.
Enfin, il existe un biais de notation propre à la classe. Les professeurs ont tendance à surestimer les écarts de compétences entre les élèves à l’intérieur de leurs classes. Il en résulte, par rapport à des tests standardisés, une surévaluation des compétences des meilleurs, et une sous-évaluation de celles des plus faibles.
Même si les professeurs corrigent très consciencieusement, leurs notes ne peuvent être considérées comme une mesure fiable de la compétence de leurs élèves. C’est en l’absence de barème de notation que leurs notes sont le moins fiables. Mais le barème, s’il est donc très utile, ne supprime cependant pas l’imprécision (3). Plusieurs recherches ont montré que les correcteurs n’étaient pas fidèles à eux-mêmes : la même copie glissée dans un autre paquet n’a généralement pas la même note, y compris en mathématiques.
« J’ai été saqué ! », « Le prof s’est trompé », « Avec Mme X, j’aurais eu une meilleure note »… Lorsque l’on pose la question de l’exactitude et de la justice de la notation à neuf cents collégiens, on est surpris des réponses. En français, seulement un élève sur six pense qu’il aurait la même note si sa copie était corrigée par un autre professeur. Presque 50 % pensent que leur note serait différente (les autres ne savent pas).
Les mathématiques inspirent davantage confiance : un tiers des collégiens pense obtenir la même note, un autre tiers une note différente, le dernier tiers ne sait pas.
Beaucoup d’élèves sont donc peu convaincus de la fiabilité des notes, surtout dans les disciplines littéraires, probablement en raison de l’absence d’un barème explicite ou d’une interprétation simple de celui-ci.
Certains élèves vont plus loin que se poser la question de la fiabilité de leurs notes : ils expérimentent. Bruno, par exemple, élève de seconde, a toujours eu 9/20 en français depuis le début de l’année. Cette fois, c’est décidé, il tente l’expérience. Sa sœur, en licence de lettres, va faire son devoir. Sa note ? Encore une fois 9/20 ! Bruno avait des doutes, il a maintenant une conviction : il est « catalogué ». Il en tire une conséquence logique. Il est tout à fait inutile de travailler son français, sa note sera toujours bloquée à 9/20. La petite histoire est instructive : si les élèves pensent que leurs notes ne récompensent pas leur travail de façon juste, la motivation dégringole. Cette question de la justice des notes n’intéresse pas seulement les élèves mais également les professeurs et l’école tout entière.
Le baccalauréat n’est pas une loterie
Les premières recherches sur la fiabilité de la notation datent des années 1930. Pour valider les résultats d’un point de vue statistique, les chercheurs ont multiplié les corrections d’une même copie ainsi que le nombre de copies soumises à ces multiples corrections. Le verdict est devenu classique : des copies de français corrigées par un très grand nombre de correcteurs (plus de soixante-dix par copie) obtiennent des notes très différentes. On retrouve une courbe en cloche, comme celle de la distribution du poids ou de la taille dans une population. Conclusion : la note dépend beaucoup plus du correcteur que de la copie ! Même constat en mathématiques mais les écarts entre correcteurs sont moindres.
Les premières recherches de grande ampleur se sont intéressées à la fiabilité des notes au baccalauréat. On comprend bien pourquoi. A l’époque, le premier diplôme de l’enseignement supérieur permettait d'accéder au statut de cadre. L’expérience est la suivante : cent copies de bac (session 1930) dans six disciplines – version latine, composition française, anglais, mathématiques, philosophie, physique – ont fait l’objet de cinq corrections par des examinateurs différents. Les écarts maximaux de notes sur ses copies évaluées cinq fois sont effrayants : treize points en composition française, douze en philosophie, neuf en mathématiques ! Mais l’écart maximal n’est pas statistiquement un indicateur très pertinent. Il est plus instructif de connaître les écarts les plus fréquents entre les différentes corrections. Ceux-ci restent extraordinairement élevés : six points en français, quatre en anglais et en mathématiques. Pourtant, malgré la grande incertitude portant sur la correction de chaque copie, le baccalauréat n’est pas une loterie. Si dans chaque discipline, la note est assez aléatoire, la multiplication des épreuves diminue l’aléa final. Il est rarissime d’être noté sévèrement dans toutes les disciplines à la fois.
À qui vont les meilleures notes ?
Trois quarts de siècle plus tard, ces recherches n’ont pas pris une ride. L’incertitude de la notation est une constante. Elle provient du fait que la note n’est pas une mesure physique (elle-même aléatoire d'ailleurs) mais l’appréciation d’un expert sur une prestation. Les variations de jugements sont inévitables. De grands pas ont été faits en revanche sur la connaissance des facteurs susceptibles d’influencer le correcteur.
Les chercheurs ont mis en évidence de nombreux biais de notation chez les correcteurs. Le premier de ces biais résulte de l’ordre de correction des copies. Les copies placées dans le premier tiers d’un paquet sont notées de façon plus indulgente que les suivantes. Tout se passe comme si, lors des premières corrections, le correcteur connaissait des hésitations sur la note à mettre et tranchait de façon indulgente. La notation d’une copie est également liée au niveau de la copie précédente. Si le correcteur vient de corriger une excellente copie, par contraste, il notera plus sévèrement la suivante. Et inversement. Enfin, si au début d’un paquet de copies, le chercheur ajoute trois copies très mauvaises, l’ensemble des notes est modifié à la hausse. Si trois bonnes copies sont ajoutées en début de paquet, l’ensemble des notes est revu à la baisse.
Un troisième biais d’évaluation tient au statut scolaire de l’élève. De nombreuses recherches, menées à la fois par des psychologues et des sociologues, sont parvenues au même résultat en utilisant des méthodologies différentes. Lorsque les professeurs pensent qu’ils corrigent la copie d’un bon élève, la note est toujours meilleure. Et inversement, lorsque les professeurs pensent noter un élève faible (1). Voilà pourquoi Bruno n’a pas dépassé 9/20 lorsque sa sœur a rédigé sa copie à sa place. Il a raison : il est catalogué comme un élève faible ne valant pas la moyenne.
Plus surprenant est le biais de notation lié à l’origine sociale de l’élève. Là encore, les études sont totalement convergentes et ne permettent pas de douter du résultat. En sociologie, le résultat est apparu nettement en comparant les moyennes des élèves pendant l’année à des résultats obtenus à des tests standardisés de compétences. A résultats identiques aux tests de compétences, les élèves d’origine aisée sont en moyenne mieux notés par leurs professeurs que les autres élèves (2). Le fait pour les professeurs de connaître l’origine sociale de leurs élèves influence positivement ou négativement leurs attentes à leur égard. Le comportement des élèves d’origine aisée en classe, sans doute plus conforme à l’idéal du bon élève, est également susceptible de modifier dans un sens favorable la notation des professeurs. Les élèves d’origine aisée bénéficient d’un stéréotype positif.
Un biais de notation favorise également les filles par rapport aux garçons. De nouveau, les recherches aboutissent à des résultats stables. Pour l’instant, on n’est pas parvenu à savoir si la féminisation du corps professoral est susceptible d’expliquer cette surnotation des filles. On peut penser que l’attitude des filles en cours, par rapport aux garçons plus indisciplinés et souvent moins dociles, est un facteur explicatif. Dans les enquêtes, notamment en français, les filles déclarent bavarder moins que les garçons et apprécier beaucoup plus cette discipline. Leur comportement coopératif en classe a probablement des effets positifs sur leur notation. On peut de nouveau penser à Bruno : c’est peut-être un élève agité. Inconsciemment, devant sa copie, le professeur est influencé par son comportement. De fait, il est découragé et n’attribue pas beaucoup de crédit à son professeur et à sa notation.
Dans le même ordre d’idée, d’autres recherches ont montré un effet de l’apparence physique. Sur des copies identiques, soumises à de multiples corrections, les chercheurs avaient agrafé des photos d’identité jugées plus ou moins attrayantes. Il existe bien un effet positif de l’attractivité du visage sur la notation de la copie. Une relation inconsciente amène à associer la compétence scolaire à la beauté physique.
Effet classe, effet établissement
D’autres recherches encore ont montré un biais d’évaluation lié à l’âge de l’élève et à son statut de redoublant. A qualité égale, mesurée par des tests anonymes de compétences, les élèves redoublants et plus âgés font toujours l’objet d’une notation plus sévère. Ces élèves sont victimes du stéréotype négatif de l’élève redoublant. L’échec antérieur suggère un élève en difficulté scolaire et cette perception entraîne une sous-notation.
Il existe d’autres biais de notation qui ne sont pas liés aux caractéristiques scolaires et sociales des élèves mais au contexte de scolarisation. Le type d’établissement fréquenté en est un. Ainsi, dans les établissements regroupant des élèves de niveau scolaire faible, les notations des professeurs sont en moyenne plus indulgentes, et inversement dans les établissements regroupant des élèves de niveau scolaire fort. Dans le premier cas, cette surnotation s’explique par la nécessité pour les professeurs de ne pas décourager des élèves souvent en perte de motivation. Dans le second cas, la notation sévère permet une sursélection et assure à l’établissement sa réputation. Pour les lycées, cette pratique assure d’excellents taux de réussite au bac.
Enfin, il existe un biais de notation propre à la classe. Les professeurs ont tendance à surestimer les écarts de compétences entre les élèves à l’intérieur de leurs classes. Il en résulte, par rapport à des tests standardisés, une surévaluation des compétences des meilleurs, et une sous-évaluation de celles des plus faibles.
Même si les professeurs corrigent très consciencieusement, leurs notes ne peuvent être considérées comme une mesure fiable de la compétence de leurs élèves. C’est en l’absence de barème de notation que leurs notes sont le moins fiables. Mais le barème, s’il est donc très utile, ne supprime cependant pas l’imprécision (3). Plusieurs recherches ont montré que les correcteurs n’étaient pas fidèles à eux-mêmes : la même copie glissée dans un autre paquet n’a généralement pas la même note, y compris en mathématiques.
Commentaire