L’analyse de donnée est découpée en deux phases :
Les résultats des élèves aux tests PASEC permettent de construire des scores sur 100 points pour chaque année enquêtée, pour chaque discipline et en début (pré test) et fin d’année scolaire (post test). Ces scores ne sont pas directement comparables mais permettent de répondre à l’analyse des déterminants scolaire. La différence de score entre le test de début et de fin d’année scolaire ne permet pas de conclure à une progression ou régression des élèves entre les deux périodes.
Le PASEC défini un seuil de connaissance de base qui correspond à un score moyen de 40 sur 100 au test de langue ou de mathématiques. Les élèves qui ont un score supérieur à 40 sur 100 sont au-dessus du seuil de connaissance de base, les élèves qui ont des résultats inférieurs sont en dessous du seuil de connaissance de base.
Le PASEC défini un seuil d’échec scolaire qui correspond à un score moyen de 25 sur 100 au test de langue ou de mathématiques. Les élèves qui ont un score supérieur à 25 sur 100 sont au-dessus du seuil d’échec scolaire, les élèves qui ont des résultats inférieurs sont en dessous du seuil d’échec scolaire.
Ces deux seuils permettent de décrire l’équité des résultats scolaires entre les pays et les périodes.
Des scores moyens par catégories de facteurs (rural/urbain, type d’écoles, niveau socio-économique des élèves etc) sont construits pour décrire l’équité des résultats scolaires.
Les modèles sont estimés sur la base des techniques classiques des moindres carrés ordinaires (MCO) mais tiennent compte du caractère hiérarchique des données, sans pour autant aller jusqu’à mobiliser des techniques multi-niveaux.
Les scores des élèves aux tests utilisés dans l’analyse sont centrés et réduits (à titre comparatif). Ils représentent ainsi la variation de chaque élève en termes de résultats par rapport à la moyenne centrée réduite observée dans l’échantillon.
Le protocole d’enquête, qui prévoit un test en début d’année et un test en fin d’année, permet un raisonnement en valeur ajoutée, en se restreignant à une année scolaire donnée. La démarche de modélisation économétrique est une stratégie descendante par bloc de variables. On introduit en premier le score final, comme variable réponse ou à expliquer, puis le score initial et les variables élèves, écoles et classes comme variables explicatives selon les problématiques éducatives prégnantes dans chaque pays. Les modèles finaux des différentes étapes sont rassemblés dans un modèle global.
Dans le cadre des analyses PASEC, on retient le seuil de 10% pour considérer qu’une variable est significative.