基于PISA2022的分析:

外部问责压力对各国学校内部考试的功能影响有多大?

□李青青 赵 茜

字数:2810 2026-02-01 版名:理论
  考试长期承担着重要的制度性功能,对学校教学安排和学生学习方式产生持续影响。近年来,随着教育质量问责工作不断强化,许多学校内部考试数量明显增加,其功能已不再仅限于诊断学习和改进教学,而是逐步被用于传导压力、证明绩效和规避风险。为此,我国持续推进考试管理和评价改革。
  2025年12月,教育部办公厅《关于进一步加强中小学日常考试管理的通知》发布,强调减少不必要的考试,但在具体实践中,仍有学校通过“学业监测”“阶段验收”等方式延续考试的高风险用途,形成了表面合规、实质延续的现象,这不仅加重了师生负担,也引发了对学校考试功能定位的广泛讨论。
  在此背景下,一个亟须回答的问题是:在高利害评价环境中,学校究竟如何使用内部考试?学校是否必然会将外部问责压力直接转化为高利害的内部考试,还是可以通过调整考试用途,让考试真正服务于学校内部教学改进?围绕这些问题,笔者基于PISA2022(即国际学生评估项目的第八轮测评)的学校层面数据,从国际比较视角系统分析外部高利害评价与学校内部考试运行方式之间的关系,重点考察不同学校考试取向下教育质量的差异表现,为理解学校评价行为及推进我国教育评价改革提供经验参考。
  全球考试评价环境的高利害程度:外部问责与学校考试
  PISA2022共有81个国家(地区)的21629所学校、613744名学生参加测试。本研究采用PI-SA2022学校层面数据,在剔除关键变量缺失的样本后,最终使用74个国家(地区)的20593所学校数据开展研究。分析过程使用PISA数据库中的学校权重进行加权,加权后的样本可代表74个国家(地区)约474632所学校的总体情况。
  在指标使用上,分别从地区性标准化考试和学校内部考试两个层面来刻画评价环境的高利害程度。考试利害性通过考试结果的用途加以衡量,包括是否用于学生年级晋升、教学分组、教师绩效评估、学校质量监测、与同类学校比较等。考试结果用途越多,利害程度越高,表明考试在问责与决策中的作用越强。
  全球考试评价环境的基本特征。考试评价环境是指在围绕考试活动形成的评价系统中,影响考试功能发挥与结果使用的制度安排与文化取向的总体情境,集中体现为考试结果在不同层级上所承载的问责与决策功能。本文主要关注区域层面标准化考试和学校内部考试的利害化程度,并据此比较不同国家(地区)考试评价环境的结构差异。从总体分布看,全球大多数国家(地区)的考试评价环境处于中等利害水平,但不同区域之间存在明显差异。在地区性标准化考试对学校评价的利害性方面,超过一半的国家(地区)利害程度处于0—1的较低区间,既包括美国、英国等英语国家,也包括挪威、丹麦等北欧国家,以及新加坡、中国香港、中国台湾等东亚国家(地区)。以德国、奥地利、瑞士等为代表的欧洲国家,地区性考试问责水平整体较低,低于 0,这类国家(地区)占31.1%;而柬埔寨、马来西亚、越南等国家(地区)则倾向于将标准化考试结果作为评价学校绩效的重要依据,问责强度高于1,显著高于全球平均水平,这类国家(地区)仅占9.5%。
  在学校内部考试方面,学校考试表现出高利害性的国家(地区)主要集中在东南亚,欧洲国家学校考试的利害程度普遍较低。中国、新加坡、韩国等东亚国家(地区)的学校内部考试利害性整体处于中等水平,既不同于欧洲的低风险取向,也未达到部分发展中国家的高压状态。
  外部问责对学校内部考试的传导效应。进一步分析表明,地区性标准化考试的利害程度与学校内部考试的利害程度之间存在显著正相关关系。回归结果显示,地区性标准化考试利害性每提高1个单位,学校内部考试的利害程度平均提高约0.58个单位,说明外部问责压力往往通过制度传导机制影响学校内部考试的运行方式。
  从国家(地区)分布看,呈现出明显的集群特征。东南亚和中东部分国家多集中于“高外部问责—高内部问责”区间,西欧和北欧国家多处于“低外部问责—低内部问责”区间,而东亚和欧美部分国家则分布于中间区域。需要注意的是,马来西亚、文莱等国家虽在地区性标准化考试中问责强度较高,但学校内部考试利害性并未同步上升,表明外部问责并非必然完全传导给教师和学生,学校仍保有一定调节空间。
   高利害学校考试与教育质量:高压低效还是实质提升
  分析发现,学校内部考试的高利害程度与学校教育质量之间并不存在简单的正向关系,反而普遍呈现负向关系。
  在部分国家(地区),外部问责和内部考试利害性均处于较高水平,但学生学业表现并不理想。例如柬埔寨、菲律宾、乌兹别克斯坦等国家(地区)学校普遍承受较强的评价压力,内部考试用途广泛,但其学生数学成绩处于全球较低水平。这表明,过度强调问责容易促使学校将有限资源投入到应试和绩效展示中,而不是持续改善教学过程,从而形成高压力、低效率的运行状态。
  与之形成对比的是,一些学校考试利害性较低或处于中等水平的国家(地区),反而实现了较高的教育质量。例如新加坡、中国香港和中国台湾的外部问责和学校考试利害性均处于中等区间,但学生学业表现长期居于国际前列。瑞士和爱沙尼亚则在低外部问责、低内部考试利害性情境下,同样取得了优异的学业成绩。这些案例表明,考试利害性并非越高越有利,适度的评价压力更有助于学校将考试结果转化为改进教学的资源。
   结论与启示:规范考试使用,防范形式主义风险
  基于PISA2022的国际比较分析可以得出三点主要结论:一是外部高利害评价通过制度传导显著影响学校内部考试的利害程度,但其影响并非单向决定性的。二是学校内部考试的高利害化并不必然带来教育质量提升,反而可能诱发形式主义和资源错配。三是学校考试是否能够促进学业发展,关键在于其功能定位是服务于改进,还是用于比较和绩效评估。
  上述结论对当前我国推进教育评价与考试改革具有重要启示。
  其一,在外部问责设计上,应强调教育的多重价值,避免将标准化考试结果与资源分配过度刚性挂钩,为学校合理使用内部考试留出空间。外部问责要改变单一线性的归因逻辑,纳入对学生综合素养发展、教学过程优化、教师专业成长等过程性指标的考量,强调教育的多维度和深层次价值;并进一步通过制度设计,弱化地区性标准化考试结果与学校排名、经费拨付及校长绩效的刚性挂钩,引导学校摆脱对考试分数的过度依赖,降低学校内部以及学校之间的竞争。引导社会和学校形成科学的评价理念,借鉴新加坡等国家“考试服务教学改进”经验,实现从“高压问责”向“科学问责”的转型。
  其二,在学校层面,应引导学校重视考试的诊断和改进功能,减少不必要的高风险用途,防止考试成为加剧形式主义的工具。只有在外部问责与学校内部评价之间形成良性互动,考试才能真正服务于教育质量的持续提升。新加坡的经验表明,即使在外部高问责压力下,学校依然可以发挥能动性过滤外部压力,90%以上的新加坡学校将考试评价用于监测改进与教学调整,很好地发挥了考试评价的改进功能。学校可以主动“减压”“泄压”,学校内部减少利用考试结果分班等高利害用途,弱化考试结果在与同类学校比较、教师绩效评估等方面的应用,让考试真正服务于教学过程的优化与学生的个性化发展。
  (据《中国基础教育》2026年第1期,有删节)