编译:庄纯珍 东南大学脑与学习科学系
研究生导师:柏毅、夏小俊
作者:Regula Grob, Monika Holmeier & Peter Labudde
【摘要】:本研究将分析瑞士小学和高中教师在探究式科学教育(IBSE)背景下进行的34次正式形成性评估活动的实验。这些实验(14个来自小学,20个来自高中)与教学计划和教材以及个人访谈的成绩单一起记录。本文使用了演绎式开发的编码方案对实验进行编码,编码包括明确实验探究特征和形成性评估特征。实证结果表明,在小学阶段,更多的形成性评估实践是可能的,例如在一个探究单元中组合多种方法。在高中阶段,形成性评估实践更加直接,与终结性评估实践紧密相关。
【关键词】: 形成性评估、探究式科学教育、瑞士、小学、高中
1
引言和研究问题
形成性评估(FA)对学生学习的影响很大(Black & Wiliam,1998年;Hattie,2009年)。在瑞士,目前正在引入新课程Lehrplan 21(课程21)。本国家文件(D-EDK,2014)强调了总体评估(尤其是FA)的重要性,反映了国际发展动态。在这个国家,教师在日常教学中享有高度自主权。在过去的几十年中,FA活动已经在课堂上被熟知和使用,但教师之间和学校之间的差异很大(Vögeli-Mantovani,1999)。
在这种背景下,本研究可以被视为了解如何支持将FA从国家和国际教育政策层面转移到日常教学实践的第一步。因此,本文的重点将是瑞士小学和高中教师如何使用正式的形成性评估方法。更具体地说,所探讨的研究问题将是:瑞士中小学教师如何以及多久在IBSE教学中实施正式的形成性评估方法?这将包括教师与学生表达和分享期望的方式、用于诊断学生水平的数据、所使用的形成性评估方法、所评估的能力以及反馈用于进一步学习的方式。
2
探究式科学教育作为本研究的背景
从文献中的许多定义中可以推断出探究式科学教育(IBSE)的三个特征:第一, Bell、Urhahn、Schanze和Ploetzer(2010年)从国际IBSE文献中得出了一组具体的活动,他们称之为“探究学习的九个主要过程”。它们包括:定向和提问、假设生成、调查、分析和解释、建模、结论和评估、沟通和预测。
第二, IBSE应该培养学生的探究能力。上文介绍的Bell等人(2010)中定义的一系列活动也将被视为特定领域的调查能力:引导和提出科学问题、基于科学知识生成假设、规划探究、调查科学问题、分析和解释结果、建模问题、总结和评估探究,交流方法和结果,并为进一步研究做出预测。除了这些特定领域的能力外,许多作者还将跨领域能力归因于IBSE。跨领域能力,也称为“跨学科能力C3”, 是跨学科结构的,因此不能分配给特定学科(Grob&Maag Merki,2001)。DeSeCo项目(OECD,2005)中定义的能力分为三类:第一,语言、知识和技术等工具的交互使用;第二,在异质群体中相互作用;第三,自主行动。
第三,探究活动在某种程度上是开放的,它们会将一些决定留给学生个人,而不是预先定义所有方面和程序。Priemer(2011年)开发了一个在科学实验中具有不同维度开放性的模型,该模型应用于一般的探究活动。
3
形成性评估,以加强探究式科学教育
3.1
正式形成性评估的方法
形成性评估的目的是帮助学生学习,因此也称为学习评估。描述形成性评估FA活动的一种方式是通过其正式程度(Shavelson等人,2008):从非正式活动到正式活动,可以通过所涉及的计划、使用的学生数据类型以及对学习者的反馈性质来区分(Cowie&Bell,1999)。在非正式FA中,一个例子是,教师在课程中发生的情况自发地用于FA。另一方面,正式FA是基于先前为此目的计划的活动。文献中最常描述的三种正式形成性评估方法是书面教师评估、同行评估和自我评估。
3.2
正式形成性评估的四个步骤
正式的形成性评估通常遵循四个步骤:以标准的形式表达期望,根据学生数据对学生水平进行诊断,向学生提供关于其学习的反馈,并给予学生使用反馈的机会(例如,Paris&Paris,2001)。
表达和分享学习期望可以以不同的形式表现出来:教师的明确沟通(例如Andrade&Valtcheva,2009),并与学生一起制定和共同构建(例如Black、Harrison、Lee、Marshall和Wiliam,2004)。此外,特定单元的标准也可以隐式明确(例如,如果在更长的时间内相同)。学生成绩水平的诊断可以基于不同类型的数据,包括书面报告、与学生的口头对话以及教师对学生行为的观察。向学习者提供反馈是为了计划后续学习。在以学生为导向的活动中,反馈的使用可以是对原始作品的修改。另外,反馈也可以迁移到类似的新情况(例如Andrade&Valtcheva,2009;Paris&Paris,2001)。
4
方法
本研究与N=20名小学和高中科学教师建立了合作关系。教师们被要求在IBSE的背景下进行形成性评估。收集的第一组数据包括一份关于IBSE单元背景和FA程序的书面报告,包括教学计划及其教材。对这些进行演绎编码,并进行定性内容分析。第二组数据包括对教师的访谈,他们在访谈中证明了他们对FA方法和能力评估的选择。
4.1
实验
在与参与教师的介绍性会议上,教师们介绍并讨论了研究中FA的概念理解。研究中使用的FA方法通过基于探究的科学单元的具体示例进行了介绍。之后,教师被要求选择一种引入的FA方法,并在IBSE单元的课堂上实施。对评估的能力数量或这些单元的长度没有任何限制。
4.2
样本
在N=20名科学教师的样本中,有9名小学教师和11名高中教师。之所以选择这两个学校类型,是因为各自的教师的社会化程度不同。瑞士的小学教师具有以教育为导向的背景,而高中教师则更注重学科。因此,这项研究的目的不是比较学校的水平,而是探索一系列广泛的教学方法。
4.3
数据收集
4.3.1教师书面报告表
在实验结束后,教师们被要求填写一份四页的报告表,说明IBSE单元和FA的每一次实施情况。该表格包含关于评估方法和评估能力的封闭式问题,以及关于单元背景和FA程序的开放式问题。
4.3.2对教师的个人访谈
一些教师被要求参加个人、半结构化的面试。选择不同类型的教师是为了反映两个不同的学校水平、教授的科目和教学经验。这些访谈问题涉及实施的各个方面,如准备期间的决定、评估过程中的问题以及教师对实施情况的评估。所得数据包括对小学教师的5次采访和对高中教师的7次采访。
4.3.3选择实验进行分析
20名教师在他们的IBSE单元尝试了FA方法。每学期进行一次实验,合作持续三个学期,共进行了54次实验(而不是3*20=60次实验,因为一些老师提前离开了项目)。这些实验根据两个标准进行了实验:实验必须在IBSE的背景下进行,并且必须包含正式的形成性评估活动。
4.4
数据分析
演绎编码(Mayring,2010)被应用于书面报告表。此外,还使用演绎编码分析了工作表等教学材料。表1概述了编码框架的尺寸。编码的可靠性通过对18%的数据进行双重编码(54次实验中的10次)来计算,从而得出了用Cohen的Kappa测量的可靠性κ=0.83(Landis&Koch,1977)。对个人访谈的记录进行了归纳编码(Mayring,2010)。
表1 编码框架
5
结果
5.1
标准的沟通
在IBSE单元的课程中,学生们熟悉了FA活动的评估标准。在大多数实验中,教师预先制定了这些标准,并将其分发给学生。其中一些教师以问题的形式提供了标准,另一些则以标准清单的形式提供了标准。其中两名小学教师没有提供预先制定的评估标准,而是作为IBSE单元的一部分与学生一起阐述了这些标准。在其余5项实验中,评估标准从上下文来看是显而易见的。
5.2
诊断数据源
根据论文理论部分介绍的文献,FA所依据的数据分为四类:书面学生数据(如实验室日志条目),人工制品和模型,学生口头数据(例如学生解释和陈述),最后是评估员观察学生行为的观察。在本文分析的实验中(见图1),书面学生数据和观察数据在小学实验中最常见,而书面学生数据是高中实验中最常用的数据来源。学生作品和学生口头数据在两个学校的FA中比较罕见。
图1 用于诊断的数据源。n代表100%,因为一些实验涉及多个数据源,因此所有数据的总和等于100%以上。
5.3
评估方法
参与研究的教师在IBSE单元中至少嵌入了一种FA方法。一些教师决定在同一个单元中使用多种FA方法,这导致评估方法比实验多(见图2)。在所有后一种情况下,不同的评估方法针对不同的能力。
图2 使用的评估方法。n代表100%,由于一些实验涉及一种以上的评估方法,因此所有数据的总和等于100%以上。
教师以不同的方式实施正式的形成性评估方法:书面教师评估以填写的标准列表、公开评论、列表和公开评论的相结合的形式提供。在自我评估实验中,研究中出现了三种类型:教师通过提供带有问题的反思表让学生进行单独反思(1个小学实验,1个高中实验),在学生群体之间进行了反思性讨论(2个小学实验,1个高中实验),或在教师和个别学生之间进行反思性讨论(1个高中实验)。
在个别访谈中,教师被问及他们选择特定FA方法的原因。可以分为5种方式:第一,一些教师认为是无意识的决定。第二,两个学校级别的一些教师将FA方法的选择与他们的自我效能感联系起来。第三,一些小学教师基于学生的动机做出决定。第四,一些高中教师将他们的选择与学生反思技能的发展联系起来。第五,一些高中教师给出了组织原因,如班级规模或上课时间限制。
5.4
评估的能力
根据教师评估的能力,对教师的实验进行了分析。结果见图3(特定领域的能力)。两个学校级别的大多数教师都在其FA中包含多个能力,这就是为什么测试数量和评估的能力数量不相同的原因。
如图3所示,该研究涵盖了Bell等人(2010年)的大部分特定领域IBSE能力。“调查”和“沟通”最常被评估。“书面报告”的内容通常表现在实验室日志条目或结果陈述中。其他特定领域的能力很少或从未涉及。在比较这两个学校水平时,小学实验涵盖的能力范围似乎比高中实验更窄。
图3 评估的特定领域能力。n代表100%,因为一些实验涉及对多个能力的评估,所有能力的总和等于100%以上。
参加个别访谈的教师被要求解释FA能力的选择。一些来自两所学校的教师根据不同的能力进行选择。一些小学教师给出了另外两种解释:其中三位教师表示,能力的选择不是一个有意识的决定,而另一位教师则做出了基于资源的决定。在高中阶段,另外还有两个原因:学生能够对此进行评估, 以及特定能力对学生在为大学做进一步学习的相关性。
一些教师决定将跨领域能力纳入他们的FA活动,将其分为三类:“交互使用工具” “在异质群体中互动”和“自主行动”。在同一实验中,所有这些跨领域能力都是结合特定领域的能力进行评估的。例如,在一次小学实验中,教师将书面评估重点放在建模过程上,而学生则评估了同伴在一个小组中的协作能力,被归类为“异质小组中的互动”)。从所探索的两个学校的具体情况来看,小学阶段的绝大多数实验确实涉及对一个或两个跨领域能力的评估,而高中阶段的大多数实验没有,而是专门关注特定领域的能力。
5.4
参与反馈的方式
教师们找到了两种方法来确保学生能够使用他们收到的反馈:在一些实验中,可以根据反馈修改原始作品。在其他实验中,反馈可以迁移到随后的类似情况。如图4所示,第一种可能性(修订)在小学实验中更为频繁,而第二种可能性(迁移)在高中更为常见。参与反馈的另一种原因与评估的能力有关:针对特定领域的能力更经常提供对原始工作的修改,而针对跨领域能力更经常进行类似任务的转移。
图4 处理收到的反馈的方式。
5
结论:探索了学校层面的形成性评估实践
访谈数据的一个显著结果是,许多教师没有意识地决定选择什么样的评估方法或评估什么样的能力,而是让他们的教学单元“有机地生长”。结果反映不同学校水平之间差异,并总结在表3。实验中的这些差异可以通过不同的社会化来解释:而瑞士的小学教师具有以教学为导向的背景,往往以全面教育孩子为目标,高中教师更专注于教授特定学科的知识。
表2 研究中实验的特点
在瑞士的小学阶段,相当复杂的FA活动是可能的,例如将几种类型的学生数据或几种评估方法组合在一个单一的调查单元中。另一方面,在高中阶段,现实的FA实践可以以简单的程序和与终结性评估实践密切相关的方式来关注效率。
对于瑞士的科学教育而言,在IBSE中实施FA仍然是一个有待实现的目标。小学教师似乎很难为学生的实践活动中无法直接观察到的更抽象的内容找到指标。因此,应在小学教科书中提供此类具体指标。在高中阶段,教师似乎重视快速的FA,但在评估学生能力时似乎有困难,因为这些能力不是基于书面数据。教科书中这方面的具体例子可能会有所帮助。
在后来的访谈中,教师倾向于在规划过程中证明自己的决定与IBSE理论的关系更加清晰。此外,不满足项目需求的实验(IBSE中的FA)在项目开始时较高,在项目结束时较低。后续项目可以更详细地调查教师在自我指导的职业发展环境中的评估素养变化,因为这些变化对于讨论如何在教育系统中实施创新至关重要。
此外,教师群体中可能存在不同的实施者类型:一些教师试图复制曾经有效的程序,而其他教师则在每次尝试中尝试全新的程序。这些不同实施者类型的特点值得进行更详细的研究,因为它们也可能对教师专业发展产生影响。
本文是Regula Grob, Monika Holmeier & Peter Labudde学者于2019年发表于International Journal of Science Education 的论文。
DOI:10.1080/09500693.2019.1663453
转自:“百研工坊”微信公众号
如有侵权,请联系本站删除!