评估学生进行科学探究的能力：衡量小学生科学技能的工具

2023/2/1 16:20:22　阅读：153　发布者：

编译：袁瑜东南大学脑与学习科学系

研究生导师：柏毅夏小俊

作者：Patricia M. Kruit

【摘要】：

背景：随着对小学科学课堂探究活动实施的日益重视，人们对评估学生的科学技能产生了越来越大的兴趣。因此本研究关注不同测试方法在评估学生科学技能方面的优缺点。

目的：本研究通过在三个子技能水平（特定科学、思维、元认知）以及经验周期的不同步骤上系统地对项目进行分类，探索用于测量科学技能的不同工具的构建。

样本：该研究包括来自荷兰七所小学的 128 名五年级和六年级学生。

设计和方法：使用了七种测试方法：一种纸笔测试 (PPT)、三种绩效评估、两种元认知自我报告和一种一般认知能力指标的测试。

结果：所有测试的可靠性表明它们具有一定的内部一致性。PPT与三项绩效评估之间的正相关表明，不同的测试衡量的是相似技能的共同核心，从而为收敛效度提供证据。结果还表明，学生进行科学探究的能力与一般认知能力显着相关。一般元认知能力的测量与 PPT 或三个绩效评估之间没有关系。相比之下，为获取有关元认知能力在进行科学探究中的应用信息而构建的元认知自我报告测试显示出与两项绩效评估的显着（尽管很小）相关性。进一步的探索揭示了子技能和步骤水平的足够规模可靠性。

结论：本研究表明，通过按子技能和步骤级别对项目进行分类，可以可靠地衡量科学技能。可以通过检查子技能和步骤级别的平均分数来获得额外的诊断信息。这些措施不仅适用于评估学生对科学技能的掌握程度，还可以为教师提供诊断信息，以调整他们的指导并促进学生的学习过程。

【关键词】：科学探究；绩效评估；小学教育；科学技能

介绍

随着对小学科学课堂探究活动实施的日益重视，人们对评估学生的科学技能产生了越来越大的兴趣。这些技能涉及通过科学研究产生和验证知识的技能。传统上，大多数测试，无论是小型还是大型测试，都是由多项选择题和/或开放式问题组成的纸笔测试。

随着对学生学习方式的深入了解，绩效评估已被考虑。在绩效评估 (PA) 中，学生通过与材料积极互动来进行小实验。PA被视为“在某种程度上重现科学家工作条件并引出科学家在解决问题时使用的那种思维和推理的调查”。研究一直关注不同测试格式的局限性和优势。纸笔测试 (PPT) 便于统计、评分与学生作答。主要缺点是 PPT 缺乏真实性，换句话说，ppt不反映现实生活中调查的活动，并且可能会受到阅读能力的显着影响。虽然PA更真实，但其不具有PPT的优势。

科学技能是一个“定义不明确的领域”。科学技能——也称为“探究技能”或“调查技能”——通常指与计划、进行调查和解释结果相关的各种活动。本研究的目的是通过区分基本技能来探讨，如何构建评估才能提高测试之间的收敛性；通过总结探究的所有方面来提供，获得学生表现的诊断信息可能方式。为此，在科学探究中进行的每一项活动都通过确定以下哪一种技能主要构成该活动的基础来进行分类的：科学特定技能、思维技能或元认知技能。

科学特定技能是指应用程序性和陈述性知识正确设置和进行科学实验的能力。其特点是知识的回忆、理解、规则的常规运用和简单的应用。此外，学生还应用更多的一般思维技能来理解数据并将观察结果与科学理论联系起来。思维技能的应用涉及解释、分析、评估、分类和推断信息。元认知技能是指自我调节技能，包括计划、监控和评估任务绩效。

为了增加测试之间的收敛性，使用经验周期内的以下主要活动（“步骤”）作为构建测试的一般蓝图：（1）制定研究问题，（2）设计实验，（3 ) 提出一个假设，(4) 测量和记录数据，（5）分析数据，（6）形成结论，以及（7）评价。经验周期反映了科学探究的所有方面，这些方面被列为大多数课程的学习目标。将经验周期部署为构建测试的蓝图可确保每个测试中包含相同的科学探究活动，从而确保构建的有效性。此外，在测试中系统地组合这些活动可能会提供一个有用的支架，特别是对于那些几乎没有探究经验的小学生而言。

此外，我们解决了以下研究问题：

(1) 能否以可靠的方式衡量学生进行科学探究的能力？

(2) 衡量学生进行科学探究的能力与他们的一般认知能力有多大关系？

(3) 学生进行科学探究的能力能否通过不同的评估工具得到有效衡量？

(4) 对子技能和步骤水平的测量在多大程度上为学生进行科学探究能力的整体测量提供了额外的诊断信息？

方法

2.1 参与者

荷兰七所小学的 128 名平均年龄为 11.4 岁 (SD = .64) 的学生（55% 女性，45% 男性）使用了所有测量仪器。75 名学生 (59%) 在 5 年级，53 名 (41%) 在 6 年级。这些学校以前没有使用过 PPT 或 PA 方式来评估学生的科学技能。

2.2 测量工具

2.2.1纸笔测试（PPT）

PPT的项目是根据以下标准从大规模评估和其他来源中选择的。通过将项目分配到经验周期的不同步骤并根据项目中执行的特定活动所基于的主要子技能对它们进行分类来维持结构有效性（表1)。PPT 包含衡量思维和特定科学技能的项目。选择替代策略或评估学习收益等元认知项目未包括在内，因为答案基于自我评估，不能简单地评分为正确或不正确。

表1 PPT中选择题与开放题的分布，按子技能水平分类

2.2.2绩效评估（PA）

本研究开发了三个适合该年龄段学生的任务：滑板、蹦极和热巧克力。三个 PA 都涉及比较调查：要求学生检查两个变量之间的关系。在滑板中，学生必须将弹珠（“滑板”）沿着尺子（“山丘”）滚动，以检查弹珠在尺子（斜坡）上的距离与弹珠在尺子末端覆盖的距离之间的关系，同时向前推动纸楔。蹦极（学生检查橡皮筋的长度如何通过悬挂额外的重物来改变）和热巧克力（热水量与冷却速度之间的关系）中也进行类似的调查。

每个 PA 都是根据经验周期的各种活动（步骤）之后的相同模板构建的（表2)。

表2 绩效评估蓝图，按子技能水平和步骤级别分类

如表所示2，每个 PA 包含 14 个可量化的项目，需要在大约 45 分钟内完成。项目的评分是根据学生写在笔记本上的答案来进行的。

2.2.3元认知自我报告

使用了两种元认知自我报告测试。

第一种测试基于初级元认知意识量表 [Jr. MAI]，由 Sperling 等人开发的 3-5 年级自我报告清单。Jr. MAI 由 12 个项目组成，具有三项选择（从不、有时或总是）。在这 12 个项目中，有 6 个项目评估元认知知识。例如：“我知道什么时候我明白了”。其他 6 个项目旨在评估认知调节。例如，“我在开始工作之前考虑我需要学习什么”。

第二种元认知自我报告测试——科学元测试 (SMT)——旨在衡量元认知自我调节技能，包括定位/计划、监控和评估。与Jr. MAI 相比，SMT的项目是专门为获取元认知技能在 PA 中应用程度的信息而构建的。例如：“在进行测量时，我继续验证我是否遵循了我的计划”。SMT 的最终版本由 13 个项目组成，采用三分制（不，很少，很多）。

2.2.4综合Cito分数（CCS）

大多数小学参加国家教育测试和评估研究所 [Stichting Cito Instituut voor Toetsontwikkeling] 的半年度评估，以监测学生的成绩。由于阅读理解和算术/数学的 Cito 分数与其他衡量一般能力的测试显着相关，因此 Cito 分数可被视为一般认知能力的有效指标。由于可以获得这些可靠的标准化测试的分数，因此没有进行单独的认知能力测试。

能力用不同的水平表示，表明学生与常模组相比的实际表现水平（A = 所有儿童的上 25%，B = 高于平均水平 25%，C = 低于平均水平 25%，D = 低于下一个 15% C、E = 最低的 10%）。由于基于规范的解释，学生的考试成绩可以在年级内和年级之间进行比较。对于阅读理解和算术/数学，5 年级和 6 年级的可靠性分数（以测量准确度表示）都很高，分别 >.87 和 >.95。在本研究中，期中考试成绩被转换为五分制（A = 5 至 E = 1）。通过将两个测试的分数相加来建立综合 Cito 分数 (CCS)。

2.3 管理程序

测试在两个不同的场合对所有学生进行，时间间隔为 8-10 周。每次测试都以相同的顺序进行。首先将PPT 分成一半，然后是绩效评估。“滑板”主题在第一次执行，其他两个PA在第二次执行。为了控制排序效应，第二次随机轮换出题。两项元认知自我报告测试在“蹦极“主题后的第二次进行。

2.3.1 计分程序

三名评分员，均为硕士生，分别接受了PPT和PA中开放式问题评分的培训。在每次培训课程之前，都会向评分者提供测试材料、评分标准和一组反映不同表现水平的学生答案。通过确定每个评分会话的平均 12% 分数的随机样本的组内相关性（ICC，双向随机，绝对一致性）来估计评分者间的可靠性。为了避免偏见，评分者被指示在进入下一个项目之前为所有学生对一个项目进行评分。通过这种方式，实现了对特定项目的不同性能水平的更高灵敏度。根据达成的评分者间协议，开始了对评分差异的额外讨论。

2.3.2 分析方法

该数据集包含总共 128 名小学生的所有措施的分数。检查变量的数据输入准确性、缺失值和分布。元认知自我报告测试和 Cito 测试的变量缺失值不到 5%。

计算所有措施的总分和可靠性。此外，还为 PPT 和 PA 计算了子技能和步骤级别的分数和可靠性。计算 Jr. MAI 和 SMT 的平均项目分数。计算 Pearson 零阶和偏相关以检查判别和收敛有效性。

结果

3.1 描述性统计

表3给出了所有测试的均值和标准差。PPT和PA均显示分数的正态分布。所有分数的平均值都相对较低，表明难度较高。四名学生在滑板和蹦极上得0分，而在热巧克力上只有两名学生得0分。因此，没有迹象表明存在实质性的地板效应。重复测量方差分析显示三个PA之间有显著差异（Wilks 的 lambda = .921，F(2, 126) = 5.40，ρ = .006, η2ρ= .079）。Jr. MAI的分数(以平均项目分数表示)相对较高，而SMT的分数分布更均匀。CCS的平均值表明学生的表现接近平均水平。在PPT方面，蹦极和热巧克力女生的表现优于男生。然而，结果显示，男孩在Jr. MAI方面得分显著更高。除了6年级学生在PPT上的得分高于5年级学生外，其他年级之间的得分没有差异。

表3 所有测试的均值和标准差

表4 所有测试的可靠性系数

3.2 测试的可靠性

为了回答第一个研究问题，计算了测试的可靠性。PPT 的 Cronbach α 系数可以认为是好的（表4)。删除项目不会显着提高可靠性系数。三个 PA 的 α 系数以及元认知自我报告测试表明具有足够的内部一致性。

3.3 科学测试与综合Cito评分（CCS）

之间的关系

为了检查判别有效性（研究问题 2），探索了科学措施与 CCS 之间的相互依存关系。分别在 CCS 和 PPT 和 PA 之间发现了中到大的相关性（表5)。在 CCS 和两个元认知自我报告测试之间没有发现显着的相关性。

3.4 科学测试之间的关系

为了找到收敛有效性的证据（研究问题 3），我们探讨了不同科学测试的总体得分在多大程度上相关。因为调查结果表明，科学指标与综合 Cito 分数相关（表5) 控制了此测试分数的相关性。

在 PPT 和所有三个 PA 之间发现了中到大的显着正相关（表6)。三个 PA 之间的平均相关性 (r = .48) 高于 PPT 和 PA 之间的平均相关性 (r = .39)，这表明 PA 使用的技能与 PPT 有所不同。尽管如此，PPT 和三个 PA 之间的中等到大的相关性加强了两种测试格式衡量相似技能的共同核心，而不是单独的一般认知能力。

Jr. MAI 和 PA 之间没有显着相关性。这些结果可能表明 Jr. MAI 测量的一般元认知技能没有被 PA 反映出来。另一种解释可能是 Jr. MAI 缺乏衡量元认知技能的敏感性。

表5 科学测试和CCS之间的相关性

表6 控制CCS的科学测试之间的相关性

结论

本研究表明，通过按子技能和步骤级别对项目进行分类，可以可靠地衡量科学技能。可以通过检查子技能和步骤级别的平均分数来获得额外的诊断信息。这些措施不仅适用于评估学生对科学技能的掌握程度，还可以为教师提供诊断信息，以调整他们的指导并促进学生的学习过程。

本文章仅翻译了文献的部分内容，若查看完整内容，请查找

DOI：10.1080/02635143.2017.1421530

转自：“百研工坊”微信公众号

如有侵权，请联系本站删除！

上一篇： 机器人教育背景下计算思维与逻辑思维的关系
下一篇： 在瑞士小学和高中探究的背景下分析正式的形成性评估活动

投稿问答最小化 关闭

评估学生进行科学探究的能力：衡量小学生科学技能的工具

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

评估学生进行科学探究的能力：衡量小学生科学技能的工具

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭