技术的重大进步正在迅速改变世界。近年来,人工智能在识别和理解能力方面突飞猛进,其影响渗透到各行各业,在教育领域亦激起千层浪,为教育和学习带来了许多变化。人工智能技术在教育中的应用,不仅为教师的教学方式带来革新,为学生的个性化学习提供支持,还为解决教育领域最重要的公平和包容、质量、效率等挑战创造可能。
为扎实推进教育数字化转型,本刊与李艳教授领衔的浙江大学教育学院智能教育研究中心团队联合推出“AI 教育应用”系列专栏,围绕智能写作系统、自适应游戏化、沉浸式学习体验、群体智能等主题,聚焦新一代人工智能在教育领域的前沿应用,呈现人工智能技术教育应用新场景,探讨人工智能技术教育解决方案。
传统的写作教学一直存在评价方式单一和反馈滞后等问题,学生写作动机也普遍不高,由此导致学生整体写作水平难以满足个体成长和社会进步的需要。智能作文评价让作文反馈变得即时且便捷,给传统写作教学带来变革的可能性,其教学应用价值已经引起广大研究者和实践者的关注。
智能作文评价工具发展迅速
智能作文评价可以追溯到 20 世纪 60年代美国学者佩奇(Page)及其同事的研究和实践。世界上第一款智能作文评价系统是诞生于美国的 Project Essay Grader(简称 PEG),该系统主要通过对文章浅层语言学特征的分析来对作文进行评分,它的评价注重表面结构而忽略对语义的评价。20 世纪 90 年代以来,智能作文评价工具发展迅速,代表性的产品有 Criterion、Writing Roadmap(WRM)、E-rater、Intellimetric、Intelligent Essay Assessor(简称 IEA)和 MY Access !等,这些系统除了能对作文进行自动评分外,还能从写作内容、结构组织、选词、语体、语法以及格式规范方面对作文进行分析,提供多维度的反馈,适用于形成性和终结性的作文评价。有的系统已经被应用在 TOEFL(Test of English as a Foreign Language) 和 GMAT(Graduate Management Admission Test)等 大 规模的英语测试中。标准测试领域的成功应用也激发了这些系统在语言教学课堂应用方面的巨大潜力。多项研究证明,英语智能作文评价系统 E-rater、Intellimetric、IEA 等与教师评分的一致性较高,一致性系数在 87% 到 100% 之间;两者有着较强的相关性,相关系数在0.76~0.95 之间。
在国内,随着大数据和人工智能的发展,计算机辅助语言学习也成为关注热点,智能作文批改平台相继推出。英语智能作文评价领域有代表性的系统包括句酷批改网、iWrite、冰果英语等,中文作文评价领域有代表性的系统包括 IN 课堂语文作文智能批改(简称 IN 课堂)、365 学堂在线作文批改平台、爱语文 App 等。句酷批改网提供在线即时反馈、交互学习和过程监督三大功能系统;北京理琪科技有限公司于 2018 年推出 IN 课堂智能作文批改系统,它借助自然语言处理和机器学习的原理进行写作评价和反馈,致力于建立一个交互式的作文智能批改和反馈平台。与爱语文 App 等中文作文智能批改平台相比,IN 课堂可以提供针对语言表达的纠正性反馈,同时提供多次修改的机会,让反馈具有“学生 - 机器”之间的双向互动性,兼具形成性反馈与终结性反馈的功能。智能作文评价符合分布式指导理念,它能促进资源统筹,发挥教师、工具和环境的指导作用,为写作教学革新提供了新的可能性。
自然语言处理技术的应用
智能作文评价的原理主要是基于自然语言处理。自然语言是人类平时生活中常用的表达方式,而自然语言处理是一种基于计算机的文本语言分析方法,即通过自然语言处理,计算机就可以理解人类的语言,因此可以说自然语言处理是计算机与人类之间的沟通桥梁。
自然语言处理最早的研究领域之一是机器翻译。这种应用涉及使用计算分析将文本从一种语言翻译成另一种语言。机器翻译领域的一项著名研究发生在冷战时期,当时美国正试图开发将俄语翻译成英语的程序。而现在,机器翻译系统变得相当先进,已经超越了逐字翻译的范畴。现成的机器翻译软件在互联网搜索引擎上随处可见。例如,谷歌、雅虎和必应都提供机器翻译。
自 20 世纪 50 年代以来一直在研究的另一项自然语言处理应用是自动摘要。例如哥伦比亚大学的 Columbia Newsblaster 系统,可从各种新闻来源中生成新闻摘要,用于从文档中自动提取最相关的文本。谷歌、雅虎和必应等互联网搜索引擎也可能使用自然语言处理方法。当我们在浏览器的搜索引擎中输入搜索短语或查询时,必须进行自动分析以评估查询的内容。对原始查询中的词汇进行分析,可使搜索引擎返回最相关的回复。
情感分析系统使用自然语言处理来识别文本是否包含观点陈述,并进一步按极性对这些陈述进行分类,具体来说,确定它们是否包含正面或负面情感,或两者兼而有之。情感分析系统的行业应用可用于分析博客中的观点表达,也可用于客户服务环境中的产品评论检查和分析。
(一)自然语言处理流程
自然语言处理的流程大致可以分为两大类,分别是传统机器学习的自然语言处理和深度学习的自然语言处理,这两类处理方式的第一步都是语料预处理,其中包括分词、词干提取与词性还原、词性标注、命名实体识别等。分词是自然语言处理的基础工作,即将句子、段落分成以字词为单位的各部分,方便后续的处理与分析。词干提取与词性还原是英文语料预处理中的重要环节,词干提取是剥除单词的前后缀获得词根的过程,词性还原则是基于词典将单词的复杂形态转变为最基础的形态。词性标注是根据不同词的语法特征将这些词语进行划分。命名实体识别则是识别文本中具有特定意义的词语,主要包括人名、地名、专有名词等。英文语料预处理的最后一步分块则是指将句子中的单词分为与句法相关的短语块,而在中文中则是去除停用词,指停用在自然语言文本中非常常见的词,它们通常不携带特定含义,将这些词去除可以简化文本数据并提高处理效率。
在完成语料预处理后,机器学习自然语言处理的下一步是特称化,也是向量化,主要把分词后的字和词表示成计算机可计算的向量,这样有助于较好地表达不同词之间的相似关系,并为后续的数据训练和分类提供基础。而深度学习自然语言处理在完成语料预处理后要进行模型的设计并进行模型的训练,以便更好地学习和理解复杂的语义关系和模式。
两类处理方式结束后,都需要对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率(Recall)、F 值(F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而 F 值是综合准确率和召回率用于反映整体的指标,当 F 值较高时则说明试验方法有效。
(二)自然语言处理的核心任务
自然语言处理有两个核心任务——自然语言理解与自然语言生成。前者旨在让计算机可以具备类似人类的语言理解能力,能够真正理解人类的语言,这一任务在机器翻译、机器客服等领域得到广泛应用;后者则旨在让计算机在理解人类语言的基础上,能够准确捕捉人类的意图并生成相应的反馈,其主要应用在自动写新闻和聊天机器人等领域。
自然语言理解与人工智能的发展历史相似,都经过了三个阶段的迭代。最早人类是通过总结自然语言中的规律来判断文本的含义。随着人工智能的发展,出现了基于统计的方法,即通过大规模的数据库分析数据,从而实现对自然语言的处理,这样强大的数据支持使得对文本进行进一步的理解和分析成为可能。近年来,随着深度学习的蓬勃发展,自然语言处理又得到了进一步发展,语义特征的提取能力、计算能力与计算效率都得到了大幅度的提高。
自然语言生成涉及六个关键步骤:(1)内容确定。作为自然语言生成的第一步,系统需要确定哪些信息应该包含在需要生成的文本中,且数据中包含的文本信息多于最终传达出的信息。(2)文本结构。确定了需要传达哪些信息后,系统需要合理地组织文本的顺序,例如在生成新闻的时候,需要按照“什么时间”“什么地点”“谁”“发生了什么”这样的顺序。(3)句子聚合。一句话只包含一个信息会在信息较多时需要生成更多的句子数量,因此将多个信息聚合到一个句子中会使得表达更加流畅,也更易于阅读。(4)语法化。这一步是在生成的句子之间添加一些关联词,使句子看起来更完整。(5)参考表达生成。参考表达生成与前一步语法化类似,都是在句子间增加一些词语来使得句子更完整,但参考表达生成这一环节会根据句子内容所属的领域生成相应的该领域内的词汇。(6)语言实现。最后,当所有单词与短语都确定时,将这些部分组合起来生成一个完整的且结构良好的句子。
智能作文评价系统 E-rater
E-rater 由 美 国 教 育 考 试 服 务 中心(ETS)提 供 的 E-rater 评 分 工 具 与Critical 的引擎相结合而成,并于 1999年首次投入使用。经过多年的发展,其评分模型经历了几次调整,最终确定为对六个分析领域中的 12 个指标特征进行评分(如表 1)。此外,E-rater 还能检测论文的相似性,并在论文偏离主题、话语结构有问题或包含大量语法错误时给出提示。相较于其他的智能评分模型,E-rater 仅使用了一小部分有意义且直观的指标特征,是属于比较简明的评分模型。
(本文刊载于本文刊载于《上海教育》杂志2023年9月10日出版,版权所有,更多内容,请参见杂志。作者系浙江大学教育学院课程与学习科学系 吴一凡 李艳)
转自:“第一教育专业圈”微信公众号
如有侵权,请联系本站删除!