投稿问答最小化  关闭

万维书刊APP下载

交互式大模型驱动的大数据技术实践课程教学探索

2024/1/2 15:07:49  阅读:80 发布者:

0 引 言

新时代背景下,国家高度重视数据作为新型生产要素的基础资源作用和创新引擎作用[1]。各高校先后开设数据科学与大数据专业,旨在培养具备数据处理、数据分析、数据挖掘等方面技能的专业人才,该专业涉及计算机科学、统计学等相关学科,对人才培养的要求不仅需要具备丰富的理论知识,还需要具备更强的实践能力。

大数据技术实践是数据科学与大数据专业的核心实践课程,但是由于大数据技术实践涉及前继课程多、应用性要求高,学生难以对数据进行高效理解和处理。目前,高校从多方面对大数据技术实践课程进行改革,文献[2]从大数据实践课程体系方面,探索了适应数据科学人才培养新方案;文献[3]探讨了不同大数据平台建设对实践类课程教学改革的影响;文献[4]OBE教学理念出发,取得了良好的实践效果。

上述课程改革忽略了实践对象“数据”作为核心要素对实践教学过程的影响。首先,获取足够的真实、多样、高质量的大规模数据不易,学校无法提供足够多的实际数据集供学生使用,且真实数据的获取可能涉及隐私、法律等方面的限制;其次,大规模数据通常包含噪声、缺失值、异常值等,需要进行清洗和预处理才能得到可用的数据集。上述挑战会导致学生在实践中缺乏兴趣,繁杂的清洗工作也会占据学生大量实践时间。

仿真引擎在计算机专业课教学中扮演着重要的角色[5-6],近年来,仿真引擎发展至以大数据和大算力驱动的交互式大模型[7-9],学生利用IO/API接口与大模型进行交互,获得仿真数据、相关原理和执行过程。在大数据技术实践教学中,针对大数据获取和预处理难的特点,引入交互式大模型,学生可以根据自己兴趣,选择不同的交互模式产生数据,明晰数据产生的机理,学习不同交互分布下产生的数据处理方法,从而提升实践教学效果。

1 交互式大模型与大数据技术实践

大数据技术实践课程通过完成数据存储设计、数据分析处理、数据展示等,培养学生的大数据实践和应用能力。当前,大数据技术实践课程多以数据挖掘类项目为导向,对结构化数值与文本数据进行预处理、算法设计和应用。课程采用的数据为电影推荐、垃圾邮件分类、文本情感分析等公开数据集[4]。这些数据集通常为科研服务,时效性不佳,与现实场景不符且数据量不够大,导致无法激发学生深入理解大数据中科学问题的兴趣。此外,多届学生往往采用同样的数据集,也会使实践教学陷入时间维度瓶颈,阻碍教学质量持续提升。

交互式大模型是一种软件系统,用于生成和模拟各种真实世界场景和过程,它通过计算机生成的数值、文本、图像、声音和其他感官输入来模拟现实,并允许用户在虚拟环境中通过IO接口和软件API接口进行交互,可以让不同用户获得不同视角、不同分布下的多样性数据[7-9]。交互式大模型广泛应用于多个领域,包括游戏开发、虚拟现实、科学研究以及产品设计等。近年来,交互式大模型驱动的教学系统得到了广泛关注,将其引入大数据实践课程教学中,建立以数据为中心要素的教学系统,总体架构如图1所示,主要包括交互式大模型和大数据处理模块两部分,系统底层由HadoopSpark等大数据平台支撑,其中,交互式大模型接收不同学生的IO/API交互命令,通过数据引擎(由生成式机器学习模型驱动,如ChatGPT[7])和物理引擎(由复杂动力学模型驱动,如MuJoCo[9])模拟真实场景数据,不同学生的交互数据将会保存在平台的不同区域。大数据处理模块将数据分析、数据处理、数据展示等任务分解为底层的分布式计算任务,然后通过HadoopSpark等平台进行处理。通过该系统,学生可以根据自己兴趣选择交互式大模型中的不同任务,利用计算机建模进行实验,模拟和分析数据,进而完成教学和实践内容。

在大数据技术实践课程中引入交互式大模型教学系统,其优势主要体现在以下几点。

1)交互性。学生可以通过IO/API接口,自己选择感兴趣的仿真场景生成数据,按照自己的想法调试和控制场景,尝试生成不同分布的交互数据。在这个过程中,可以激发学生探索不同场景的兴趣,增加学习新知识的主观性和能动性。

2)多样性。交互式大模型为学生提供了广泛的实验场景和任务选择。这些场景涵盖了大数据多种应用场景。学生可以根据自己的兴趣和学习目标,选择最适合的场景进行实验,同时,也能避免跨届学生使用相同数据。

3)真实性。交互式大模型模拟了真实的大数据处理环境。学生能够在一个虚拟但高度真实的环境中操作数据,与真实场景一致。让学生能够更好地理解概念和技术,亲身体验数据处理过程中可能遇到的问题和挑战。

4)时空解耦性。传统的大数据实践课程中,学生通常需要下载大数据集,这会受限于网络速度、存储容量的限制。交互式大模型使学生能够在线即时生成数据,使学生能够摆脱时间和空间限制,集中精力进行数据分析与处理。

2 交互式大模型驱动的大数据技术实践课程教学框架和流程

目前已经有很多交互式大模型,如OpenAI公司发布的用于与用户进行自然语言对话的大语言模型ChatGPT[7],阿里巴巴公司发布的用于模拟淘宝用户线上行为数据的虚拟淘宝引擎[8]DeepMind公司发布的用于模拟四足机器人、机械臂等实体行为数据的MuJoCo仿真引擎[9]等。利用这些交互式大模型软件,可以为大数据技术实践课程的教学方法提供支撑。交互式大模型驱动的大数据技术实践课程教学以交互式大模型与交互式数据为中心展开,其教学总体框架如图2所示。

首先,根据大数据应用需求,确定大数据技术领域、实际问题场景中学生需要掌握的技能,形成教学目标;基于教学目标,教学团队合理安排每次理论教学的内容,确定大数据实践案例的知识点,包括大数据概念、数据收集、数据清洗、分布式计算、机器学习等;在教学过程中,教师通过演示交互式大模型,引导学生如何在交互式环境产生交互数据和应用大数据技术解决问题,学生在教师的指导下进入交互式大模型环境,实际操作和验证案例;在教学阶段结束时,通过学生的学习效果和反馈意见,对交互式大模型驱动的大数据实践教学效果进行评价,根据评价结果对教学方案进行优化。

基于教学总体框架,设计交互式大模型驱动的大数据技术实践课程教学流程如图3所示,根据CDIO实践教学理念[10],开展交互式大数据实践项目的讲授理论、布置任务、构思框架、设计功能、实施模块和运作系统6个环节。首先,根据教学目标和要求,讲授课程任务背景和大数据实践课程中所需理论;其次,对于交互式大模型中的不同任务进行内容说明,让学生了解诸如自然语言对话、推荐系统、智能决策等任务需求,并让学生根据不同任务构建团队进行实践任务。

在构思框架中,学生在了解任务后,教师抛出问题“如何与交互式大模型交互?高效的并行化数据采集和处理分析的架构是什么?数据的流向、功能模块的布局是什么?”等核心问题,引导学生了解交互式大模型并构思系统的总体框架与设计,学生通过本环节的学习,以教师问题为引导,明确交互数据和分析处理系统的框架和开发需求。在设计功能中,学生明确了项目框架后,让其先完成系统交互接口、数据采集等功能概要设计,在此基础上,教师展示行业先进系统设计,让学生思考自己设计存在的不足,进而让他们改进原有的功能概要设计。在实施模块时,学生完成了功能设计后,在搭建与开发数据采集模块、数据处理模块和数据可视化模块时,教师拿出容易产生bug的测试样例,使学生在实施开发的过程中发现每个模块中设计与编码过程中的不足,从而继续改进。在运作系统中,学生完成了模块实施后,在整合功能模块和实现可视化运作部署的过程中,教师以性能测试和增加系统功能为例,使学生进一步思考系统的鲁棒性和可扩展性,若发现不合理之处,重新修改代码框架和系统功能。完成整个教学过程后,便于学生理解课程开始的任务背景和基础理论技术知识。

3 教学实施案例

大数据技术实践是我院数据科学与大数据专业大数据项目实践课程中的综合创新性实践项目,共32学时,主要培养学生在仿真系统中采集和处理分析数据的能力。以我院基于MuJoCo交互式大模型的大数据技术实践课程为例,本实践课程以MuJoCoMulti-Joint dynamics with Contact)交互式大模型[9]和强化学习技术为基础,开展面向交互式大模型的并行化数据采集、基于强化学习的数据处理、系统开发与可视化部署3个教学项目,每个教学项目的教学目标和学时见表1

为了更好地体现交互式大模型驱动的大数据技术实践课程教学特性,突出以交互数据解决项目问题的理念,着重介绍教学过程中的以引导问题构思体系、以发现问题设计功能、以解决问题实施模块和以扩展问题运作系统这4个环节,将基于MuJoCo交互式大模型的大数据技术实践分解为若干可描述、可操作的任务,在每个任务中以问题驱动提升完成质量。

在学生了解项目内容后,引导学生了解MuJoCo仿真引擎,并构思系统的总体框架与设计。学生通过网络检索等方式,了解到MuJoCo仿真引擎能够生成机器人运动的仿真数据,经过分析和处理,用于机器人控制算法的设计与评估,目前数据的采集和处理系统大多采用单线程方式,对其进行并行化的采集和处理较少。学生通过本环节的学习,以教师问题为引导,明确数据并行采集和分析处理系统的框架和开发需求。

在学生明确了项目框架后,教师展示行业先进系统设计让学生发现“采集模块能支持强化学习所有的训练范式吗?处理和分析模块支持强化学习算法的快速定制吗?如何实现策略训练和演示的快速切换?”这些核心问题,并改进原有的功能概要设计。学生根据并行化采集和强化学习数据处理框架,设计基于MuJoCo仿真引擎的数据采集、处理与可视化系统的功能(如图4所示)。

在学生完成了功能设计后,让学生解决“我开发的数据采集模块鲁棒性合格吗?我开发的强化学习算法能收敛吗?我开发的可视化模块符合用户使用逻辑吗?”这些核心问题,使学生在实施开发的过程中,发现每个模块中设计与编码过程中的不足,从而继续改进。学生通过本阶段的学习,以解决问题为导向,掌握并行化数据采集与强化学习处理数据方法,更好地实现系统的功能。

在学生完成了模块实施后,让学生扩展思考“我的系统运作时,可能会出现哪些意外,对应的输出是什么?我的系统运作时,如果需要增加功能模块,应该怎么扩展?”这些核心问题,使学生在运作部署系统的工程中进一步思考系统的可扩展性,若发现不合理之处,重新修改代码框架和系统功能。学生通过本阶段的学习,增强数据科学与大数据系统部署和应用能力,培养创新创业方面的素质。

数据科学与大数据专业实践类课程的每个教学环节都应具备过程性考核与评价,以检验学生是否达到了预期的教学目标。对于“基于MuJoCo交互式大模型的大数据技术实践”而言,在构思、设计、实施、运作4个环节中进行过程性考核,学生以3~4人为1组,具体的过程性考核评价方式见表2

4 教学实施成效

学生最终的成绩为五级制,分别为优秀、良好、中等、及格和不及格5个等级。将实验班与其他3个平行班级的最终成绩进行比较分析,成绩对比如图5所示。采用交互式大模型驱动的大数据技术实践课程教学授课的实验班,其优秀率、良好率和中等率均高于其他3个平行班的平均值,不合格率低于其他平行班的平均值。

大数据技术实践课程实验班与平行班能力增长对比如图6所示。学生能力增长的评价指标由以下6个方面构成:知识巩固、自驱力度、工程能力、团队合作、工作饱满和知识拓展,如果学生觉得该方面有收获则记为1,否则记为0。分别统计实验班与平行班每个方面记为1学生的占比,实验班的上述6个评价指标都高于平行班。

5 结 语

不同于其他计算机大类专业实践课程,数据科学与大数据专业对学生数据收集、分析、处理、可视化等各个环节都有要求,因此实践类课程的教学设计尤其重要。交互式大模型驱动的大数据技术实践课程以数据为核心要素,建立交互式大模型驱动的教学系统和教学总体框架,并以CDIO理念支撑各个实践教学过程,该模式应用于我院数据科学与大数据专业的实践课程教学中,实践成果验证了改革的有效性,未来还将在更多实际大数据应用的基础上作进一步的改进和优化研究。

参考文献:

[1] 高亚光. 用数据新要素激活高质量发展新动能[J]. 群众, 2020, 631(9): 13-14.

[2] 孙开伟, 邓欣, 王进. 新工科背景下数据科学与大数据技术专业实践教学体系研究[J]. 高教学刊, 2023, 9(14): 5-8.

[3] 梁晶, 胡新荣. Hadoop大数据开发课程实践教学研究[J]. 计算机教育, 2020(2): 166-169.

[4] 张晓明, 李海生, 陈明, . 基于OBE理念的大数据技术开发课程教学设计与实践[J]. 计算机教育, 2021(8): 166-170.

[5] 刘小俊. 基于Partov仿真引擎的“计算机网络”课程教学改革实践[J]. 黄冈师范学院学报, 2015, 35(6): 118-121.

[6] 钱莹, 李欣宜, 窦亮, . 基于超级计算机虚拟仿真实验系统的并行计算课程教学探索[J]. 计算机教育, 2022(10): 150-154.

[7] OpenAI公司. ChatGPT官方介绍[EB/OL]. (2022-11-30)[2023-08-24]. https://openai.com/chatgpt.

[8] Shi J C, Yu Y, Da Q, et al. Virtual-taobao: Virtualizing real-world online retail environment for reinforcement learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington D C: AAAI, 2019: 4902-4909.

[9] DeepMind公司. MuJoCo引擎官方介绍[EB/OL]. (2021-10-18)[2023-08-24]. https://mujoco.org/.

[10] 周美茹, 沈春宝, 纪春明.“教学做一体”的CDIO教学模式实践[J]. 职业, 2011(26): 145-146.

基金项目:国家自然科学基金项目“基于全局度量的非稳定环境强化学习探索方法研究”(62206133);第二批新工科研究与实践项目(E-JSJRJ20201317)。

第一作者简介:杨尚东,男,南京邮电大学讲师,研究方向为机器学习与人工智能,sdyang@njupt.edu.cn

引文格式:杨尚东,陈蕾,陈兴国,等.交互式大模型驱动的大数据技术实践课程教学探索[J].计算机教育,2023(11):55-59.

转自:“计算机教育”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com