投稿问答最小化  关闭

万维书刊APP下载

基于大数据专业贯通的数据采集与集成课程实验体系设计

2023/3/1 8:45:32  阅读:153 发布者:

0 引 言

在大数据时代的背景下,产生大量数据采集和分析的需求,也因此产生了对相关人才的巨大需求[1]。以数字化和网络化为基础的信息采集和数据集成技术因其具有超越时空界限、双向信息沟通等特点,将改变传统的信息获取和交流方式,为经济发展提供原动力[2]

数据和分析方法是大数据分析中最为核心的两部分。要有好的分析结果,需要好的分析方法和分析手段,也需要高质量的数据,而如何获得高质量的数据,是数据采集与集成这门课程所关注的。该课程作为有效衔接数据和分析的桥梁,是大数据分析专业中一门十分重要的课程。

数据采集与集成课程要求学生了解信息采集的基本知识以及信息采集技术及其发展,掌握采集各类信息的方法,能够进行数据内容采集。该课程是从事大数据相关采集、集成、分析和网络信息开发工作的基础[3],作为大数据专业的一门实际应用性较强的专业课,对培养信息获取及处理方面的人才起着重要的作用[4]。为此,课程在完成基本理论教学任务的同时,应按照理论与实践结合、前后课程贯通、实验有机衔接的思路设计一套专业贯通的实验体系,通过课堂实例教学、课程实验和大作业,全方位强化学生的能力。

1 数据采集与集成课程简介

1.1 课程体系

课程内容包括Web技术、数据采集技术、数据集成初步技术。课程体系包括了3个模块(图1),采用理论教学、实例分析和上机实验等形式,帮助学生准确理解网络环境下数据采集的编程模型和工作原理,掌握数据采集和集成的技能,使学生通过项目、实验等实践巩固基本知识,理解相关理论,掌握数据采集和集成的方法与技巧,拥有对大数据进行数据采集和集成的设计思想。

1.2 课程教学目标

教学目标1:了解信息采集领域、数据的来源、数据的类型、数据采集法律。

教学目标2:理解Web系统信息组织方式及相关开发技术,掌握网络数据采集相关技术以及日志数据采集、物联网数据采集等技术。

教学目标3:理解大数据环境下数据集成相关的机遇与挑战,掌握模式对齐、记录链接、数据融合等相关数据集成技术。

教学目标4:掌握应用Python等语言、关系型数据库、非关系型数据库等实现数据采集与集成的方法和技巧。

2 基于大数据专业贯通的实验体系设计

2.1 实验体系设计思路

对于实验体系的设计,在遵照基本教学规律的前提下,要建立明确的目标和确立基本设计思路,进行针对性的设计,以加深学生对于理论的理解,同时提升实践能力。实验体系设计目标设置为通过教学巩固理论知识,增强实践能力,促进学生自主探索和思考,发现不同方法的适用性,从而编程解决实际工程问题,并能归纳、总结、演示,最终与毕业达成目标一致。

实验体系设计遵循理实融合、横向贯通、纵向融合、外延拓展的思路(图2)。

1)理实融合。

“理”即理论教学亦指学校,“实”即实践教学亦指社会,“理实融合”既是理论与实践相融合,又是学校与社会相结合。在实验体系设计上,针对主要知识点要有对应的实验和案例,考虑到社会对相关人才的需求,实验中涉及的案例设计、管理过程甚至开发工具都应与企业开发实践一致。

2)横向贯通。

大数据专业实验课程量大,某些科目间联系密切,在实验体系的设计中,基于大数据专业贯通的思想实现该课程承上启下的效果。要充分运用前序课程的知识,又能为后继课程奠定基础、有一定的启发作用。大数据专业的学生在学习本课程前,已进行过数据科学导论、数据结构与算法、计算机系统基础等课程的学习,这些课程作为前序课程,为学生奠定了学习数据采集与集成的基础。而在本课程之后,学生将会继续学习探索性的数据分析与可视化、机器学习、人工智能原理与技术等课程,这些课程作为后继课程,将进一步强化学生对数据的应用和分析能力。

3)纵向递进。

总体的实验设计本着贯穿不同层次知识点的思想,保证前序实验内容逐步迁移到下一知识层次。在设计实验时先考虑原理实验,再考虑应用和扩展。要求在设计时按照层次结构对实验课程进行分层,如图2所示,实验体系中主要包括数据认知、数据采集、数据集成和综合应用相关实验。

4)外延拓展。

实验设计立足于大数据专业,鉴于大数据专业与各学科广泛交叉,大多应用于专业领域,因此,在实验设计时应考虑案例引导,比如结合土木专业的智能制造、结合材料专业的材料分析,在综合实验时也应引导学生进行专业交叉,如结合土木、材料、交通、环境等应用,并给出相关的参照案例。

2.2 实验体系设计层次

根据大数据体量大、速度快、类型多、价值大的特点,课程在设计实验的时候,按照数据认知、数据采集、数据集成与数据分析的层次来进行递进,让学生能一步一步地了解并深入掌握数据采集与集成课程的核心知识,以及通过实验操作进一步巩固加深。

课程实验设计分为4个层次:数据认知案例、数据采集案例、数据集成案例、数据分析案例。案例设计依次递进、紧密联系,分为理论、应用、提高、综合。实验体系组成结构如图3所示。数据认知案例主要结合理论知识进行,包括万维网原理分析、数据库设计、智能传感器原理分析实验;数据采集案例注重对采集基本方法的使用,包括互联网(天气信息)数据采集、物联网(传感器)数据采集、日志数据采集和图像数据采集实验;数据集成案例为相对综合的实验,包括企业数据集成、天气数据与图像文件集成实验;数据分析案例即综合实验,引导学生结合个人兴趣和专业,考虑热点问题或待解决问题,选择网站、物联网信息、系统日志信息、地理信息等,进行数据采集、处理、展示,解决生产、生活中的问题。

2.2.1 数据认知

对所有从事数据相关工作的人员而言,最基本的一个问题是数据认知。在真正开始分析或建模前,必须对数据进行一定的审查和认知。通常,数据认知大致可以分为以下几个方面:数据质量检查、数据类型认知、指标值统计。数据采集与集成课程在实验设计过程中,也要考虑到数据认知相关的知识,首先让学生理解要采集的数据是什么、数据的具体类型是什么。

在数据认知阶段,设计对传感器数据的认知、对于结构化数据和非结构化数据的认知、对万维网数据的认知、对日志数据的认知等内容。在传感器数据实验中,介绍传感器的原理、智能传感器、无线传感器和传感器采集系统。在数据库实验中,巩固数据库知识和对结构化与非结构化数据的认知。在万维网原理分析实验中,介绍网络数据特点、日志的数据形式及具体的产生流程等内容。

2.2.2 数据采集

在数据采集模块,综合考虑多种数据类型以及多种数据来源,让学生通过实践操作进行对多源数据的采集,涉及的数据类型包括数值信息、图像信息和时间序列信息等,所涉及数据的来源包括网页数据、开源数据和仿真数据等。比如,网络采集实验对城市天气信息、物联网信息、图像信息、日志信息进行采集,并针对已有数据集进行平台仿真模拟等。

以网络数据(天气)采集为例,针对网页包含的时间序列信息,设计实验如下。

1)实验介绍。

对中国天气网(www.weather.com.cn)进行分析,采集某个城市天气以及和该城市关联的所有网页并存储。

2)实验目标。

1)了解HTML文档结构;

2)了解深度优先算法和广度优先算法;

3)掌握网站遍历和数据采集方法;

4)掌握PythonBeautifulSoup用法。

3)实验步骤。

1)浏览中国天气网,查看网页源代码,分析网页结构;

2)定位目标数据,分析目标数据在网页中的特征;

3)学习BeautifulSoup库,编写Python脚本,提取目标数据;

4)编写Python脚本,将数据存入数据库中。

4)实验要求。

1)简单分析网页源代码;

2)编写Python脚本,实现中国天气网的数据爬取;

3)撰写实验报告。

2.2.3 数据集成

在采集到可靠的数据之后,由于数据可能存在不同类型,来自不同数据源,彼此之间独立且封闭,将会形成“信息孤岛”而导致无法实现快速有效的共享,这会对后续的分析处理造成很大的影响。因此,须针对采集的数据进行高效合理的数据集成,使得数据之间能够很好地交流、共享和融合。数据集成,指的是把一组自治、异构数据源中的数据进行逻辑或物理上的集中,并对外提供统一的访问接口,从而实现数据的全面共享。数据集成所要解决的首要问题是多个数据源之间的异构性。

在数据集成阶段,本课程设计了“企业数据集成”和“天气数据集成”两个实验来帮助学生加深理解。以天气数据集成为例,针对前序实验采集的天气预报数据,学生要根据不同的数据类型进行分析,选择合适的集成方法对多类型的数据进行集成,在天气预报中获得的数据主要包括地理位置信息、温度信息、空气质量、降水量、风力、湿度等,同时包含结构化数据和非结构数据,甚至还会有对应的图像数据,考虑到后续的数据综合分析,须针对数据进行合理的集成。

2.2.4 数据分析

大数据时代,对于高价值、大体量、高复杂度的数据进行分析有很大的应用价值,在完成了数据的采集和集成之后,学生要实现对数据的分析和处理。在实验设计环节设计开放实验,鼓励学生结合个人兴趣和专业,考虑热点问题或者待解决问题,选择网站、物联网信息、系统日志信息、地理信息等,进行数据采集、处理、展示,有效解决生产生活中的相关问题。这样设置既可综合前序实验内容,又可与后继课程如“机器学习”和“人工智能原理与技术”等进行衔接,体现数据的分析工作和算法的应用。

综合实验以参考的形式给出,起到案例和提示的作用,具体如下。

1)总体要求。

1)根据所学内容,主题自选;

2)用PythonC++等编写数据采集程序,获取数据;

3)对所采集的数据进行文本分析、图分析,生成词云、热力图等可视化形式;

4)对文本分析结果进行解释说明;

5)撰写报告。

2)可选内容举例1

1)选取合理的法规相关网站进行信息采集;

2)对所采集的法规信息进行分析,生成分析结果;

3)对分析结果进行展示说明。

3)可选内容举例2

1)调研了解房价变化的背景与意义;

2)编写爬虫程序,对网站上的房价信息进行采集;

3)对采集的房价信息进行分析;

4)针对分析结果进行说明。

2.3 试验环境

本实验设计不强制指定实验环境和工具,学生可根据自身情况进行选择,建议实验环境和工具如下。

1Python编译器如PyCharmAnaconda等;

2)网页浏览器如Google ChromeFireFox等;

3)数据库软件如SQL ServerMySQL等;

4)项目管理工具——Git

5)部分项目数据来源——自建模拟平台。

3 实验体系教学应用及效果分析

3.1 实验设置分析

1)实验与理论关系。实验设置按照层次进行,逐层递进,实验分别对应理论知识点(图2)。

2)实验与前后课程关系。实验利用前序课程的知识方法,同时向后续课程进行适当延伸(图2)。

3)实验与工程认证培养目标关系。实验设置充分考虑学生毕业培养目标,按照卓越工程培养方案对应达成目标进行设置,具体如图4所示。

3.2 实验应用验证

3.2.1 实验教学应用概况

课程开设两个学期,两届学生共计71人,课程实验采用平时实验和综合实验分开考核的方法,具体形式见表1

3.2.2 成绩分布

考核主要由平时成绩、实验成绩、综合实验成绩组成,平时和实验为相对固定的内容,总体完成情况良好,能充分反映学生对知识的理解。综合实验是扩展性实验,就已授课的两届学生的情况而言,除极个别学生课程考核不通过外,大部分学生都取得了优良的成绩评定。在两届学生提交的综合实验中除了基础的数据采集和集成外,技术方面涉及了图像处理、自然语言处理、图数据库等多项技术;涉及领域包括美食、房产、票务、游戏、体育;实验过程涉及数据采集、数据集成、数据存储、数据展示。以上技术、内容、过程充分体现了学生对基础知识的掌握以及运用这些知识进行实际应用、解决具体问题的能力。

4 结 语

随着信息量的爆炸式增长,大数据专业的重要性日益凸显。大数据专业的相关课程要与时俱进,更好地将理论与实践进行结合。数据采集与集成作为大数据专业课程体系中十分重要的一个部分,其课程建设有着举足轻重的作用。基于大数据专业贯通的数据采集与集成实验体系设计很好地起到了承上启下的作用,后续该课程将根据所设计内容进行实际教学,并继续收集资料和意见反馈,继续调整和完善教学内容、实验内容、教学及实验方法,为培养相应人才提供教学保障。

参考文献:

[1] 李鸿健. 大数据时代计算机专业实验教学改革研究[J]. 现代计算机, 2013(19): 29-31.

[2] 王元卓, 隋京言. 新工科背景下的大数据专业建设与人才培养[J]. 中国大学教学, 2018(12): 35-42.

[3] 郭玉臣, 卫志华, 塔力鹏·努尔巴合提. 面向学科交叉的数据采集与集成课程教学设计[J]. 计算机教育, 2021(8): 142-146.

[4] 卫志华, 孔思尹, 丁志军, . 新工科背景下数据挖掘课程综合性实验设计[J]. 计算机教育, 2020(3): 127-130, 135.

基金项目:国家重点研发计划项目(2021YFB3802001)。

第一作者简介:郭玉臣,男,同济大学助理研究员,研究方向为 Web 应用、嵌入式系统,Yuchenguo@tongji.edu.cn

引文格式:郭玉臣,卫志华,谢雨霞,等. 基于大数据专业贯通的数据采集与集成课程实验体系设计 [J].计算机教育,2023(1):126-131.

转自:“计算机教育”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com