用 EXCEL 做数据分析?Nature 教你 6 个使用技巧
2023/2/20 11:10:19 阅读:123 发布者:
很多数据分析师认为用 EXCEL 做数据分析非常过时,但 EXCEL 虽然基础却功能强大,是科研必备工具。快来看看 Nature 教的,电子数据表格的正确打开方式!
EXCEL 里面的数据是互相联动的,一旦某个数值改变,其他关联数据也会自动更新,更实用,更智能,更直观,更通用。马萨诸塞州波士顿 R 软件的开发总监 Tracy Teal 甚至表示,EXCEL 是「数据科学的起点」。
下面,我们就来看看,来自专业数据分析师的 6 个 EXCEL 使用小技巧。
1. 保留原始数据
俄亥俄州肯特州立大学的计算生态学家 Christie Bahlai 在给生态学家开展「EXCEL 数据分析课程」时,她的第一条建议是「保留原始数据的完整性」。
Bahlai 认为 EXCEL 虽然简单易上手,但也非常容易出错。因为 EXCEL 难以追溯操作路径,一旦保存错误容易功亏一篑。而且,正因为很多数据是相互联动的,还不好直接删除。Bahlai 建议在处理数据的时候把原始文档设置为「只读」,并保存副本,这样出现问题能随时重新开始。
2. 以机读数据表示
EXCEL 有大量的格式选项,从字体样式、背景填充到边框等等,虽然经过美化的表格看起来更漂亮,但计算机难以识别不同的单元格格式,如果后续我们要用不通的格式来区分编码不同的数据时,则会十分繁琐。杜克大学的 Mine Çetinkaya-Rundel 建议创建「可分类或筛选的数据列」来代替花哨的表格形式。需要长期分析或者二次处理的数据,如果不把格式标识清晰,真的很容易忘记!
3. 保持一致性
如果我们要使用数据分析工具处理数据,那么 EXCEL 就要有具有固定的格式,行、列作为标题,每页一张表格。例如,如果我们要记录「3 只红甲虫」,那么代表数量的「3」单独一列,代表品种的「红甲虫」单独一列,这样更为清晰。而且,最好每个单元格都要填满,如果没有数据,可以填写 N/A 作为区分。
记录的格式有很多,但是一定要选择不容易产生歧义的方式。比如「2/1/2022」是指 2022 年 2 月 1 日还是 1 月 2 日呢?大多数专家建议要么使用国际标准化组织标准的 YYYY-MM-DD 格式,要么单列年月日。
最重要的是格式确定之后,处理过程中全都要保持一致。
4. 记录你的每一步工作
记录相关缩写、数据如何收集、度量单位、缺失值的表示方法、执行的计算以及理解、处理和维护电子表格所需的任何元数据。也就是说,写下对数据所做的所有操作,比如每个公式的作用是什么,它的数据来自哪里。在 EXCEL 中,也可以使用【审计】功能来查看公式中的数据公式。
5. 反复核对数据
哪怕是专业的数据分析师,也会对于数据反复进行交叉核对。我们也可以使用「保护」功能,确保电子表格的重要部分内容不被修改,并应用【数据验证】以确保日期列包含有效日期,部分数值在一定范围内,或文本字段包含预期的术语。另外,建议使用 EXCEL 中的【记录单】功能录入,这样在输入前如果数据错误能提前发现并修正,降低丢失数据等错误的风险。
图 3:将【记录单】命令添加到当前显示的选项
6. 提前构思数据用途及使用场景
最好是在创建电子表格之前先弄清楚你希望用你的数据做什么。你将使用哪些变量和协变量?你需要什么步骤?对于数据将进行哪些分析?并且综合考虑到多种角色和多种使用场景,构建合理的布局或者呈现形式。毕竟表格的出现就是为了解决协作的问题,所以从构建表格的那一刻就开始思考,后续会更加高效。
原文链接:
https://www.nature.com/articles/d41586-022-02076-1?WT.ec_id = NATURE-20220804&utm_source= nature_etoc&utm_medium = email&utm_campaign = 20220804&sap-outbound-id = 9206C2BBD00DFC818AB5F029BADED5B39E8C5943
转自:“丁香学术”微信公众号
如有侵权,请联系本站删除!