以下文章来源于财会通讯 ,作者陈宋生教授等
陈宋生 教授 简介
北京理工大学管理与经济学院会计系主任、教授、博士生导师,全国会计领军人才,中国审计学会教育分会副秘书长,中国内部审计协会准则专业委员会副主任,中国会计学会会计信息化专业委员会委员。在《会计研究》《审计研究》《统计研究》《南开管理评论》及Journal of Business Research等期刊上发表论文数十篇,出版专著5部、教材与译著20多部。研究方向包括审计、内部控制、会计信息系统与盈余质量。
大数据、学科交叉
与会计研究:机遇与挑战
陈宋生1 (教授、博士生导师)
王朝晖2 朱乐琪3 王雪怡1
1.北京理工大学管理与经济学院
2.香港大学经管学院
3.哥伦比亚大学
《财会通讯》2023年第20期P3-10
【摘 要】文章试图在学科交叉趋势与大数据发展背景下讨论大数据技术对会计研究的影响。通过梳理近十年来国内外权威会计文献,整理出研究中使用的主要大数据采集和处理技术,并探讨大数据采集计数(网络爬虫)、处理技术(内容分析、网络分析、机器学习)、分析方法在会计学研究中的应用与挑战,阐述大数据处理技术可能的交叉应用,以期为会计学科发展与国家大数据建设提出建议。
【关键词】大数据;会计研究范式;机器学习;文本分析;社会网络分析
大数据推动下“第四研究方式”的出现为包括会计学在内的社会学科提供更高的数据起点和更广阔的方法论视角[1]。在新范式中,更依赖工具获取或者模拟产生数据。“万物皆智能”发展趋势缩短现实与虚拟世界之间的距离,构建起与现实社会平行的数据网络,为社会科学研究提供“取之不尽,用之不竭”的观测样本与观测值;大数据时代学术界出现“计量一切”观点,基于科学的大数据方法将会在预先占有大量数据基础上,得出之前未知结论[2]。会计学发展至今,研究对象不再仅局限于经济人假设下组织、企业资金运作,与金融学、经济学和统计学的交叉,形成了新会计理论和研究视角。大数据将在会计学的演化发展中起到催化作用,推进大数据应用将成为会计学未来新方向。本文讨论会计学研究中大数据实现问题与方法,面临的机遇与挑战。梳理近十年来国内外权威期刊中会计文献,探讨大数据采集(网络爬虫)、处理技术(内容分析、网络分析、机器学习)在会计中的应用与挑战,阐述不同大数据处理技术在会计研究的交叉应用,为会计学科发展与国家大数据建设提出建议。
一、学科交叉趋势下的
会计研究问题
交叉学科是在一定条件下,由两门或两门以上不同的学科,相互结合、相互作用、相互交叉,渗透融合而形成的新学科[3]。科学研究呈现出从高度分化走向交叉综合的趋势。现代学科交叉有不同模式:按交叉数量划分分为二元、多元交叉研究模式;按学科交叉视角分为宏观(一级学科)、中观(二级学科及分支学科)交叉研究模式、微观学科(分支学科构成部分)交叉研究模式。
20世纪60年代中后期,芝加哥大学Ray Ball,William Beaver,Philip Brown,Joel Demski,Ross Watts等为会计学术研究营造良好的创新氛围与文化[3]。新兴会计研究呈现跨学科的特征,例如,有效市场理论涉及金融学、经济学和统计学,并借鉴社会心理学和组织社会学的思想和方法。传统会计信息实际只是有关企业信息市场中的一部分,芝加哥大学的新型会计研究不再局限于会计本身,而是更加关注会计后果,以及在更广阔环境中的运行模式;研究对象不再局限于企事业单位经济活动中的资金运动,而是将作为会计实践主体的人,以及会计环境等纳入考虑。
目前会计交叉学科发展存在发展不完整问题。张先治和张晓东[4]发现,经济学类研究视角占比最多(高达70%以上);管理学类研究视角占比接近20%;社会学和信息研究视角占比较小,比率小于10%,这与管理学、社会学与会计学之间的密切关系不相称。以经济人假设为前提的经济学视角越来越难以解决愈加复杂的会计学问题;管理学与社会学所提供的社会人视角能让我们对会计行为和一系列会计现象进行更加完善的研究。
二、大数据背景下会计学研究范式
大数据背景下会计研究范式发生大的变动,包括数据获取、变量构建与各种回归检验需要重新审视。由于大数据技术的进步,非结构化数据的获取由不可能变为可能,由非结构化数据构造而得的变量更加丰富多彩。
(一)信息技术发展下会计研究背景:大数据
得益于信息技术的飞速发展,尤其是互联网与移动互联网技术的应用,大数据概念得以产生并发展。研究机构Gartner将大数据定义为海量多样化信息资产。大数据有“4V”特点:海量性(Volume)是指大数据是从各种渠道收集到的海量信息;高速性(Velocity)是指大数据的产生速度并不均匀,而是随着时间进行周期性的波动;多样性(Variety)是指大数据既包含数字型的结构化数据,也包含非结构化的文本、
、音频数据等;真实性(Veracity)是指大数据相较传统数据的信息密度低噪声大,导致信息失真,这些特点同时增加了大数据处理的难度,因此使用大数据之前需要进行数据清理。
目前研究主要集中在:技术方面,聚焦于获取、分析、整合大数据;资源方面,分析大数据可能产生的商业价值、相关的产权和法律问题;应用方面,分析其在商业、科研、医疗等领域的价值创造[2]。本文立足于大数据在会计学研究中的应用,梳理实现相关应用的具体技术与方法,并从资源共享、整合的角度为相关部门、机构提出意见。
(二)会计学研究范式与技术实现
从科学哲学来看,大数据出现正在促进科学研究范式的转变[1]。规范研究和实证研究是会计两种传统研究范式,前者目标在于规定“应该是什么”或“应该怎么做”,后者目标在于对现象的解释和预测(见图1)。基本会计准则日益完善的今天,规范会计研究的发展存在很大的局限性;而兴起的实证会计研究对于统计学的利用又受限于可获得经济信息的非充分性。大数据时代下,经济信息的广度与深度均得到极大程度上的拓展,而计算机技术的普及又降低人们使用技术获取信息、分析信息、创造信息的门槛,会计学研究中对大数据,以及大数据处理技术的需求也不断增加。
“每一个研究领域拥有大量信息化的数据”,这将促使“大部分人文社会科学具有自然科学的特征”[5]。这是在社会科学研究领域大数据将会带来革命性变革的重要预言。吉姆格雷总结:人类科学研究经历实验、理论和仿真三种范式,目前进入“数据密集型科学发现“第四研究范式[6]。米加宁等[1]指出,大数据在社会科学领域的应用使社会科学研究正在经历从定性研究、定量研究、仿真研究向大数据研究第四研究范式的转变(见图2)。当代实证会计研究范式主要依托于统计学,大数据允许放松统计模型的一些基本假设[2],如模型唯一性、正确设定与平稳性,从而扩大统计建模与推断的应用范围。大数据尤其是非结构化数据,如文本、
、音频等,带来很多传统数据不具备有价值的信息,拓展实证研究的范围与边界,催生新的统计模型与方法。
图3、图4列举了2000—2020年国内外会计研究中大数据应用刊文趋势,在内容分析、机器学习与网络分析方面都有显著提升。在已有研究中,数据库、数据接口、网络“爬虫”是数据获取的三种主要方式,数据获取方式为会计研究提供包括结构化、非结构化数据在内的大量原始分析材料。在非结构化数据中,内容分析法是最常使用的处理方法,基于该方法可以构建衡量情感、语调、可读性的有效指标;以社会网路分析为代表的网络分析方法同样受到关注,该技术通过一系列网络特征指标与可视化技术,丰富会计研究维度,突出“人”、“关系”在会计行为中的作用;机器学习技术为会计研究提供了“革命性”的分析手段,通过影响统计学,从根本上冲击传统的会计研究范式。
、音频等非结构化数据同样出现在了已有的会计研究中,但由于技术门槛、数据来源等方面的问题,这些技术在会计研究中尚未得到广泛应用,本文只作简要介绍。
三、大数据信息的获取方法
在会计研究中,学者大都依赖于现成的数据库。大数据环境下,从网上快速获得符合研究者特别需求的一手数据越来越重要。本文作如下回顾:
(一)数据库与应用接口
数据库指现成“按照数据结构来组织、存储和管理数据的仓库”。应用程序接口(Application Programming Interface,API)是一些预先定义的接口(如函数、HTTP接口),用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码。
对于会计学研究,除被广泛使用的数据库(如Wind,Csmar等),很多采用特殊数据集:如Da et al.[7]采用Google Insights for Search数据集中的词汇检索量指数(Search Volume Index, SVI)构建了投资者的关注度指数。Cziraki et al.[8]采用该指数相讨论注意力分配原理(Attention Allocation Theories)、Da et al.[9]探究投资者情绪对短期收益反转等相关问题;Drake et al.[10]采用SEC EDGAR中的Central Index Key(CIK)衡量投资者对历史财报数据的关注程度。俞庆进和张兵[11]采用百度指数检验投资者关注度与创业板股票市场表现相关性。“天眼查”“企信宝”等的上线也为企业信用评级、内部信息获取提供了新的可能性。
现有数据库仍然不能满足实际需求。首先,数据库内包含数据不应仅限于传统的经济数据。其次,数据的来源不应仅限于财务报表,所有公开、合法信息都具有价值挖掘的潜力和被整理、归纳的可能性。此外,数据库创建不能仅依赖于政府部门、科研机构,企业应积极与相关组织展开合作,整合和挖掘数据资源,以满足经济发展及科研需求。
会计研究中较少提及API。应用接口的使用通常有一定技术门槛,API在研究中通常只作为工具,提高研究者处理数据、分析数据的效率。相比传统方法,在一般研究中并未体现出明显的优势,但主流统计软件的研发方向说明大数据时代下API接口使用的必要性与趋势。计量软件STATA 17于2021年4月份正式发布,其中重要更新是开放PyStata命令,通过API接口在Python中调用Stata的命令,获取数据,并且返回结果,实现Stata与Python的无缝隙交互[12]。
(二)网络爬虫
网络爬虫(Web Spider)是一个形象的名字。如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。就审计视角而言,传统审计方法不能满足现有发展态势,借助爬虫技术充分采集客户外部公共数据。通过设计类似爬虫的程序收集审计意见并分类,构建审计意见数据库;借助网络爬虫提取并分析年报中管理层语调,并通过Python语言分析模块统计文中关键词频率;对客户政策、经营环境及关联方信息爬取,爬虫技术获取信息成为揭示客户舞弊的重要审计证据[13]。
爬虫技术在实务领域中的应用为研究提供更多议题。通过爬虫程序获取省级金融企业监管处罚数据,对客户进行全方位、立体画像,锁定审计目标,提升审计效率[14];应用爬虫技术补充数据,建立完善的数据库来解决外汇管理审计数据采集不完整、非现场分析不足等,以实现精准分析提升审计质效[15]。爬虫技术在税务稽查中的应用能够解决传统稽查工作获取信息渠道单一、内容有限的缺陷[16]。
爬虫技术在其他经济学领域的应用对会计研究也有一定启发。Xu et al.[17]研究媒体对企业环境违规事件的报道,如何通过影响股市情绪进而影响股东财富,利用网络爬虫获取中国173家公开上市公司的环境违法行为媒体报道数据[17]。由于数据所有权、真实性、敏感性方面的问题,以及爬虫技术具有一定的门槛,基于爬虫的大数据获取方法在会计、审计领域的应用依然未得到普及[18]。
四、数据分析方法与结果
网络数据有文字、图像与音频等多种格式,数据之间除了线性关系,还有非线性关系。在已有会计研究中,分析数据主要有内容分析、网络分析与机器学习三种方法。
(一)内容分析法
内容分析法是一种以研究人类传播的信息内容为主的社会科学研究方法。通过对文献内容“量”的分析,找出能够反映文献内容本质方面的指标,克服定性研究的主观性和不确定性缺陷。
词典法是会计研究中最常见的文本分析方法。词汇词典法运用于文本分析的科研实践,通过事先定义好的词汇词典,将文本中的文字根据含义及不同属性简化为不同类别。词典广泛应用于媒体、股市、管理层表述的情感分析。国外文献中用以测量媒体情绪所构建的衡量指标主要选用了Harvard字典、LM字典以及自主创建的字典[19-20]。对于中文内容,主要依靠学者独立构建词典[21-22]。关于文本复杂度,基于词典法的复杂性指标构建包含完整句比例、基础词汇表的词语在所有词汇中的比例、文章中汉字的平均笔画数[23-24]。词典法还可以用于构建宏观、微观层面的不确定性指数[25-26],并进一步研究不确定性对公司绩效、企业创新等方面的影响[27-28]。
基于词句字节的文本分析法是会计研究中直观且简单的分析途径。例如,使用迷雾指数衡量年报可读性可以研究年报可读性与盈利水平、投资者投资行为、分析师关注和预测行为、资本投资效率之间的关系[29-23]。
文本相似性同样受到学者的关注。目前用来衡量文本相似度的方法指标是余弦相似度(Cosine Similarity)。Brown & Tucker[30]使用向量空间模型(VSM)将公司当前的MD&A与上一年的MD&A进行比较,研究发现尽管该文本内容在不同年份相似度的变化很少反映与公司盈利相关的额外信息,但依然会影响投资者对于公司未来现金流的预期。Hoberg & Philips[31]则利用余弦相似度来衡量产品相似度,发现外生行业冲击会对相似企业数量、 产品差异性、企业生产的产品种类等产生重大影响。此外,使用该分类方法也可以解释行业内盈利能力、销售增长率、市场风险等不同特征的差异性。
已有会计研究存在方法目的不明确,分析过程与方法不正确、不完整的问题。从内容分析研究的系统模型视角来看,已有会计研究大都只对分析对象的频率、价值判断进行探索与应用,部分文献考虑了不同对象的权重,即重要程度,少有研究对分析对象之间的关系进行探索。从内容分析研究的实现目的来看:目的一是从信息内容推断信息传播者的态度,这也是会计研究中内容分析最常见的一种,例如通过分析新闻报道衡量媒体情绪、通过分析年报衡量管理者语调等表征等。此类内容分析研究的假定是,在大多数情况下,媒介信息相当程度上自然而然地表现了媒介或传播者的态度。已有会计研究在进行此类内容分析指标建构时,缺少对于文本位置特征的关注,例如可以设置头刊、副刊等类目,以反映报道的重要性,而此类特征也可能包含着信息释放方的态度;其目的二是从媒介内容推论传播效果,即其对受众的影响。例如,会计研究中对可读性、不确定性指标的建构。此类内容分析研究的假定是,人们会受到长期接触的某种媒介内容的影响。这一假设已得到传播学的理论支持。然而,传播学的其他理论指出:媒介内容对受众的影响不是直接的,而是有条件的。已有会计研究往往忽略了受众接触该内容的动机、态度,原有认识结构以及其他因素也将决定媒介内容的影响。因此,会计研究应对基于质化研究的文本结构(阐释性)分析给予足够多的重视,以解释其意义背后的“事实”。
(二)网络分析法
社会网络分析是网络分析法在会计研究的代表性应用之一。社会网络(Social Network)一般是指社会行动者及其间的关系所构成的集合。如果用图论表达,结点可以代表一个人或一个组织,线则代表互相的联结关系,一个社会网络由结点和线两种集合构成。社会网络分析中包含众多方法,每种方法的侧重点并不相同。
中心度分析是社会网络分析中常见的分析方法,是通过一个抽象、高度概括的社会学指标测度节点在网络中的位置。节点网络位置的优势意味着节点可以利用与其有直接或间接关系的其他节点更多,节点可以通过这些关系更快或更有效地获取或传播更多信息,从而影响相关个体的行为决策[32]。对于整个网络的中心化程度则用程度中心势、接近中心势、中介中心势和特征向量中心势等指标来表示。在此基础上通过取平均值、标准化等方法构建的其他综合类网络特征指标可以减少单指标构建的不完整性[33]。通过中心度分析法构建的新参数往往用于解释某些会计现象,该研究方法在董事会任职的场景中运用较多。网络特征参数也适用于分析股票投资、审计所任职等交集场景形成的网络化关系情景[34-37]。中心度分析也被用于社会网络中节点的角色识别,该方法广泛用于识别具有审计风险的线索。石利芳等[38]针对公司舞弊的合谋特性,将复杂网络和社区发现应用在审计中,利用公司之间的联系建立社会网络,通过中心性度量和社区监测以发现重要的关联企业。赵琛[39]则利用复杂网络技术构建审计对象关系网络,将审计对象形式化,用网络图表示审计对象间的社会关系,并从中心性角度分析网络中不同节点的特性,以锁定重要节点,为下一步审计提供线索。
凝聚子群分析法是角色识别的重要途径。社会网络中存在关系密切的节点群,被称为凝聚子群,而对于凝聚子群的探查以及检验其是否具有其他社会属性的过程成为凝聚子群分析。此技术在会计领域的应用局限于审计的社团发现。在通过角色识别或其他手段确定线索人物之后,通过凝聚子群分析发现其所在的具有密切关系的子网络,进一步识别与其高度关联的其他对象,进而发现违规线索[40-41]。
社会网络的可视化技术是从数学中的图论发展而来,其运用图像直观展示了抽象的社会网络及其分析结果。可视化技术的基本原则之一是节点之间的距离应该尽可能地反映出节点之间联系的强度或数量。该技术与其他量化方法的结合,可为会计研究问题的解决提供更为可靠的证据[42-43]。
可以发现,社会网络分析方法在会计研究中的应用大多只停留在简单的网络特征变量构建释义。该应用将个体的社会关系简化为网络位置,作为附着于节点上的属性,没有关注网络关系的方向、强度、类型。同种关系因其位置的不同也会为不同个体带来程度不同的信息优势。例如,即使节点的中心度并不高,也会因为其位于“桥”的两端而处于信息传播的要塞。除此以外,很多文献将社会网络分析作为新型审计方法开展研究。但该类文献大多只是通过案例中审计过程与社会网络分析方法的匹配,推断该方法的可行性。系统的实证研究、操作指导的缺乏使社会网络分析在新型审计方法方面的应用停留在想法阶段,而未深入地形成规范。
(三)机器学习
“机器学习”已经成为计算机科学,尤其是人工智能领域的一个重要组成部分。机器学习可以分为三个主要类别:监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)。已有会计研究主要使用前两种。
关于监督学习方法。朴素贝叶斯广泛应用于投资者[22,44]、分析师情感分析[45],以及关注度指标的度量[46]。支持向量回归与支持向量机(SVM与SVR)广泛用于会计预测与舞弊预警[47-48],以及股市情绪研究[22]。神经网络应用于重大错误识别、欺诈识别、持续经营和财务困难[49-51]。Bao et al.[52]根据财务报表中的数据,使用集成式学习对财务欺诈进行预测。关于无监督学习方法。使用LDA模型或HDA模型被广泛应用于构建关注度指数、经济周期指数、风险信号及政府文件语调等研究指标[21,53-54]。K近邻分类器广泛应用于多情感分类[55]。此外,Thiprungsri[56]使用K均值聚类分析法帮助审计师评估团体寿命保险金额。
其他利用机器学习技术的研究由于使用的是较为独特的数据集,方法本身未得到普及,但研究仍有一定启示。例如,利用面部识别软件,基于神经系统科学(Neuroscience)理论研究面部可信度对点对点借贷(Peer-to-Peer Lending)中信托人决策、法律保护和信任博弈(Trust Games)等影响[57-59]。利用语音情感分析软件实现分层语音分析(LVA)技术,通过分析电话会议的音频文件来测量高管在盈余电话会议期间的管理情感状态[60]。机器学习对于会计研究在非结构化数据的处理方面仍具有巨大的潜力。
五、大数据技术交叉
在会计学研究中应用与展望
文本是典型非结构化数据,内容分析技术是典型非结构化数据转换方法,大都通过其进行变量构建。社会网络分析方法同样适用于描述一类非常特殊的数据,即社会网络关系。该方法除衡量个人、群体的网络表征构建变量,还对网络关系可视化描述。机器学习本质上是一个统计数据模型,寻找数据间关系做出预测、分类。学习的“材料”可是结构化数据,也可是非结构化数据;其所找关系即为模型;根据模型所做出预测结果既可用于变量或其他模型的构建,也可直接用于数据分析。三种大数据分析技术在会计研究中存在交叉的可能性与必要性。
(一)内容分析与机器学习
内容分析法有三个步骤:收集数据,清洗并转义数据,分析数据。大部分文本属于非结构化数据,只有人类可理解,而计算机很难处理,需要采用诸如字典法等将其转化成计算机可识别的结构化数据。机器学习与内容分析法的交叉应用可简化后者的流程并丰富结果。
朴素贝叶斯、支持向量机和神经网络是经济学研究中常用的机器学习方法,基于这三种有监督式学习方法语义分析也十分常见。利用朴素贝叶斯算法度量投资者关注度、投资者分歧指数、研究投资者情绪与股价和股票交易量及关注度之间关系[45-46,61-62]。相似算法也适用于度量管理层语调、分析师情绪等指标[44]。
非监督式学习方法同样在内容分析法中得到大量应用。最典型是基于非监督式LDA算法建立的主体分类模型,该方法不需要预先设定、标记主体,而是将主体个数作为未知模型参数,并结合贝叶斯非参数技术估计。LDA模型可将每篇文档的主题以概率分布形式给出,其中每个主题对应一类词语分布,根据词语分布挑选出一些关键词对该主题描述[63],进而利用该模型构建关注度指数、经济周期指数、风险信号及政府文件语调等指标[21,64-65]。
(二)内容分析与网络分析
典型内容分析法中词组分析单元可直接作为网络中的节点以及节点属性。类似技术交叉首先在图书情报学中得到应用。例如,陈映雪等[66]对网络新闻数据内容分析,建立信息数据库并发现中国城市网络信息关系呈现出“一超多强”的空间极化不对称格局。
结合内容分析与网络分析被应用于会计学研究中,戚聿东等[67]通过对年报内容分析,确定其中关于数字化相关语言的表述特征,利用Gephi对绘制关键词关联度图谱,依据相关性对关键词分类,采用词典法衡量企业数字化程度;袁野等[68]使用该方法对我国人工智能产业政策量化研究。内容分析法与网络分析法在会计学领域交叉应用,内容分析方法只扮演着类似于“爬虫”简单角色,而网络分析作用也只停留在可视化、关系度分析等,两者的交叉应用仍有较大的发展空间。
(三)网络分析与机器学习
目前国内外尚缺少综合使用这两项技术的研究。理论上,类似于内容分析法,网络分析的一个重要功能在于对包括社会关系在内的非结构数据转化,以此来满足对于不同问题的研究需要。因此,无论是通过网络分析法构建出的网络节点特征还是网络整体特征都可以作为机器学习的“材料”,在相应的研究中发挥作用。
六、机遇与挑战
在“ABCD”(人工智能Artificial Intelligence,区块链Blockchain,云计算Cloud Computing、大数据Big Data)时代,模型的作用减弱,事物之间的相关性往往可以基于算法和海量的数据进行预测[69]。但因果性才是我们认识复杂世界的关键,“ABCD”所揭示相关性不能替代因果性[70]。大数据时代会计理论甚至更加重要。Simek指出,在管理学研究中需要特别注意,大数据不能替代严谨的实验设计与对研究问题的细致考虑;基于大数据的研究应该具有透明性、可操作性、可重复性;变量的构建与选取必须遵循理论的引导;运用对于包括机器学习在内的大数据分析技术时,研究者应该打开“黑箱”(Computational Black Box),全面阐述技术的原理与过程。
2017年美国国家科学基金委员会(NSF)等六部门联合推出大数据计划,旨在提升从大数据中获取知识与洞见的能力。我国在大数据领域存在几个明显不足:大数据基础设施不够完善,体现在数据库数量不足、种类不够丰富、数据来源单一;大数据应用意识薄弱,体现在国内应用结合大数据技术的研究明显少于国外研究,出现时间晚于国外研究;大数据辅助分析工具匮乏,体现在国内尚缺少可以与国外研究中使用的
、音频分析软件所对标的应用工具。相关部门、组织机构应该着力建立更加完善的大数据共享体系。除必要资源投入,政府还应致力于激活大数据的市场潜力,调动企业对于大数据相关建设的积极性。让学者、实务人员能够便捷地获取、分析大数据;让大数据在会计学科研与实务领域发挥出更强大的驱动力。尤其是ChatGAP、垂直模型的应用纷至沓来,未来将呈现出更不一样的局面,大数据的应用将有更多的期待。
参考文献
[1]米加宁,章昌平,李大宇,林涛.第四研究范式:大数据驱动的社会科学研究转型[J].学海,2018(2):11-27.
[2]洪永淼,汪寿阳.大数据、机器学习与统计学:挑战与机遇[J].计量经济学报,2021,1(1):17-35.
[3]于玉林.现代会计交叉学科发展概论[M].北京:中国人民大学出版社,2015:403.
[4]张先治,张晓东.会计学研究视角与研究领域拓展——基于国际期刊的研究[J].会计研究,2012(6):3-11.
[5]King G.Restructuring the Social Sciences:Reflections From Harvard's Institute for Quantitative Social Science[J].Ps,Political Science & Politics,2014,47(1):165-172.
[6]Hey A J,Tansley S,Tolle K M.The Fourth Paradigm:Data-Intensive Scientific Discovery[M].Microsoft Research Redmond,Wa,2009.
[7]Da Z,Engelberg J,Gao P.In Search of Attention[J].The Journal of Finance,2011,66(5):1461-1499.
[8]Cziraki P,Mondria J,Wu T.Asymmetric Attention and Stock Returns[J].Management Science,2021,67(1):48-71.
[9]Da Z,Engelberg J,Gao P.The Sum of All Fears Investor Sentiment and Asset Prices[J].The Review of Financial Studies,2015,28(1):1-32.
[10]Drake M S,Roulstone D T,Thornock J R.The Usefulness of Historical Accounting Reports[J].Journal of Accounting & Economics,2016,61(2-3):448-464.
[11]俞庆进,张兵.投资者有限关注与股票收益——以百度指数作为关注度的一项实证研究[J].金融研究,2012(08):152-165.
[12]Stata.Pystata-Python and Stata[eb/ol].
Https://www.stata.com/new-in-stata/pystata/.
[13]王秋菲,栾丹,张洛迪.网络爬虫技术获取审计证据的应用研究——以亚太实业审计为例[J].会计之友,2020(17):131-136.
[14]张松,唐艳双,李怀宇.基于Go语言的数据分析技术在金融行业内部审计中的应用[J].中国内部审计,2020(6):46-51.
[15]金满涛,张玉琴.网络爬虫技术在外汇管理审计领域的运用[J].中国内部审计,2020(7):46-47.
[16]张福伟.爬虫技术在税务稽查中的应用与思考[J].税务研究,2017(12):121-122.
[17]Xu X D,Zeng S X,Zou H L,et al.The Impact of Corporate Environmental Violation on Shareholders' Wealth:A Perspective Taken from Media Coverage[J].Business Strategy and the Environment,2014,25(2):73-91.
[18]Earley C E.Data Analytics in Auditing:Opportunities and Challenges[J].Business Horizons,2015,58(5):493-500.
[19]Tetlock P C.Giving Content to Investor Sentiment:The Role of Media in the Stock Market[J].The Journal of Finance (New York),2007,62(3):1139-1168.
[20]Garcia D.Sentiment During Recessions[J].The Journal of Finance,2013,68(3):1267-1300.
[21]王靖一,黄益平.金融科技媒体情绪的刻画与对网贷市场的影响[J].经济学(季刊),2018,17(4):1623-1650.
[22]Li J,Chen Y,Shen Y,et al.Measuring China's Stock Market Sentiment[J].2019.
[23]Ertugrul M,Lei J,Qiu J,Et Al.Annual Report Readability,Tone Ambiguity,and the Cost of Borrowing[J].Journal of Financial and Quantitative Analysis,2017,52(2):811-836.
[24]丘心颖,郑小翠,邓可斌.分析师能有效发挥专业解读信息的作用吗?——基于汉字年报复杂性指标的研究[J].经济学(季刊),2016,15(4):1483-1506.
[25]Baker S R,Bloom N,Davis S J.Measuring Economic Policy Uncertainty[J].The Quarterly Journal of Economics,2016,131(4):1593-1636.
[26]Handley K,Li J F.Measuring the Effects of Firm Uncertainty on Economic Activity:New Evidence from One Million Documents[M].National Bureau of Economic Research,2020.
[27]王红建,李青原,邢斐.经济政策不确定性、现金持有水平及其市场价值[J].金融研究,2014(9):53-68.
[28]顾夏铭,陈勇民,潘士远.经济政策不确定性与创新——基于我国上市公司的实证分析[J].经济研究,2018,53(2):109-123.
[29]Loughran T,Mcdonald B.Measuring Readability In Financial Disclosures[J].2014,69(4):1643-1671.
[30]Brown S V,Tucker J W.Large-Sample Evidence on Firms’Year-Over-Year Md&A Modifications[J].Journal of Accounting Research,2011,49(2):309-346.
[31]Hoberg G,Phillips G.Text-Based Network Industries and Endogenous Product Differentiation[J].The Journal of Political Economy,2016,124(5):1423-1465.
[32]蔡宁.社会关系网络与公司财务研究述评[J].厦门大学学报(哲学社会科学版),2018(4):38-46.
[33]夏常源.独立董事网络治理与盈余信息质量的关系研究[D].西南财经大学,2014.
[34]Hong H,Xu J.Inferring Latent Social Networks from Stock Holdings[J].Journal of Financial Economics,2019,131(2):323-344.
[35]Ozsoylev H N,Walden J,Yavuz M D,et al.Investor Networks in the Stock Market[J].The Review of Financial Studies,2014,27(5):1323-1366.
[36]陈新春,刘阳,罗荣华.机构投资者信息共享会引来黑天鹅吗?——基金信息网络与极端市场风险[J].金融研究,2017(7):140-155.
[37]肖欣荣,刘健,赵海健.机构投资者行为的传染——基于投资者网络视角[J].管理世界,2012(12):35-45.
[38]石利芳,仇丽青,孙晓红.复杂网络和社区发现在财务和审计中的应用[J].现代商业,2015(5):248-249.
[39]赵琛.审计对象关系网络构建方法研究[J].审计研究,2016(6):36-41.
[40]吕天阳,邱玉慧,殷鹏.审计社会网络分析的理论、特征及实践路径[J].财会月刊,2020(13):103-111.
[41]姜晓依.基于社会网络的新型审计方法研究[J].市场周刊,2019(1):64-65.
[42]张俊瑞,陈怡欣.中国两岸四地会计研究的国际化:内容、方法与视角——基于12种国际顶级会计期刊的计量分析[J].统计与信息论坛,2018,33(8):118-128.
[43]颉茂华,王娇,张婧鑫,袁岚.管理会计学40年:研究主题、方法和理论应用的可视化分析[J].上海财经大学学报,2020,22(1):51-65.
[44]Huang C,Zheng X,Tait A,et al.On Using Smoothing Spline and Residual Correction to Fuse Rain Gauge Observations and Remote Sensing Data[J].Journal of Hydrology (Amsterdam),2014,508:410-417.
[45]Das S R,Chen M Y.Yahoo! For Amazon:Sentiment Extraction from Small Talk on the Web[J].Management Science,2007,53(9):1375-1388.
[46]Antweiler W,Frank M Z.Is All That Talk Just Noise? The Information Content of Internet Stock Message Boards[J].The Journal of Finance(New York),2004,59(3):1259-1294.
[47]Fischer J A,Pohl P,Ratz D.A Machine Learning Approach to Univariate Time Series Forecasting of Quarterly Earnings[J].Review of Quantitative Finance and Accounting,2020,55(4):1163-1179.
[48]Frankel R M,Jennings J N,Lee J A.Using Natural Language Processing to Assess Text Usefulness to Readers:The Case of Conference Calls and Earnings Prediction[J].The Case of Conference Calls and Earnings Prediction,2017.
[49]Coakley J R,Brown C E.Artificial Neural Networks Applied to Ratio Analysis in the Analytical Review Process[J].International Journal of Intelligent Systems in Accounting,Finance & Management,1993,2(1):19-39.
[50]Fanning K M,Cogger K O.Neural Network Detection of Management Fraud Using Published Financial Data[J].Intelligent Systems in Accounting,Finance & Management,1998,7(1):21-41.
[51]Coakley J R.Using Pattern Analysis Methods to Supplement Attention Directing Analytical Procedures[J].Expert Systems with Applications,1995,9(4):513-528.
[52]Bao Y,Ke B,Li B,et al.Detecting Accounting Fraud in Publicly Traded Us Firms Using a Machine Learning Approach[J].Journal of Accounting Research,2020,58(1):199-235.
[53]Hansen S,Mcmahon M.Shocking Language:Understanding the Macroeconomic Effects of Central Bank Communication[J].Journal of International Economics,2016,99:S114-S133.
[54]Hansen S,Mcmahon M,Prat A.Transparency and Deliberation within the Fomc:A Computational Linguistics Approach[J].The Quarterly Journal of Economics,2018,133(2):801-870.
[55]杨晓兰,沈翰彬,祝宇.本地偏好、投资者情绪与股票收益率:来自网络论坛的经验证据[J].金融研究,2016(12):143-158.
[56]Thiprungsri S.Cluster Analysis for Anomaly Detection in Accounting[M].Rutgers Studies in Accounting Analytics:Audit Analytics in the Financial Industry.Emerald Publishing Limited,2019.
[57]Porter S,Ten Brinke L,Gustaw C.Dangerous Decisions:The Impact of First Impressions of Trustworthiness on the Evaluation of Legal Evidence and Defendant Culpability[J].Psychology,Crime & Law,2010,16(6):477-491.
[58]Tingley D.Face-Off:Facial Features and Strategic Choice[J].Political Psychology,2014,35(1):35-55.
[59]Schlicht E J,Shimojo S,Camerer C F,et al.Human Wagering Behavior Depends on Opponents' Faces[J].Plos One,2010,5(7):e11663.
[60]Mayew W J,Venkatachalam M.The Power of Voice:Managerial Affective States and Future Firm Performance[J].The Journal of Finance,2012,67(1):1-43.
[61]Kim S,Kim D.Investor Sentiment from Internet Message Postings and the Predictability of Stock Returns[J].Journal of Economic Behavior & Organization,2014,107:708-729.
[62]段江娇,刘红忠,曾剑平.中国股票网络论坛的信息含量分析[J].金融研究,2017(10):178-192.
[63]沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学(季刊),2019,18(4):1153-1186.
[64]Thorsrud L A.Words are the New Numbers:A Newsy Coincident Index of the Business Cycle[J].Journal of Business & Economic Statistics,2020,38(2):393-409.
[65]Hanley K W,Hoberg G.Dynamic Interpretation of Emerging Risks in the Financial Sector[J].The Review of Financial Studies,2019,32(12):4543-4603.
[66]陈映雪,甄峰,王波,邹伟.基于微博平台的中国城市网络信息不对称关系研究[J].地球科学进展,2012,27(12):1353-1362.
[67]戚聿东,蔡呈伟.数字化对制造业企业绩效的多重影响及其机理研究[J].学习与探索,2020(7):108-119.
[68]袁野,于敏敏,陶于祥,龚振炜,刘继明.基于文本挖掘的我国人工智能产业政策量化研究[J].中国电子科学研究院学报,2018,13(6):663-668.
[69]Anderson C.The End of Theory:The Data Deluge Makes the Scientific Method Obsolete [J].Wired Magazine,2008,16(7):16-17.
[70]Mazzocchi F.Could Big Data Be the End of Theory in Science? A Few Remarks on the Epistemology of Data-Driven Science[J].Embo Reports,2015,16(10):1250-1255.
基金项目
本文系北京市社科基金重点项目(项目编号:21GLA012)阶段性成果。
合作作者简介
王朝晖,香港大学经管学院经济学研究生,本科就读于北京理工大学。参与多项国家级研究课题及国际案例撰写工作。研究方向为产业组织经济学、计算社会科学。
朱乐琪,哥伦比亚大学商学院会计与基本面分析研究生,本科就读于北京理工大学。参与多项国家级科研课题,在IEEE Sensors Journal(SCI Q1)杂志发表论文一篇。研究方向为大数据技术与会计研究的交叉应用。
王雪怡,北京理工大学管理与经济学院学士、硕士。
来源:《财会通讯》2023年第20期P3-10
转自:“会计学术联盟”微信公众号
如有侵权,请联系本站删除!