投稿问答最小化  关闭

万维书刊APP下载

新传荐读 | 中文文本情感分析综述

2023/4/10 16:45:03  阅读:123 发布者:

中文文本情感分析综述

作者:魏韡 向阳 陈千

互联网中的博客、 论坛、 讨论组出现了大量的由用户发布的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论,或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考, 政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。这些主观性文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感,成为目前学术界研究的一个热点,这个热点的研究方向就是文本情感分析或称为意见挖掘。

文本情感分析是指对包含用户表示的观点、 喜好、 情感等的主观性文本进行检测、 分析以及挖掘。文本情感倾向分析作为一个多学科交叉的研究域,涉及包括自然语言处理、 计算语言学、信息检索、机器学习、人工智能等多个领域。文献[ 13] 对文本情感分析的目的、 主要任务以及主流技术做了简要的介绍,但主要是介绍针对英文的文本情感分析,对中文文本情感分析并没有重点介绍。本文主要介绍针对中文文本情感分析的主流方法与研究进展。

1 不同粒度的中文文本情感分析

11 词语的情感极性判别

判别词语的情感极性是文本情感分析的基础。为了定量地判别词语的情感极性, 通常用位于区间[ 11] 的某个实数作为情感权重表示词语的褒贬程度。通常如果情感权重大于 0,则词语为褒义词; 情感权重小于 0,则词语为贬义词。情感权重的绝对值越大则意味着词语的褒贬程度越大。词语的情感极性判别主要有基于语料库和基于词典两种方法。

基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。由连词连接的词语的情感极性存在某种关联, 比如由连词“和” 连接的词语的情感极性相同,由连词“但 是” 连 接 的 词 语 的 情 感 极 性 相 反。Yuen 等人[ 4] 利用 Turney 的点互信息,用小规模的语料库来判别词语的情感极性。具体算法是将情感极性已确定且情感色彩强烈的词语作为种子词,通过计算需要判断情感极性的词语与这些种子词的互信息。张靖等人[ 5] 建立基于二元语法依赖关系的情感倾向互信息特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感极性 。

基于词典的方法是利用中文词典 HowNet 提供的语义相似度或者层次结构来判别词语的情感极性。朱嫣岚等人[ 6]提出了基于 HowNet 的两种词语情感极性判别方法: 分别是基于语 义 相 似 度 和 语 义 相 关 场 的 方 法。实 验 表 明, 基于HowNet 语义相似度的方法比基于语义相关场的方法准确率更高,词频加权后的判别准确率可达 80% 以上。李纯等人[ 7]利用 HowNet中的对词语的定义与描述, 建立褒贬倾向比较强烈的词语组成种子词,并结合上下文的影响,采用一种计算方法来计算普通词与种子词之间的语义相似度来判别普通词的褒贬极性。杜伟夫等人[ 8] 提出了一个可扩展的词语语义情感极性计算框架,将词语语义情感极性计算问题转化为优化问题。通过基于 HowNet 提供的语义相似度和基于共现率的语义相似度构建词语的无向网, 利用以最小切分为目标的目标函数对无向图进行划分, 使用模拟退火算法求解目标函数。实验表明该方法有较高的准确率和较好的扩展性。柳位平等人[ 9] 挑选常用的情感词构成一个基础情感词语集, 并采用词语相似度方法计算出每个词的情感倾向权值, 提出的情感词权值计算方法不要求种子词数量相等 。

12 语句的情感分析

语句的情感分析主要任务包括对语句的主客观性的区分,对主观句的褒贬性的判别,以及对语句中情感倾向的细粒度提取,包括对与情感倾向表达有关的评论持有者、 评论对象、 评论的倾向性及强度等。例如, 句子“我认为索尼笔记本电脑质量不错而且外观漂亮”。该句中评论持有者是“我” ;评价对象是“索尼笔记本电脑” ,“质量” ,“外观” , 其中“索尼笔记本电脑” 是间接评论对象“质量” 和“外观” 是直接评论对象 ; “不错” 和“漂亮” 显示评论倾向褒义, 其中“漂亮”的褒义强度要大于“不错”。叶强 等 人[ 10] 在 N-POS 语 言 模 型 的 基 础 上 利用 卡 方( CHI-square) 统计方法提取中文主观文本词类组合模式, 建立中文词主观情感词类组合模式 2-POS 模型来自动地判断中文语句的主观性程度。实验表明采用 2-POS 模型的分类器对主观句的查准率和查全率接近目前英文同类研究的结果。姚天昉等人[ 11] 利用领域本体来抽取主观句的主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的情感极性。实验结果显示,与手工标注的语料进行比较,用于识别主题和主题极性的改进后的主谓结构极性传递算法的 F 度量的性能有所提高。

熊德兰等人[ 12] 提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法利用夹角余弦法对语义倾向进行了改进。党蕾等人[ 13] 提出采用否定模式匹配与依存句法分析相结合的方法。该方法分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算中文语句的情感倾向,并且在否定模式匹配后改进语句极性算法。实验结果表明该方法取得了良好的效果。李实等人[ 14] 根据中文语言的特点,借鉴关联规则对英文评论产品挖掘的方法,通过构建中文短语提取模式,定义中文评论中的邻近规则和独立概念, 提出了面向中文网络评论的产品特征挖掘方法, 数据实验证明了该方法的有效性。刘鸿宇等人[ 15] 使用句法分析结果获取主观局中候选评价对象, 同时 结 合 基 于 网 络 挖 掘 的 点 互 信 息 ( Pointwise MutualInformationPMI) 算法和名词剪枝算法对候选评价对象进行筛选,再通过分析主观句句型归纳相应的分析规则,使用无指导的方法完成评价对象在主观句中的情感倾向性判断。

13 篇章的情感分析

篇章级的情感分析是指将文本从整体上区分为褒义、 贬义或中性。谭松波等人[ 16] 使用中文分词及词性标注工具 ICTCLAS 解析并标注中文文本,分别采用文本频率、 CHI 统计量、 互信息、 信息增益四种特征选择方法,以中心向量法、K 近邻、Winnow、朴素贝叶斯和支持向量机作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下进行了实验,并对实验结果进行了比较。对比结果表明: 采用文档频率特征表示方法优于其他特征选择方法和支持向量机分类方法优于其他分类方法。在足够大训练集和选择适当数量特征的情况下,文本的情感倾向分类能取得较好的效果。但是文本的主题不同对分类的结果有影响。孟凡博等人[ 17] 设计并实现了一个基于关键词模板的文本褒贬倾向判定系统。该系统定义了关键词类别、建立了关键词库、关键词模板库, 并

设计了模板匹配算法和文本褒贬倾向值算法, 对测试文本进行关键词及模板匹配进而判断测试文本的褒贬倾向。李寿山等人[ 18] 具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于 Stacking 的组合分类方法,用以组合不同的分类方法。实验结果表明该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。

2 不同类型的中文文本情感分析

21 产品评论的情感分析

文本情感分析的一个重要应用领域是对互联网上出现的大量产品评论进行挖掘与分析, 主要目的是能够比较精确地发现产品的优缺点。产品评论的挖掘的主要任务包括: 识别并获取产品的特征或属性,定位用户的主观性评论,抽取评论搭配,判别用户评论的褒贬。产品评论的挖掘基本上是基于语句的情感分析。但是由于产品评论的主题就是产品名称,评论的持有者就是默认的使用产品的用户, 所以产品评论的挖掘的重点是提取产品的特征及对应的情感词。产品特征分为显示特征和隐式特征: 显示特征是指直接在评论中出现描述产品某个特征的名词; 隐式特征没有明确出现在评论中但隐含表达了。

黄永文等人[ 19] 首先对产品的规格文档进行挖掘获得产品的特征及其关系, 再采用基于BootStrapping 的弱监督机器学习方法对用户评论抽取产品的描述特征和规格特征的层次关系,先提供少量的产品特征作为种子集合,自动进行文本模式的抽取,再用抽取得到的模式抽取新的产品特征。这种方法可以看成是半自动方法, 开始阶段需要人工提供少量的产品特征作为种子。宋晓雷等人[20] 提出了一种不依赖外部资源的无指导评价对象自动识别方法。该方法首先综合使用词形模板和词性模板,采用模糊匹配方法和剪枝法抽取候选评价对象; 然后从候选对象集中采用双向 Bootstrapping 方法识别出产品评价对象; 最后通过采用 K 均值聚类方法对产品评价对象进行聚类,实现从评价对象中自动抽取产品名称和产品属性。那日萨等人[ 21] 对产品评论评价和情感进行模糊建模,建立了消费者评价和情感模糊语料库,并结合消费者对产品属性的偏好,提出一种新的产品综合评价和情感计算方法。

22 新闻评论的情感分析

新闻评论大部分是对新闻人物或新闻事件的看法。通过对新闻评论的情感分析可以了解民众对新闻人物和新闻事件的总体评价,掌握当前的舆情信息,特别是热点事件的舆情信息。Tsou等人[ 22] 在 Yuan 等人研究工作基础上对汉语报刊上有关四位政治人物褒贬性的汉语新闻报道进行了分类研究。在研究中,首先通过标记语料库获得文本中的极性元素( Polar Elements) ,然后主要采用了三个度量指标, 即极性元 素的分布( Spread) 、 极性元素的密度( Density) 和极性元素的语义强度( Intensity) 来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。徐军等人[ 23] 用朴素贝叶斯和最大熵模型分别对新闻及评论语料进行了情感分类研究, 发现选择具有语义倾向的词汇( 特别是形容词和名词) 对情感分类效果具有决定性作用,采用二值作为特征项权重相比采用词频作为权重的方法更能提高分类的准确率。并且最大熵模型比朴素贝叶斯的分类效果明显好。周杰等人[ 24] 选取不同的特征集、 特征维度、 权重计算方法和词性等因素对网络新闻评论进行分类测试,并对实验结果进行分析比较。陶富民等人[ 25]构建了一个面向话题的新闻评论的情感特征提取框架, 通过对那些热门话题构造对应的情感特征表来达到改善情感分析的效果。

3 中文文本情感分析评测及资源

随着中文文本的情感分析得到了越来越多的学者和研究机构的关注,为了推动中文情感分析技术的发展,国内第一个情感分 ( Chinese Opinion Analysis EvaluationCOAE) 26] 于 2008 年举办第一届。COAE 目的在于推动中文情感分析理论和技术的研究和应用, 同时建立相关的分析语料库。COAE 共设置 6 个任务,可分为 3 个方面: 一是中文评价词语的识别和分析,属于词语级的情感分析评测; 二是中文文本倾向性相关要素的抽取,主要是抽取句子中的评价对象,以及对于其观点的倾向性判别,属于语句级的情感分析评测;三是中文文本主客观性及倾向性的判别, 属于篇章级的情感分析评测。除了 COAE 提供了产品类的评价语料库, 中国科学院计算技术研究所的谭松波博士提供的较大规模的中文酒店评论语料,约有 10 000 篇,并标注了褒贬类别, 可以为中文的篇章级的情感分类提供一定的平台。中文的评价词词典资源有 NTU 评价词词典( 繁体中文)HowNet 评价词词典。NTU 评价词词典由台湾大学收集,含有 2 812 个褒义词与 8 276 个贬义词。HowNet 评价词词典包含 9193 个中文评价词语 /短语,9142 个英文评价词语或短语,并被分为褒贬两类。而且该词典提供了评价短语,为情感分析提供了更丰富的情感资源 。

4 结语

文本的情感分析与传统的文本分类有着特殊的挑战, 主要体现在自然语言表达的丰富多变使得要计算机自动理解其中蕴含的情感语义比较困难。而中文比英文在语言结构以及句式类型更加复杂,导致针对英文文本情感分析的一些方法在对中文文本情感分析的应用并没有取得理想的结果。文本情感分析作为文本挖掘的一个新的研究方向还有很多值得深入研究的课题,尤其是中文文本情感分析近几年才开始吸引研究者的注意。未来需要深入研究的问题有以下一些:1) 对于词语的情感倾向判别不应该局限在形容词, 一些名词和动词也具有情感倾向,而且应该结合具体的语境和领域来判别词语的情感倾向; 2) 针对语句和篇章的情感分析还比较粗粒度,应该更精确地更细粒度地对某一个具体的评价对象进行分析来满足用户的需求; 3) 需要在自然语言处理等相关领域取得新的突破,开发新的技术和方法来更好地进行文本情感分析

来自:量化研究方法

转自:“新传学苑”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com