自动化文本情感分析算法模型现已开放给个人用户使用啦!中文、英文均可搞定,在界面首页点击领取免费的算法额度!?
本期小编将带大家一起了解下关于文本数据自动化情感分析的基本知识!
随着主观性文本的增多,在面对复杂的自然语言时,机器是否能够做出准确的自我判断?自动化情感分析的研究思路和应用领域又是什么?本文结合研究团队多年丰富的经验和应用,从文本情感分析技术/方法应用的理解角度进行分享,欢迎读者们批评指正。
文本的情感分析(sentiment analysis)的目的是在于了解作者在特定文本中的情感态度,这些态度反映了作者在撰写该文本时的个人情绪状态,或是意图经由该文本向读者所传达的情感。一般做法是藉由文字解析出情感态度,可做二分类(正面、负面)或是三分类(正面、负面,或是中立)。
传统的内容分析法(content analysis)涉及到文本的情感倾向研究时,通常藉由在一定编码员内在信度(inter–coder)的标准下,人工辨识文本的语意态度及复杂的情绪状态,该方法优点是准确。但随着 Web2.0 的蓬勃发展,互联网用户由单纯被动地接收互联网信息向主动创造互联网信息迈进,互联网上公开可用的信息不断增长,像是来自社交媒体,评论网站、论坛、博客、新闻及评论等,这些文本议题范围广泛,叙事方式也多种多样,形成大量、快速、多样以及不确定的网络大数据。因此透过人工编码的传统内容分析就无法支持大数据应用的需求,自动化情感分析因应而生。自动化的文本情感分析,是指结合自然语言处理(Natural Language Processing)、文本挖掘(Text Mining),以及计算机语言等领域技术方法,来提取文本中的信息,自动化的文本情感识别流程某种程度上弥补了需要快速掌握信息的需求。
在自动化文本情感分析当中,经常使用词典法计算文本中的情感,流程上先以人工方式标注一些关键词,然后通过不同的算法把关键词扩展到其他的新词,生成情感词典进行情感极性分类判断。还有一类是基于人工编码的机器学习或者深度学习,可根据训练集所在的数据空间拟合。
挑战一:如前所述,互联网上议题范围广泛且复杂,不同来源的文本在叙事方式有极大差异,且内容本身不见得足以判断情感态度(有时可能透过网友留言符号才能判断),自动化情感分析往往是一套固定算法,且基于特定来源及议题为建立基础,因此所谓的“准度”,是建立在特定的测试集,使用通用评价指标(如:accuracy、precision、recall、f1-score)给出的量化值;既然能指定测试集,那么准度就会波动,至于波动范围到底怎样,还得看给的测试集的数据特点,具有不确定性。
挑战二:在情感分析当中,因为语言很复杂,文本环境有影响,网络媒体情感符号、非正式语言、网络新词等等因素也会产生影响,误判必定存在,“简单”的文章对于机器而言,往往未必那么“简单”。
挑战三:某些宣传“准”的情感分析模型,其训练数据、测试数据是有领域限制,即数据空间是封闭的,在开放领域的数据分析的准确率则会大打折扣,不能一概而论。上述诸多限制时常受到用户忽略,导致对于信息的错误掌握及情势误判,因此应根据研究实际进行判断。
由上可见,当前文本情感分析的技术层面,尽管对技术已有多种探讨,然而在不同维度上精确度、准确率、召回率等指标并不能达到理想的效果。因此,可从技术和人工介入两方面结合,以提升自动化情感分析结果的有效程度,如针对文本进行分析的常用研究方法——内容分析法,针对文本中的情绪进行类目细分,采用人工编码的方式对情绪分类进行编码,并运用量化分析工具实现数据的可视化呈现。如此,结合技术与人工思维方式,以期达到分析网络文本情绪的目的。
有别于一般的算法应用,DiVoMiner®技术团队多年来致力研发大数据人工智能技术,在中文自然语言处理方面积累了丰富的经验。不仅开放用户对算法模型结果进行人工校正功能,更以人工情感判断结果为最优先级的方式,让专业研究人员的经验(HI)配合人工智能技术(AI),将进一步提升情感分析结果“准”度。
小编在CNKI上选取社科类、新闻与传播类、经济与管理科学、哲学与人文科学类学科,研究主题为“情感分析”发表论文的情况来看,从2015年开始,这些学科有关情感分析研究快速增长。
最近两年大有成为学术研究热点的趋势,在线评论、网络舆情、投资者情绪等研究方面都有较为广泛的应用。
以小编的研究经验来讲,除上面所说的应用外,还可用在社交媒体的用户研究上,比如
- 了解人们在社交媒体上对某一问题的态度。
- 了解人们对产品、生产企业、人物的看法。
- 分析广告、营销等活动对用户的影响。
- 分析危机公共活动对用户的引导。
DiVoMiner®一站式执行文本大数据技术辅助内容分析法,助力高效完成可发表期刊的论文,让学者们零编程使用机器算法模型,拓展自己的“研究版图”。
最后小编想重点说一句,情感分析即使对人类而言,也是一项非常艰巨的任务,用户在应用文本情感分析模型的过程中,建议还是要选取最适合自己的研究方法。