【DiVoMiner通知】0元领,自动化文本情感分析算法额度!!

2020-12-21 | 学术研究

自动化文本情感分析算法模型现已开放给个人用户使用啦!中文、英文均可搞定,在界面首页点击领取免费的算法额度!?

 


 

本期小编将带大家一起了解下关于文本数据自动化情感分析的基本知识!

随着主观性文本的增多,在面对复杂的自然语言时,机器是否能够做出准确的自我判断?自动化情感分析的研究思路和应用领域又是什么?本文结合研究团队多年丰富的经验和应用,从文本情感分析技术/方法应用的理解角度进行分享,欢迎读者们批评指正。

 

01
什么是文本情感分析
文本的情感分析(sentiment analysis)的目的是在于了解作者在特定文本中的情感态度,这些态度反映了作者在撰写该文本时的个人情绪状态,或是意图经由该文本向读者所传达的情感。一般做法是藉由文字解析出情感态度,可做二分类(正面、负面)或是三分类(正面、负面,或是中立)。
 

02
文本情感分析思路
传统的内容分析法(content analysis)涉及到文本的情感倾向研究时,通常藉由在一定编码员内在信度(inter–coder)的标准下,人工辨识文本的语意态度及复杂的情绪状态,该方法优点是准确。但随着 Web2.0 的蓬勃发展,互联网用户由单纯被动地接收互联网信息向主动创造互联网信息迈进,互联网上公开可用的信息不断增长,像是来自社交媒体,评论网站、论坛、博客、新闻及评论等,这些文本议题范围广泛,叙事方式也多种多样,形成大量、快速、多样以及不确定的网络大数据。因此透过人工编码的传统内容分析就无法支持大数据应用的需求,自动化情感分析因应而生。自动化的文本情感分析,是指结合自然语言处理(Natural Language Processing)、文本挖掘(Text Mining),以及计算机语言等领域技术方法,来提取文本中的信息,自动化的文本情感识别流程某种程度上弥补了需要快速掌握信息的需求。
 

 

在自动化文本情感分析当中,经常使用词典法计算文本中的情感,流程上先以人工方式标注一些关键词,然后通过不同的算法把关键词扩展到其他的新词,生成情感词典进行情感极性分类判断。还有一类是基于人工编码的机器学习或者深度学习,可根据训练集所在的数据空间拟合。
 

03
文本情感分析的挑战
挑战一:如前所述,互联网上议题范围广泛且复杂,不同来源的文本在叙事方式有极大差异,且内容本身不见得足以判断情感态度(有时可能透过网友留言符号才能判断),自动化情感分析往往是一套固定算法,且基于特定来源及议题为建立基础,因此所谓的“准度”,是建立在特定的测试集,使用通用评价指标(如:accuracy、precision、recall、f1-score)给出的量化值;既然能指定测试集,那么准度就会波动,至于波动范围到底怎样,还得看给的测试集的数据特点,具有不确定性。
 

 

挑战二:在情感分析当中,因为语言很复杂,文本环境有影响,网络媒体情感符号、非正式语言、网络新词等等因素也会产生影响,误判必定存在,“简单”的文章对于机器而言,往往未必那么“简单”。
 

挑战三:某些宣传“准”的情感分析模型,其训练数据、测试数据是有领域限制,即数据空间是封闭的,在开放领域的数据分析的准确率则会大打折扣,不能一概而论。上述诸多限制时常受到用户忽略,导致对于信息的错误掌握及情势误判,因此应根据研究实际进行判断。
 

 

由上可见,当前文本情感分析的技术层面,尽管对技术已有多种探讨,然而在不同维度上精确度、准确率、召回率等指标并不能达到理想的效果。因此,可从技术和人工介入两方面结合,以提升自动化情感分析结果的有效程度,如针对文本进行分析的常用研究方法——内容分析法,针对文本中的情绪进行类目细分,采用人工编码的方式对情绪分类进行编码,并运用量化分析工具实现数据的可视化呈现。如此,结合技术与人工思维方式,以期达到分析网络文本情绪的目的。
 

有别于一般的算法应用,DiVoMiner®技术团队多年来致力研发大数据人工智能技术,在中文自然语言处理方面积累了丰富的经验。不仅开放用户对算法模型结果进行人工校正功能,更以人工情感判断结果为最优先级的方式,让专业研究人员的经验(HI)配合人工智能技术(AI),将进一步提升情感分析结果“准”度。

 

04
情感分析的学术应用

小编在CNKI上选取社科类、新闻与传播类、经济与管理科学、哲学与人文科学类学科,研究主题为“情感分析”发表论文的情况来看,从2015年开始,这些学科有关情感分析研究快速增长。

   

最近两年大有成为学术研究热点的趋势,在线评论、网络舆情、投资者情绪等研究方面都有较为广泛的应用。
   
以小编的研究经验来讲,除上面所说的应用外,还可用在社交媒体的用户研究上,比如
  • 了解人们在社交媒体上对某一问题的态度。
  • 了解人们对产品、生产企业、人物的看法。
  • 分析广告、营销等活动对用户的影响。
  • 分析危机公共活动对用户的引导。

 

DiVoMiner®一站式执行文本大数据技术辅助内容分析法,助力高效完成可发表期刊的论文,让学者们零编程使用机器算法模型,拓展自己的“研究版图”。
 

 

最后小编想重点说一句,情感分析即使对人类而言,也是一项非常艰巨的任务,用户在应用文本情感分析模型的过程中,建议还是要选取最适合自己的研究方法。

最新动态

博易代表应邀出席两大重要传播学会议并发表主旨演讲

近日,博易代表应邀出席两大重要传播学会议——亚太传播论坛2020和第五届中国公共关系学术年会,并分别在会上发表主旨演讲。亚太传播论坛嘉宾与各校师生合照第五届中国公共关系学术年会与会专家学者合照亚太传播论坛2020暨亚太传播论坛联盟成立大会于2020年10月24-25日在珠海横琴·澳门青年创业谷及澳门大学澳门研究中心举行,此会议由亚太传播交流协会(APCEA)主办,是新冠肺炎疫情以来澳门主办最重要的国际传播会议之一。博易代表应邀出席会议并发表题为《为什么大资料在研究方法论中很重要:从传统到创新?...

连接琴澳创新科技合作的秘诀是什么?

2020年10月28日,由三一(珠海)投资有限公司及珠海市青年创业协会主办的珠澳科技创新合作论坛暨招商成果发布会在珠海横琴新区三一南方总部大厦举行,澳门互联网研究学会会长、珠海横琴博易数据技术创始人兼总裁张荣显博士应邀出席,与珠澳两地专家学者及企业家等共同解读珠澳创新合作新机遇。 论坛出席嘉宾合照 论坛现场 当日,张荣显博士在论坛上发表题为《用数据架起琴澳科技合作的桥梁》的主题演讲。 易研张荣显博士...

长假之后,聊聊双节假期的热点和槽点

疫情稳定之后,等来了中秋加国庆,相信大家都度过了一个愉快的假期,那么今年国庆的哪些地区或景点较为受大家追捧呢? 为此,小编整理了9月30日至10月8日的微博数据,为大家梳理下国庆长假期间的热点。   01  今年长假旅游有哪些热门? 热门地区——江浙沪、西南、西北、北京、广东皆为大热门 据文旅部数据中心统计,国庆假期前七天,全国共接待国内游客6.37亿人次,实现旅游收入4665.6亿元。今年地处大西北的陕西、甘肃也成为微博上讨论热门旅游地区,有网友戏称“大西北堵骆驼”。 热门景区——双“黄”最热门...

【DiVoMiner x 浸大】社媒品牌分析比赛获奖作品赏析

这学期,香港浸会大学传理学院传播系的同学们,以“社交媒体品牌分析”为题举办数据分析比赛。一个月时间内完成分组报告,为指定品牌进行社交媒体运营分析及制定一系列商业数字传播策略。   本次比赛由DiVoMiner®与香港浸会大学传理系课程合作,利用社交媒体数据集(Facebook、Instagram、YouTube、Office Website、Mobile App),同学们使用DiVoMiner®文本大数据挖掘与分析平台作为分析工具。   “Digital Report...

张荣显博士应邀到浙江越秀外国语学院作讲座

2019年10月23日,澳门互联网研究学会会长、易研方案总裁兼博易数据创始人张荣显博士应邀到浙江越秀外国语学院网络传播学院作题为《人工智能与文本数据研究方法新路径》的讲座,分享了系统、科学、严谨的大数据技术辅助在线内容分析法在网络文本大数据研究中的实践和应用。 以下文章来源:微信公众号“长三角网络新舆情”,作者陈徐来,标题《张荣显博士来我校讲座》 讲座相关...