现今,针对人工智能和大数据方面的关注和讨论逐渐增多,尤其是在情绪分析(sentiment analysis)方面的研究和应用也逐渐增多。虽然当前可通过自动化语义判断方法,包括人工智能和机器学习算法等,结合自然语言处理技术和文本挖掘技术,来判断网民的情绪态度。但仍仅停留在情绪分析层面,即文本内容所表达的正面、负面或者中立的情绪态度,然而还不能做到判断情绪的轻重程度。此外,因网络用语的不规范或议题范围广泛,以及受众不同的文本叙事方式和修辞方法等,给自动化情绪分析针对网络文本的判断增加了难度。
澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士对此进行了详细解读,强调情绪分析不等同于网民的倾向,情绪正负值不应解读为民意支持与反对,过度解读会容易造成误导,因为它至少受到以下三种因素影响:
1. 概念与测量
从网络文本中分析网民的情绪,无论是用正负面的模型或分类模型(例如快乐、悲伤、兴奋等),在概念上,非等同于支持与否。比如说,对一个事件不满意,但是并非等同于对其主体的不支持。对于做错事情的明星,粉丝虽然可能不认同其某个行为,但是对该明星还是持支持的态度。
传统民调中,针对具体面向的支持度,可以直接通过针对受访者提问的方式进行点对点回答。而网络文本中,网民的情绪态度混入了事情或者人物因素,那么在这种非结构化的复杂表达方式和语境中,机器自动判断出来的情绪结果与实际上的支持或者反对结果就会有偏差。
2. 情景及语境
当前的自动化情绪分析,一方面,无法考量网络表达的情景及语境,另一方面,难以分析语言使用方法,尤其是在中文表达中,如隐喻、反讽等修辞方法,会增加其识别的难度。
3. 指涉对象
网络大数据中的文本分析通常以字、词、句、段落等为分析单位。目前,在技术上难以区分情绪态度的指涉对象。网民在表达意见时,很可能会谈及多个对象,比如人物、组织机构和事件,情绪分析的结果难以和文本中的某个对象相匹配,换言之,情绪分析出的对象,是不明确的,甚至可能是没有指涉对象。那么这时候,机器自动分析出来的情绪态度结果就失去了意义。