2017年12月1日,澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士在复旦大学进行题为《如何利用在线内容分析法做研究》的讲座,分享对传统内容分析法的见解,并延伸至自动化内容分析,介绍运用大数据技术辅助在线内容分析法在网络大数据挖掘平台DiVoMiner高效地完成研究论文及学术报告。
演讲之始,张荣显博士谈及分享的目的,通过分析当前业界处理网络社交大数据的方式,寻求我们所面临的问题的解决对策,在学术上探究新的研究路径——利用大数据技术来辅助在线自动化内容分析法。
总体来说,这次讲座分为三大主题:
●当前业界如何处理网络社交大数据?
●当前研究网络社交大数据有哪些挑战?我们又有何对策?
●如何利用DiVoMiner去做?怎么去做?
在前半段的经验分享中,张荣显博士着重介绍了数据分析技术及数据来源,他表示:我们对于数字型及文字型两种数据处理方式不同。中文的语义分析技术在分词、归类及向量化,要将歧义词或无意义数据排除,需要花费大量时间和精力。而因为大部分的数据是孤岛,在整合时会出现忽略、重复的现象。
当前大部分舆情分析处于讯息可视化阶段,传统的5W1H(Where、When、Who、What、How、Why)中的来源、时效、身份、焦点、原因等,容易在网络文本中被淹没不见。因此,我们需要企图通过某些方法,在分析中找回5W1H。
对于数据的来源,张荣显博士提出他的见解:我们不需要“Garbage in, Garbage out”,喂给机器无用的资料,做分析也只是浪费时间。对于做决策或学术研究人员来说,重要的是“Data in, Value out”。
张荣显博士表示,在一个变化的世界中,因果关系依然重要。目前机器无法处理这个问题,“当数据足够大的时候,就可以说自己可以下结论”是危险的认知。
当前大部分的自动化舆情分析的偏差颇大,即便产出漂亮的图表,假象可能多于真相。尤其是场景化的机器误判更为严重,无论是利用词语库匹配或者机器学习,只能解决二元的正负面情绪或以类型分类的情绪表示,效果视乎场景及语境而有差异。
因此,张荣显博士认为对于网络大数据「人机融合」是目前最有效的方案,提出全新的网络大数据研究方法——大数据技术辅助在线内容分析法,通过将海量数据采集结构化、网络挖掘结合机器学习技术、在线内容分析(人工编码、机器编码及机器学习),最终产生有意义的洞察结果。
最后,由博易数据资深研究顾问曹文鸳老师现场演示网络大数据挖掘平台DiVoMiner,如何通过在线自动化内容分析法、网络挖掘、机器学习、情绪分析等网络大数据技术的辅助,结合人工智慧的研究设计及分析,可深度挖掘来自新闻媒体、社交媒体及记录文本的大数据(包括文字、图片或视频)。
曹老师同时介绍,研究团队中的3名成员通过运用网络大数据挖掘平台DiVoMiner,仅用了半年时间已产出10篇研讨会论文,其中3篇论文经由大会介绍与其他刊物接受并即将出版。