(黄钧波)6月9日,代表澳门易研方案及珠海横琴博易数据的张荣显博士,在汕头大学举行了题为“重新认识大数据与网络舆情分析”的专题讲座,向观众介绍了大数据的发展现状和在网络舆情分析上的应用。
张荣显博士从事研究教学工作二十年,范畴涵盖民意调查、公众咨询、数据挖掘、网络挖掘及电子政务研究等,曾在澳门大学、香港浸会大学、葡萄牙里斯本大学任教。
大数据是什么?
在互联网日益进步的今天,大数据开始被越来越多地提及,可实际上大数据究竟是什么呢?
大数据简而言之,就是巨量资料,意思是传统数据处理软件不足以的大或复杂的数据集的术语。“大数据是未来12项颠覆性技术的脑脊液”,它具有数据容量庞大、处理速度快、信息多样性和不确定性,四大特点,张显荣介绍说。
大数据在如今多用于商业领域,通过对顾客的行为数据的计算,预测商业趋势,提前采取应对措施。
大数据在网络舆情分析的应用
面对复杂的网络信息环境,学术界对动态数据的获取、不同语境下的语意分析、情感分析,以及大数据对多变项的分析能力,存在很多疑问。针对此,张荣显博士提出,当前学术界及业界有必要对大数据重新认识,尤其是不少人对网络舆情大数据的诸多误解。张荣显提到网络舆情数据具有非结构化(没有有规律的数据)、来源多样性、快速、海量和不确定的特征。需要利用先进的网络技术把数据结构化,整合,筛选,处理,才能得出可视化的结果。
以当前的技术水平,网络数据的采集、清洗、结构化、索引、分词、关键字搜索等等技术问题,都已经可以通过机器解决,利用机器演算法、语意分析技术和自动化情感分析,就可以快速地挖掘舆情的传播来源、传播声量、传播路径、社会网络关系等信息。
网络大数据的面临的挑战
网络大数据并非无所不能,张荣显表示,“当前处理网络舆情大数据还面临着3大挑战:覆盖度、测量和解释。”大数据处理还无法精确预测热点舆情的发展趋势,分析结果流于单变量分析及往往以主观判断做结论,也容易把事物相关关系当成因果关系,在数据采样方面也存在着代表性不足的缺点。
他举了谷歌流感预测失败的例子,谷歌利用搜索引擎的相关数据数据对流感流行趋势进行预测,在前几年它的预测数据与美国疾病预防中心的官方数据比较接近,但是在2013年预测数据偏差高达两倍,后来这个项目也停止了在网上发布结果。这其中的原因就是没有处理好数据覆盖度的问题,因为存在一些看似与流感相关,实质没有关联的数据。
他还指出,不能过于依赖“关键字”,这容易造成概念化不足,布林逻辑设定的缺失等问题。
解决措施
张荣显及其带领的博易数据团队经过多年努力,研发出网络大数据挖掘平台(DiVoMiner),从线上及线下对数据进行采集、结构化、清洗,方便研究人员能够利用平台数据或自有数据扩充数据库,建立研究者专属的数据库;同时透过机器学习及人工编码方式,让研究人员在平台上执行科学严谨的内容分析法,具有驾驭数据、设定研究类目、实时编码、控制质量及进行统计分析的能力。
他强调研究网络舆情,应该回归到理解舆情的分布、方向及其强度、潜伏性、重要性及稳定性的本质,将5W1H,亦即What、Who、When、Where、Why及How还原,并可通过交叉及相关的统计分析,才能更好地理解事件的面貌,达到到快、广及深的效果。
张荣显指出,总括来讲,研究网络舆情,需讲求科学性,对数据及分析的质量予以更多的关注,摒弃Garbage in, Garbage out(垃圾进,垃圾出)的套路,以Data in, Value out(数据进,价值出)为目标,力图让数据发挥它的最大价值。