大数据时代建立文本数据样本之科学化检索攻略

2020-06-15 | 学术研究

网络世界犹如汪洋大海,如果想要做网络文本数据研究,首先会面临一个“棘手”的问题:怎么从这茫茫大海中,捞取到科学的数据样本呢?

 

传统的调研方法,如电话调查、问卷调查等,会从科学的样本抽取方式出发,要求数据样本具有代表性,以此确保得出的数据结果有解读价值。是否到了大数据时代,网络数据大而全,就不需要考虑样本代表性了呢?实际上处理网络数据时,我们也需要考虑数据是否齐全、具有代表性、和数据质量是否有保证的问题,否则数据样本失焦,难以满足研究要求。

 

接下来小编就以城市形象主题的论文《大湾区11个城市旅游品牌个性研究》(可留言索取全文)为例,和大家探讨如何在大数据时代获取合理数据样本的方法。这也是将研究问题概念化,并落实到检索条件的设计的过程。

 

设定检索数据条件之初,需要明确两个问题:

 

1.   需要什么范围的数据作为研究对象/研究样本?换言之,需要什么样的数据配合研究需要?

2.   确定了想要的数据范围后,用什么检索方式把对应的数据捞取出来?

 

按这个思路,三步走,完成数据检索工作:

 

第一站,根据研究主题确定适配的数据范畴

 

研究者需要在确定研究主题(研究假设)后,决定需要使用什么范畴的数据,可以回答研究问题。比如,在案例论文中,研究问题是想了解大湾区各旅游城市所呈现的品牌个性是什么?同时想了解各旅游城市体现出的旅游资源、形象定位情况。那么理清研究主题、综合文献、明确研究问题后,就可以初步确定,和大湾区各城市与旅游有关的数据,是这个研究中比较合适的数据范畴。

 

第二站,架构概念化逻辑检索获取数据样本

在研究实践中,检索条件的设计优劣,会影响到数据样本结果的数据量和准确度。一种很容易发生的失误是,检索逻辑(关键词条件)范围过大导致数据目标模糊,样本代表性不佳,混入无关和垃圾信息过多,给研究造成困扰。另一种情况是,检索条件方向偏离,导致查询结果与目标数据范围落差过大,进一步分析时会得不到有效数据结果。

 

为避免上述问题,小编推荐使用概念化逻辑检索的思路,利用多元检索关键词搭配,配置一定的逻辑语言,建立一套检索概念(有点像建立检索概念数据库),利用检索词在概念上的相关性,检索获得同属一类概念的结果。

 

在案例论文中,大湾区城市与旅游有关的数据,可以拆解为两大部分,满足下列条件之一,就可认为这个文本是属于我们所需要的研究数据范围:

 

1.    同时提及大湾区任一城市名称和旅游广泛相关的词语,比如“珠海 AND 海岛游”、“广州 AND 动物园”、“香港 AND 景点”等都属于此列。

 

2.    大湾区的任一旅游景点名称,基本可确定是和旅游相关,比如“长隆海洋王国”、“世界之窗”等。

 

需要说明的是,上列举例是一个简化的情况,在实际操作中,“香港”的检索条件会是一个概念类,扩充为“香港 OR “HK” OR “Hong Kong” OR “HongKong”,照顾网络表达语言的多元化,尽可能让捞取的数据范围准确。

 

第三站,核查数据质量,设定概念排除无关或垃圾信息

由于网络表达的复杂性,即便使用概念化逻辑条件检索文本数据,依然无法保证数据恰如其分刚好是研究范畴内的数据。所以进一步,使用排除逻辑,做初步的数据清理。例如,在某个招聘告示中,有内文提及,公司地点在xxx景区附近,这明显不是我们需要的数据。对于这种情况,我们设置招聘概念类检索条件,把提及“面试 OR 招聘 OR 诚聘”内容的文本排除出去,净化数据。

 

最终,在这篇论文中,我们使用了超过300个关键词加以组合,建构概念化的、具有逻辑的关键词组,同时排除词超过70个,在DiVoMiner®平台(有数据源的版本)上进行数据检索,以保证平台在线数据挖掘和数据筛选机制能够确保网络挖掘的数据内容在覆盖度和准确度方面尽可能符合研究目的。

最新动态

博易代表应邀出席两大重要传播学会议并发表主旨演讲

近日,博易代表应邀出席两大重要传播学会议——亚太传播论坛2020和第五届中国公共关系学术年会,并分别在会上发表主旨演讲。亚太传播论坛嘉宾与各校师生合照第五届中国公共关系学术年会与会专家学者合照亚太传播论坛2020暨亚太传播论坛联盟成立大会于2020年10月24-25日在珠海横琴·澳门青年创业谷及澳门大学澳门研究中心举行,此会议由亚太传播交流协会(APCEA)主办,是新冠肺炎疫情以来澳门主办最重要的国际传播会议之一。博易代表应邀出席会议并发表题为《为什么大资料在研究方法论中很重要:从传统到创新?...

连接琴澳创新科技合作的秘诀是什么?

2020年10月28日,由三一(珠海)投资有限公司及珠海市青年创业协会主办的珠澳科技创新合作论坛暨招商成果发布会在珠海横琴新区三一南方总部大厦举行,澳门互联网研究学会会长、珠海横琴博易数据技术创始人兼总裁张荣显博士应邀出席,与珠澳两地专家学者及企业家等共同解读珠澳创新合作新机遇。 论坛出席嘉宾合照 论坛现场 当日,张荣显博士在论坛上发表题为《用数据架起琴澳科技合作的桥梁》的主题演讲。 易研张荣显博士...

长假之后,聊聊双节假期的热点和槽点

疫情稳定之后,等来了中秋加国庆,相信大家都度过了一个愉快的假期,那么今年国庆的哪些地区或景点较为受大家追捧呢? 为此,小编整理了9月30日至10月8日的微博数据,为大家梳理下国庆长假期间的热点。   01  今年长假旅游有哪些热门? 热门地区——江浙沪、西南、西北、北京、广东皆为大热门 据文旅部数据中心统计,国庆假期前七天,全国共接待国内游客6.37亿人次,实现旅游收入4665.6亿元。今年地处大西北的陕西、甘肃也成为微博上讨论热门旅游地区,有网友戏称“大西北堵骆驼”。 热门景区——双“黄”最热门...

【DiVoMiner x 浸大】社媒品牌分析比赛获奖作品赏析

这学期,香港浸会大学传理学院传播系的同学们,以“社交媒体品牌分析”为题举办数据分析比赛。一个月时间内完成分组报告,为指定品牌进行社交媒体运营分析及制定一系列商业数字传播策略。   本次比赛由DiVoMiner®与香港浸会大学传理系课程合作,利用社交媒体数据集(Facebook、Instagram、YouTube、Office Website、Mobile App),同学们使用DiVoMiner®文本大数据挖掘与分析平台作为分析工具。   “Digital Report...

张荣显博士应邀到浙江越秀外国语学院作讲座

2019年10月23日,澳门互联网研究学会会长、易研方案总裁兼博易数据创始人张荣显博士应邀到浙江越秀外国语学院网络传播学院作题为《人工智能与文本数据研究方法新路径》的讲座,分享了系统、科学、严谨的大数据技术辅助在线内容分析法在网络文本大数据研究中的实践和应用。 以下文章来源:微信公众号“长三角网络新舆情”,作者陈徐来,标题《张荣显博士来我校讲座》 讲座相关...