【最新论文赏析】抗疫背景下中医媒介形象之变化

2020-07-16 | 学术研究

一场忽如其来的新冠肺炎疫情改变了很多人的生活。本期赏析的论文来自清华大学的程萧潇博士生和金兼斌教授,联合易研网络研究实验室张荣显博士和赵莹团队(作者团队有小编的同事哦,小编骄傲),研究在今年疫情大背景下,中医与西医的媒介形象是否呈现出某种变化性。

 

本论文研究方法使用大数据技术辅助在线内容分析法,与以往内容分析法不同,为保证数据质量,团队在数据样本的预处理及编码过程做出创新性尝试,例如,预处理时设定多重规则清理数据,平衡数据覆盖度与相关性;利用编码员信度测试完善和确定编码簿,核验大数据算法编码准确度。

 

为了深入剖析这篇论文,小编专门找了研究团队做了深度了解。接下来,小编为大家“拆解”研究过程,介绍研究团队如何把理论和数据当做原材料,制作出一篇文本数据分析研究论文!

 

借鉴文献,提炼研究问题

论文起始,明确研究背景,阐述在中国“抗疫方略中,中西医结合诊疗是一大特色和亮点”,总结中医药在数次修改的诊疗方案中扮演的重要角色,基于“媒介形象及社会形象”认识,以中医的媒介形象为切入口,回顾和整理“他者”语境中的中医及中医形象的媒介呈现方面的文献,进而提出核心研究问题:

 

面对本次大疫,中医与西医的媒介形象是否呈现出某种变化性。

具体化为两个研究问题:

RQ1:疫情暴发前后,中西医媒介形象在新闻报道的呈现上有何变化?

RQ2:疫情暴发前后,有关中西医新闻报道的整体论调有何变化?报道论调与不同维

度的中西医媒介形象是如何关联的?

 

采用大数据技术辅助在线内容分析法,考虑数据相关性与覆盖度,多次预处理,选取目标文本样本

 

为获取符合研究目的的数据样本,选取了四家国内主流媒体(考虑媒体属性)作为数据收集对象,检索条件如下:

 

  • 媒体来源:人民网、《新京报》、澎湃网和《南方都市报》

 

  • 时间范围:以2020年1月23日武汉“封城”这个时间为区分节点,覆盖该时间节点前后三个月左右时间

 

  • 检索词:“中医”“西医”“中西医”“现代医学”“传统医学”等与中西医相关的通用关键词

 

获取数据检索结果之后,研究团队组织和执行了三次数据预处理,每次清理动作遵循一定准则和逻辑,像一个漏斗一样,筛选出相对“全”而“准”的数据样本,目的是获得较佳质量的数据样本库,打好数据分析的基础。

 

基于设定好的检索条件,获得第一批数据样本,新闻报道21,138篇。在这个数据基础上,想要进一步提高数据相关性,提升目标数据覆盖度,于是做了初步预处理,移除信息量过少的文本样本,删除文本少于200字的样本。处理后余下20,657篇。

 

随后研究人员人工检查样本,发现虽然很多文本确实提及了中西医相关词汇,但是报道主题并非与医学直接相关,而且部分文本中仅出现一两次关键词。因此团队再次进行数据清理,剔除单篇文本中提及检索关键词词频少于5次的文本,执行操作后,留下10,826篇新闻报道。

 

对数据质量的追求并没有到此为止,研究人员第二次人工检查,验证发现几乎所有新闻报道均与研究主题直接相关。同时,在检视过程中,研究人员手动删除了部分无关数据,最终共得到9,981篇完全符合研究目标的新闻报道。

 

大数据研究中,尤其是在做内容分析法时,学者们通常关心在检索数据和处理数据过程中,是否能检索完整的目标样本,是否会有遗漏?另一方面,查全与查准也存在天然的矛盾,过于宽泛的检索条件虽能尽量覆盖数据样本,却也容易纳入无关数据,因此两者之间需要取得一个平衡。(小编推荐一篇论及文本大数据覆盖度的文章给大家参考,请点击这里)这篇论文为达到查全查准的目标,使用关键词先行检索出相对全面的数据,进而多次筛查,清理无关数据,获得相关性和准确度更高的样本。

 

 

到这一步,就完成了数据库建立。在数据处理和分析的过程中,本研究尝试全新的研究思路,在信度测试过程中优化和确定编码簿,以大数据算法编码快速完成编码,严控数据质量。

 

整套操作流程如下:

 

编码员之间信度测试编码协助优化编码簿

编码簿的设计之初,研究人员参考和整理文献,并人工阅读大量新闻报道文本,归纳出编码类目的选项及对应关键词(可组合逻辑,用于执行大数据自动编码),形成编码簿初稿。为了解这套编码簿及关键词设定的准确性,研究人员组织编码员进行信度测试,并且在这个过程中,反复调整和优化编码簿,直到编码员信度达到优异水平(霍尔斯蒂指数0.89,DiVoMiner®还提供科恩系数、斯科特系数和克利本多夫系数信度计算公式),完成编码员信度测试和编码簿的确认工作。

 

编码簿框架与编码方法

 

 

 

核验大数据算法自动编码准确度

 

随机抽取1%的样本作为检验样本(107篇),执行人工编码,对照大数据算法自动编码结果,计算信度,所有类目准确度均在0.87以上,显示大数据自动编码结果良好,可采用该结果作为解读依据。这一步骤是为确保大数据算法自动编码的准确程度。最终由通过信度测试的编码员对大数据算法编码结果进行随机检查和校正,进一步提升了编码准确度,完成数据结果的收集工作。

 

研究结论

 

对数据结果进行解读,对比疫情发生前后的新闻报道侧重点,可以发现不少有趣的结论:由于政府和行业对中医参与诊疗的积极推动,具有实际成效,中医的社会形象和媒介形象是有实质性改变和提升的。总体而言此次中西医结合抗疫,一定程度上巩固了中医的生存空间,提升了其社会形象。

编后语:以上这篇论文,从收集数据到数据处理,包括信度测试、算法编码及人工校正,连同数据结果的产出,过程只用了三周时间。当然这离不开研究团队前期花大量功夫整理和消化大量文献,事先做好充足的准备工作,带着明确的思路执行数据处理和分析,最终结合理论解读数据,完成作品!

最新动态

博易代表应邀出席两大重要传播学会议并发表主旨演讲

近日,博易代表应邀出席两大重要传播学会议——亚太传播论坛2020和第五届中国公共关系学术年会,并分别在会上发表主旨演讲。亚太传播论坛嘉宾与各校师生合照第五届中国公共关系学术年会与会专家学者合照亚太传播论坛2020暨亚太传播论坛联盟成立大会于2020年10月24-25日在珠海横琴·澳门青年创业谷及澳门大学澳门研究中心举行,此会议由亚太传播交流协会(APCEA)主办,是新冠肺炎疫情以来澳门主办最重要的国际传播会议之一。博易代表应邀出席会议并发表题为《为什么大资料在研究方法论中很重要:从传统到创新?...

连接琴澳创新科技合作的秘诀是什么?

2020年10月28日,由三一(珠海)投资有限公司及珠海市青年创业协会主办的珠澳科技创新合作论坛暨招商成果发布会在珠海横琴新区三一南方总部大厦举行,澳门互联网研究学会会长、珠海横琴博易数据技术创始人兼总裁张荣显博士应邀出席,与珠澳两地专家学者及企业家等共同解读珠澳创新合作新机遇。 论坛出席嘉宾合照 论坛现场 当日,张荣显博士在论坛上发表题为《用数据架起琴澳科技合作的桥梁》的主题演讲。 易研张荣显博士...

长假之后,聊聊双节假期的热点和槽点

疫情稳定之后,等来了中秋加国庆,相信大家都度过了一个愉快的假期,那么今年国庆的哪些地区或景点较为受大家追捧呢? 为此,小编整理了9月30日至10月8日的微博数据,为大家梳理下国庆长假期间的热点。   01  今年长假旅游有哪些热门? 热门地区——江浙沪、西南、西北、北京、广东皆为大热门 据文旅部数据中心统计,国庆假期前七天,全国共接待国内游客6.37亿人次,实现旅游收入4665.6亿元。今年地处大西北的陕西、甘肃也成为微博上讨论热门旅游地区,有网友戏称“大西北堵骆驼”。 热门景区——双“黄”最热门...

【DiVoMiner x 浸大】社媒品牌分析比赛获奖作品赏析

这学期,香港浸会大学传理学院传播系的同学们,以“社交媒体品牌分析”为题举办数据分析比赛。一个月时间内完成分组报告,为指定品牌进行社交媒体运营分析及制定一系列商业数字传播策略。   本次比赛由DiVoMiner®与香港浸会大学传理系课程合作,利用社交媒体数据集(Facebook、Instagram、YouTube、Office Website、Mobile App),同学们使用DiVoMiner®文本大数据挖掘与分析平台作为分析工具。   “Digital Report...

张荣显博士应邀到浙江越秀外国语学院作讲座

2019年10月23日,澳门互联网研究学会会长、易研方案总裁兼博易数据创始人张荣显博士应邀到浙江越秀外国语学院网络传播学院作题为《人工智能与文本数据研究方法新路径》的讲座,分享了系统、科学、严谨的大数据技术辅助在线内容分析法在网络文本大数据研究中的实践和应用。 以下文章来源:微信公众号“长三角网络新舆情”,作者陈徐来,标题《张荣显博士来我校讲座》 讲座相关...