一场忽如其来的新冠肺炎疫情改变了很多人的生活。本期赏析的论文来自清华大学的程萧潇博士生和金兼斌教授,联合易研网络研究实验室张荣显博士和赵莹团队(作者团队有小编的同事哦,小编骄傲),研究在今年疫情大背景下,中医与西医的媒介形象是否呈现出某种变化性。
本论文研究方法使用大数据技术辅助在线内容分析法,与以往内容分析法不同,为保证数据质量,团队在数据样本的预处理及编码过程做出创新性尝试,例如,预处理时设定多重规则清理数据,平衡数据覆盖度与相关性;利用编码员信度测试完善和确定编码簿,核验大数据算法编码准确度。
为了深入剖析这篇论文,小编专门找了研究团队做了深度了解。接下来,小编为大家“拆解”研究过程,介绍研究团队如何把理论和数据当做原材料,制作出一篇文本数据分析研究论文!
论文起始,明确研究背景,阐述在中国“抗疫方略中,中西医结合诊疗是一大特色和亮点”,总结中医药在数次修改的诊疗方案中扮演的重要角色,基于“媒介形象及社会形象”认识,以中医的媒介形象为切入口,回顾和整理“他者”语境中的中医及中医形象的媒介呈现方面的文献,进而提出核心研究问题:
面对本次大疫,中医与西医的媒介形象是否呈现出某种变化性。
RQ1:疫情暴发前后,中西医媒介形象在新闻报道的呈现上有何变化?
RQ2:疫情暴发前后,有关中西医新闻报道的整体论调有何变化?报道论调与不同维
度的中西医媒介形象是如何关联的?
采用大数据技术辅助在线内容分析法,考虑数据相关性与覆盖度,多次预处理,选取目标文本样本
为获取符合研究目的的数据样本,选取了四家国内主流媒体(考虑媒体属性)作为数据收集对象,检索条件如下:
- 媒体来源:人民网、《新京报》、澎湃网和《南方都市报》
- 时间范围:以2020年1月23日武汉“封城”这个时间为区分节点,覆盖该时间节点前后三个月左右时间
- 检索词:“中医”“西医”“中西医”“现代医学”“传统医学”等与中西医相关的通用关键词
获取数据检索结果之后,研究团队组织和执行了三次数据预处理,每次清理动作遵循一定准则和逻辑,像一个漏斗一样,筛选出相对“全”而“准”的数据样本,目的是获得较佳质量的数据样本库,打好数据分析的基础。
基于设定好的检索条件,获得第一批数据样本,新闻报道21,138篇。在这个数据基础上,想要进一步提高数据相关性,提升目标数据覆盖度,于是做了初步预处理,移除信息量过少的文本样本,删除文本少于200字的样本。处理后余下20,657篇。
随后研究人员人工检查样本,发现虽然很多文本确实提及了中西医相关词汇,但是报道主题并非与医学直接相关,而且部分文本中仅出现一两次关键词。因此团队再次进行数据清理,剔除单篇文本中提及检索关键词词频少于5次的文本,执行操作后,留下10,826篇新闻报道。
对数据质量的追求并没有到此为止,研究人员第二次人工检查,验证发现几乎所有新闻报道均与研究主题直接相关。同时,在检视过程中,研究人员手动删除了部分无关数据,最终共得到9,981篇完全符合研究目标的新闻报道。
大数据研究中,尤其是在做内容分析法时,学者们通常关心在检索数据和处理数据过程中,是否能检索完整的目标样本,是否会有遗漏?另一方面,查全与查准也存在天然的矛盾,过于宽泛的检索条件虽能尽量覆盖数据样本,却也容易纳入无关数据,因此两者之间需要取得一个平衡。(小编推荐一篇论及文本大数据覆盖度的文章给大家参考,请点击这里)这篇论文为达到查全查准的目标,使用关键词先行检索出相对全面的数据,进而多次筛查,清理无关数据,获得相关性和准确度更高的样本。
到这一步,就完成了数据库建立。在数据处理和分析的过程中,本研究尝试全新的研究思路,在信度测试过程中优化和确定编码簿,以大数据算法编码快速完成编码,严控数据质量。
编码簿的设计之初,研究人员参考和整理文献,并人工阅读大量新闻报道文本,归纳出编码类目的选项及对应关键词(可组合逻辑,用于执行大数据自动编码),形成编码簿初稿。为了解这套编码簿及关键词设定的准确性,研究人员组织编码员进行信度测试,并且在这个过程中,反复调整和优化编码簿,直到编码员信度达到优异水平(霍尔斯蒂指数0.89,DiVoMiner®还提供科恩系数、斯科特系数和克利本多夫系数信度计算公式),完成编码员信度测试和编码簿的确认工作。
核验大数据算法自动编码准确度
随机抽取1%的样本作为检验样本(107篇),执行人工编码,对照大数据算法自动编码结果,计算信度,所有类目准确度均在0.87以上,显示大数据自动编码结果良好,可采用该结果作为解读依据。这一步骤是为确保大数据算法自动编码的准确程度。最终由通过信度测试的编码员对大数据算法编码结果进行随机检查和校正,进一步提升了编码准确度,完成数据结果的收集工作。
对数据结果进行解读,对比疫情发生前后的新闻报道侧重点,可以发现不少有趣的结论:由于政府和行业对中医参与诊疗的积极推动,具有实际成效,中医的社会形象和媒介形象是有实质性改变和提升的。总体而言此次中西医结合抗疫,一定程度上巩固了中医的生存空间,提升了其社会形象。
编后语:以上这篇论文,从收集数据到数据处理,包括信度测试、算法编码及人工校正,连同数据结果的产出,过程只用了三周时间。当然这离不开研究团队前期花大量功夫整理和消化大量文献,事先做好充足的准备工作,带着明确的思路执行数据处理和分析,最终结合理论解读数据,完成作品!