文献证据检索的信度研究基于循证视角

时间：分类：经济论文浏览次数：

摘要：在传统的查全率和查准率检索评价指标，以及循证研究证据的分级体系和证据转化整合理论基础上引入了信度评价指标，为循证社会科学领域原始研究文献证据质量的科学评价提供了理论依据。对前序研究得到的文献证据数据集进行信度评价发现：出现关键词 or 全文检索项

　　摘要：在传统的查全率和查准率检索评价指标，以及循证研究证据的分级体系和证据转化整合理论基础上引入了信度评价指标，为循证社会科学领域原始研究文献证据质量的科学评价提供了理论依据。对前序研究得到的文献证据数据集进行信度评价发现：出现“关键词 or 全文”检索项在高相关数据集中重测信度更高，出现“关键词 and 摘要”的检索项在中相关数据集结果最稳定;复本信度检验结果显示：中相关数据集中出现“关键词 or 全文”和“摘要or 全文”检索项的复本信度都很高，而在高相关数据集中，又出现“主题 or 关键词”的可靠性较强。

　　关键词：循证社会科学;文献证据检索;复本信度;重测信度

文献检索

　　获得稳定、可靠的原始研究证据，是基于元分析而有效整合研究结果的基础，也是展开系统评价和证据转化的关键。从测量的角度看，信度是衡量指标可靠性和一致性的基本工具。对于文献证据的检索而言，信度可用于衡量检索的稳定性、可靠性和一致性。将文献证据检索进行信度评估，对保障系统评价和元分析的质量具有极其重要的理论与实践意义。

　　社会科学论文投稿期刊：江西社会科学投稿能网络首发吗

　　这是因为只有文献检索获得可靠的原始证据，系统评价和元分析才能据此产出更高质量的证据整合产品。同时，只有文献检索获得稳定一致的原始证据，系统评价和元分析所获得的证据整合结果才能保证其可信度。基于这一科学问题，本文以中文文献最大数据库 CNKI 为对象，通过对社会科学领域特定的研究议题相关原始学术文献的系统性检索与分析，着眼于信度评价的基本理念和指标，对不同途径的文献证据检索质量做出检索效率评价，以期为循证社会科学领域的循证研究质量评价提供理论支撑。

　　1 研究回顾与理论基础

　　1.1 相关研究回顾

　　1.1.1 文献检索质量评价

　　系统评价(systematic review)是对一组特定的文献综述特性加以有效整合的研究，通常用来综合文献证据[1]。文献检索是系统评价活动的基础工作，也涵盖了系统评价的大部分工作环节，且检索的目标是搜集到所有与研究主题相关的文章。研究者所检索到的文献证据旨在帮助研究者产生关于证据的中立陈述，尽量避免偏倚。因此，对文献证据的信度加以研究，以确定应该如何应对处理不同检索方式之间的差异，从而增加文献检索的透明度，就需要在检索过程中针对不同检索方式，对所检索到文献内含证据的质量及其可靠性进行评价。

　　查全率和查准率是评价文献检索质量的两种主要传统指标。查全率(recall ratio)是指检索到的相关文献在所有应该检索到的文件集合中的比率。但是，由于“所有文献”事实上常常不可得，因此，查全率的分母无法预知，这往往只是一个虚构的值; 查准率(precision ratio)是指所检索到的文献中，被判断为相关文献的比值。查准率衡量了文献检索达到饱和时，查找到相关文献的概率。查准率和查全率呈现了反比关系。如当研究者查找到集合中所有的文献时，这也意味着其中就有大量的不相关文献，提高了查全率但降低查准率。

　　相反，当文献检索变的精确时，就会丢失大量的不相关文献，降低了查全率。Mann[2]提出研究者需要追求更加精确的检索结果，因为研究者期望浏览较少的文献，在判断相关度过程中也能减少工作量。然而，系统评价的特点就是要追求较高的“查全率”，因为本文研究没有办法确定，所定位的检索主题是否可以代表现有的全部研究。最好的解决办法就是尽可能全面的去检索，避免漏掉规范检索之外的重要文章，确保习惯性的检索渠道不会使结果产生偏倚。因此，本文所使用数据集，延续了前序关于饱和度展开的研究，使用滚雪球、检索方式迭代等多种方法，尽可能穷尽检索与研究主题“社会认识论”相关的文献。

　　1.2.2 元分析的异质性[3]

　　纳入元分析的研究可能在多方面存在差异，如人群、干预措施的变化、评估结果的量表选择等。进行元分析的第一步就是确定效应量在所研究的样本中的变化，如果效应量在所有研究中的变化一致，则关注其平均值，相反如果效应量在不同的研究中存在实质性的变化，就会产生异质性。当系统评价中所包含的研究数量较少时，会导致异质性的统计数据(如方差、标准差、预测区间、I2)不可靠。

　　异质性的问题也会因研究领域的不同而不同，如 Cooper 描述当采用同一种方法研究同一人群时，评估的是具有一致效果的干预措施的影响，这种情况下异质性就会很小。相反，当研究采用不同方法、不同人群、评估不同的干预影响，研究中的异质性就会增强。元分析的意义就是要将结论推广到更大的领域，但是如果研究样本较少，所有的异质性统计数据就会不可靠，尤其是预测区间，那么结论在更宽泛的领域中就会不适用。

　　因此，需要仔细思考结论在未来需要推广的领域，考虑本文研究中的样本数可以在多大程度上代表此结论。如果在元分析中没有检验出异质性的问题，可能会导致将明显不同的人群、结果、环境和时间归为一类。但是 Gene Glass 认为，如果出现这样的情况，可以概括出他们更高一层的共有特征，这样就可以概括出不同人群、环境等出现的同一结论。

　　因此在这种情况下，可以适当忽略他们的单一特征，寻找共同的平均效应量，从而解释本文研究可以观察到的方差及效应量。另外，Deeks 等[4]提出一种解决异质性的方法：“exclude studies”，一般来说将某些研究排除在外会导致偏倚，但作者认为可以排除一些与本文研究主题不太相关的研究，前提是要解释清楚这些不相关的原因，并且排除之后不会干扰研究目标[3]。后续需要主要针对数据集中高度相关文献和中度相关文献做出信度分析，以减少异质性。

　　1.1.3 系统评价中的偏倚系统评价的目的是通过综合几个研究结果，总结有关具体问题的最佳研究。在系统评价的过程中，始终使用透明公开的程序来发现、评价、得出结论，以尽量避免偏倚。但文献检索阶段，大部分有显著结果的研究会比没有显著结果的研究更容易发表，就更容易被纳入系统评价数据，此时会出现数据丢失的情况，那些未发表的研究有可能会高估或低估措施干预的真实效果，导致综合结果的偏倚，这种偏倚通常成为“发表偏倚”(publication bias)[5]。在文献检索时，本文无法在数据库中找到所有相关的研究，并且偏倚还会随着研究问题特征的变化而变化。

　　大部分书目或数据库只涵盖已经出版的文献，Chalmers 和 Frank[6]强调，当本研究在文章中仅纳入并且统计了已发表的文章，为了抵消其中的潜在偏倚，应该特别注明在评价过程中纳入的未发表文章的影响。 Sterne 等[7]认为发表偏倚的存在可能导致一部分研究无法在同行评审(peer-reviewed)的期刊上发表，并且已发表的研究也会有很大一部分不会被书目数据库索引。涉及定量研究的系统评价在文献检索时应调整检索策略，尽量减少发表偏倚的影响。涉及定性数据时，Booth[8]认为可以用不太详尽的方法，但应审查资源范围内的数据，确保检索到足够种类的信息。因此必须仔细考虑获取文献的多种渠道，以及本研究所选择的渠道之间如何相互补充。

　　1.2 信度的类型与评估信度(Reliability)

　　即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度越高，多次测量的结果之间反映的一致性就越大。信度指标多以相关系数表示，大致可分为三类：稳定系数(跨时间的一致性)，等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种：重测信度法、复本信度法、折半信度法、α 信度系数法[9]。本文主要通过复本信度和重测信度来检验文献检索所获证据的可靠性与稳定性。

　　1.2.1 复本信度复本信度(Parallel-forms Reliability)又称为等值性系数，是等值性信度(Equivalence Reliability)的一种，指问卷调查的结果与另一种非常相似的问卷调查结果的变异程度。针对同一组测试对象，运用两份内容相同但题目不同的问卷进行测试，两次结果的相关性程度则为复本信度。相关程度越高，复本信度越高，两次结果的一致性越强。复本信度的困难在于要编制两份等同的量表，在实践应用中会受到一定程度的限制。两份等同量表要包含相同的数目、类型、难度。

　　比起重测信度来，复本信度避免了记忆效应和练习效应，比较适合做长期追踪调查或有难度的测试。但复本信度也存在一定的局限，如有些测验或量表很难找到等同且合适的复本，其次测验的性质会由于重复而发生改变。因此，在利用复本信度做可靠性检查时，一方面要注意两份内容测验的时间间隔，另一方面，注意分析中出现的负相关，并对这种情况得到的可靠性提出质疑。

　　1.2.2 重测信度重测信度(test-retest reliability)又称为再测信度、稳定性系数，是针对同一组测试人员，利用相同内容的问卷在不同的时间点先后测试两次，两次结果之间的差异程度。重测信度是由时间变化所带来的随机误差产生的，反映测验跨时间的稳定性和一致性。根据所测定特质数据的表现方式，重测信度可采用积矩相关系数、等级相关系数和列联系数来表示。从相关系数的大小可以判断，测量结果在经过一段时间后的稳定程度。

　　相关系数越大，测量结果更加一致可靠，重测信度越高，测验环境的随机因素带来的影响也就越小[10]。重测信度适用于异质性调查，尤其是在几部分内容之间不存在相关性或相关性较低时。但由于存在记忆效应，重测的时间间隔不宜过长，并且需要充分考虑重测过程中不同的环境条件带来的测量结果的误差。

　　2 文献证据检索的信度研究设计

　　本研究由两个相互独立但互为支撑的子研究构成，充分考虑了文献检索的查全率和查准率，以及检索过程中所带来的异质性，根据信度的理念和指标，以中文文献最大的数据库——CNKI 为对象，延续“社会认识论”为主题的文献检索以及饱和度研究结论，对不同途径的文献检索质量做出评价。首先构建数据集，将总数据集中的高相关文献与中相关文献按年份分为十组，再应用主题、篇名、关键词、摘要和全文的单项检索与组合检索的十年数据与总数据进行匹配，计算高相关组的匹配比例与中相关组匹配比例。

　　2.1 复本信度复本信度

　　旨在检验通过不同途径的检索方式，检验结果的一致性。应用主题、篇名、关键词、摘要和全文为检索项，判断不同途径的单项检索或组合检索项之间的相似程度，对其查全率和查准率做出评价。

　　3 文献证据检索的信度研究结果

　　3.1 单项检索的信度检验

　　3.1.1 单项检索与高相关集信度检验单项检索本文选择了五种方式：主题、篇名、关键词、摘要、全文。将每一项检索结果分别从 CNKI数据库中导出，与高相关数据集进行比对，计算其不同检索方式的相关系数矩阵及匹配差异的离散程度。除全文检索与其他方式不存在相关性，其他四项之间都存在显著的相关性，具体表现如下：

　　(1)在 0.01 的显著性水平下，主题检索与篇名检索的相关系数最大，达到 0.876，说明主题与篇名的检索结果相似程度最高，可相互替代。再看重测信度，主题检索的方差处于五项之中最高，而篇名检索的方差最低，说明以篇名检索的十年数据是最稳定可靠的。因此单项检索到高相关文献时，可以优先选择篇名检索。

　　(2)关键词检索的可替代性最强，因为关键词检索同时与主题、篇名、摘要的相关系数都达到了 0.8以上，且在 0.01 水平上显著。但基于重测信度结果来看，关键词检索的十年匹配比例之差的离散程度为35.3%，较其他结果处于中间状态，数据较为稳定，因此关键词检索结果比较可取。

　　(3)主题检索与篇名、关键词的相关系数均处于前列，且与摘要检索也在 0.05 的显著水平上，达到0.646的相关度。因此主题检索与这三项的相似程度也比较高，可靠性强，但重测信度结果显示，主题检索的结果并不稳定，离散程度大。因此主题检索应谨慎选择。

　　(4)另外摘要检索的复本信度较高，与关键词、主题的一致性较强，但重测结果并不稳定，离散程度较大。全文检索与其他四种方式都不具有一致性，甚至出现负相关的情况，但是近十年匹配度的结果却较为稳定。以上综合复本信度和重测信度结果，提出在进行单项检索时，优先选择篇名检索、关键词次之，主题检索可以排在两者之后。摘要和全文在检索高度相关的文献时并不可取，因为两者不能同时满足复本信度和重测信度的一致性与稳定性。

　　3.1.2 单项检索与中相关集信度检验

　　以篇名为检索方式总共检索到 30 篇，皆为与“社会认识论”高度相关的文献，因此在中相关的相关性分析中，篇名的数据无效。从单项搜索与中相关数矩阵可以看出，仅有主题检索与摘要检索的相关系数最高(0.73)且显著，说明检索中度相关的文献用主题检索和摘要检索的结果相似。再看重测信度结果，摘要检索离散程度 9%，说明在近十年的匹配度中数据较为稳定。因此在检索中度相关文献时，“摘要”检索的结果最为可靠。

　　3.2组合检索的重测信度组合检索的重测信度

　　以十年数据中每下一年度与上一年度匹配比例差的离散程度来表现，通过标准差系数对不同检索途径做出比较。

　　(1)二项组合检索的重测信度。通过二项组合检索式的年度匹配差异看十年数据的稳定程度。使用 and 检索的策略整体要比 or 检索式的稳定性要和好。在高相关数据集中，“篇名 and摘要”的标准差最小(0.15)，离散程度最小，但同时“篇名 or 摘要”的标准差达到 0.502，恰好是高相关集中匹配最不稳定的检索式。

　　因此想要获得稳定的高相关匹配数据，可以优先选择“篇名 and 摘要”。其次可以选择“主题 or 全文”和“篇名 and 关键词”，离散程度都比较小，数据相对稳定。在中相关数据集中，除去篇名并项检索的 0 值数据外，“关键词 and 摘要”标准差系数最小，“关键词 and 全文”次之。使用 or 运算符连接“全文”项的组合式标准差值均偏大，离散程度较大，需谨慎考虑。

　　4 讨论与结论

　　4.1 讨论

　　本文的信度检验方法融合了时间方面的重测和标准途径方面的复本方法，因此，更能够衡量出实际的检索质量。从复本信度来看，高相关数据集中使用的 and运算符时，检索项之间相似度较高，中相关集使用 or更加相似。我们认为，在检索高度相关文献时，使用and 运算符可以更加精确文献结果，范围变小会导致结果存在很大的重复性，因此检索项之间的相似度也很高，复本信度大;另一方面中相关的文献集不要求本文的检索结果有多精确，反而更要求数据是否全面，因而使用 or 运算符扩大搜索范围，以检索更多中度相关的文章，提高查全率。

　　从重测信度来看，在高相关数据集中，“全文”单项检索的稳定性最高，组合检索出现“主题 or 全文”，离散程度很小，结果最稳定。在中相关数据集中，“摘要”单项检索标准差最小，最稳定，后续的二、三、四、五项组合检索式，凡是出现“关键词 and 摘要”的组合式，都是中相关数据集中最稳定的。这一结果比较意外，因为全文检索的范围很大，是一种模糊搜索的方法，按理说其信度在高度相关数据集中应该属于较低层次，但结果并不是。我们认为全文检索的数量比较多，在每一年份上都比其他方式的数据多出几倍，因此越多的结果就会使本文研究越接近真实的数据，每一年份的差异就会减少，重测信度得到提升。

　　4.2 结论

　　(1)单项检索的信度结果表示，在检索与研究论点高度相关文献时，“关键词”检索在稳定性结果方面更优，如果要求更加全面的结果，可以选择“主题”检索。但“篇名”检索综合二者优势，为最优选择。在检索中度相关文献时，“摘要”检索的结果最可靠。

　　(2)二项组合检索式由于各项之间存在重复，大部分检索项之间都存在很高的相似性。 “篇名 and 关键词”与其他具有显著相关性的检索项匹配系数最高，且重测信度检验也是最稳定的，因此高相关集检索优先选择“篇名 and 关键词”;其次，在中相关的系数矩阵中，复本相似度最高的一组是“主题 and 摘要”和“关键词 and 摘要”，这两组后者的稳定性更强，优先选择后者;另外“主题 or 摘要”在查找高相关和中相关文献时可以替代多种检索方法，搜索结果最全面，包容性强。

　　(3)三项组合检索式中，综合相似程度与数据离散程度，在查找高相关文献可以选择“主题 and 篇名and 关键词”，or 连接时复本信度结果也是最优选择，但稳定性不高。因此可以尝试主题、篇名与关键词的并集组合;另一方面“主题 and 摘要 and 全文”和“主题 or 篇名 or 关键词”分别可以作为两种运算符检索中度相关文献的高复本信度结果，重测信度结果前者更稳定。

　　(4)四项组合时推荐使用“主题 and 篇名 and 摘要 and 全文”的检索式，重测信度表现最为稳定，复本信度结果中，与高度相关数据集匹配适用，与中度相关文献匹配时，使用 or 逻辑运算符连接也同样可以适用。

　　(5)五项组合检索式只能从重测信度角度来看，or 运算符在任意数据集中都会表现的更稳定可靠。本文基于循证视角，对文献证据检索的信度进行了研究，探索了不同检索途径的复本信度与重测信度。凭借信度评价指标，保证证据检索的稳定性与一致性，在为系统评价和元分析提供更高质量证据的基础上，有望为整个科学领域的循证研究质量评价提供理论支撑，并为循证社会科学等领域的的系统评价和元分析提供更高效、可靠的文献检索方法。

　　参考文献：

　　[1] 杨克虎，李秀霞，拜争刚.循证社会科学研究方法[M].兰州：兰州大学出版社，2018.

　　[2] Mann Thomas.Library research models：A guide to classification，cataloging，and computers[J].The Journal of Academic Librarianship，1994，20(4):236-237.

　　[3] Michael Borenstein，Common Mistakes in Meta-Analysis And How to Avoid Them[M].Cambridge Univ Pr，2005.

　　[4] Deeks J J，Higgins J P，Altman D G.Analysing Data and Undertaking Meta‐Analyses[M].John Wiley .Sons，Ltd，2008.

　　[5] Cooper Harris Ed.The Handbook of Research Synthesis and Meta-Analysis.Third Edition[M].Russell Sage Foundation,2019.

　　[6] Chalmers Thomas C Cynthia S，Frank Dinah Reitman.Minimizing the Three Stages of Publication Bias[J].Journal of the AmericanMedical Association，1990，263(10)：1392-1395.

　　作者：卢洁妤 1 魏志鹏 2，3 周文杰 1，3 杨克虎 2，3

上一篇：源头活水绿色金融之于经济发展基于金融理论视角的解构下一篇：无人机影像增量式运动恢复结构研究进展