生物医学领域科学数据集复用特征研究

时间：分类：农业论文浏览次数：

摘要：[目的/意义]随着数据技术的进步，围绕科学数据集进行的管理和研究工作均受到广泛关注。科学数据集复用可以使科学数据资源得到有效地开发和利用，实现科学数据集价值最大化。本文着眼于科研人员数据集复用行为，探索其特征和偏好，以期为科研人员复用数

　　摘要：[目的/意义]随着数据技术的进步，围绕科学数据集进行的管理和研究工作均受到广泛关注。科学数据集复用可以使科学数据资源得到有效地开发和利用，实现科学数据集价值最大化。本文着眼于科研人员数据集复用行为，探索其特征和偏好，以期为科研人员复用数据集、科研机构进行科学数据管理和数据服务提供参考。[方法/过程]文章运用文献计量方法从多个维度统计分析PubMedCentral的OpenAccess文献中科学数据集复用行为的特征规律，并对高频复用的科学数据集和文献的被引情况进行解析。[结果/结论]研究结果表明：生物医学领域科研人员数据集复用现象较为普遍;相对于没有数据集复用的文献，有数据集复用的文献被引量更高;数据集的复用频率和论文影响力之间存在显著的正向相关关系，说明复用已广泛使用的科学数据集除了能够减轻其数据获取的负担，还能够在一定程度上扩大研究成果的影响力。此外，共享科学数据集也可以为数据集提供者带来相应的引文和学术声誉收益。

　　关键词：数据复用;科学数据集;生物医学;文献计量;信息抽取

生物医学

　　2009年微软曾在《Science：科学研究的第四种范式》论文集中提出，在诸多学科中，科学研究范式已经由基于假设的研究(实验、理论、仿真)向基于探索的研究——数据密集型计算(ataIntensive)进行演变[1]。在此之后，通过探索和挖掘数据以获取所需信息逐渐成为科学研究的趋势。

　　生物方向评职知识：生物医学工程研究是什么期刊

　　越来越多的科研人员开始意识到研究数据能够为后期的科研工作提供原始资料，而且成为科研活动的重要产出之一。作为科学文献中使用的数据集合，科学数据集是当今时代学术资源开放存取的重要组成部分，也是数据公开共享的重要内容。合理利用开放的科学数据集将会为个人和社会带来巨大的效益和回报，包括数据重复搜集过程的减少、科研效率的提高以及科研产出的增加[2]。

　　工程学[3]、社会科学[47]、健康科学[8]、生物学[9]等领域科研人员的科学数据集复用实践均有较为长远的历史，关于科研人员数据集复用行为的研究成果日益丰富。近年来，相关学者主要从以下视角对科学数据的复用展开研究。①数据复用的影响因素。文静等[10]、李佳潞[11]和魏银珍等[12]对不同研究领域的科研人员数据复用意愿的影响因素进行了探究。Kim等[13]结合制度理论和计划行为理论制定了一个综合的理论框架，探索了影响科学家数据复用行为的因素。

　　Yoon等[14]从复用者的角度出发，采用定量方法探讨了数据复用中的正向影响因素。②数据复用的使用意愿和感受。Renata等[15]结合理性行为理论，使用DataONE的全球科学家调查报告，从科学家自我评估的角度研究其复用数据的信念、态度与复用行为之间的关系。Fanie等[16]利用信息系统和信息科学领域的文献构建了一个模型来探讨数据质量和数据复用者满意度之间的关系。③数据复用的政策研究。孙浩和陈美[17]从政策法规的角度调查了荷兰政府开放数据的政策支持和法律保障，为我国政府开放数据提供参考。邓灵斌[18]运用文献调研和综合分析等方法，阐述《数据安全法(草案)》的制订历程、主要内容、亮点与特色以及有待完善之处，并对我国图书情报界提出对策和建议。④数据复用的标准制定。

　　《医学图书馆协会杂志》(JapanMedicalLibraryAssociation，JMLA)制定并从2019年10月日起开始实施了一项数据共享政策，该政策有利于提高已发表研究的严谨性和可重复性，实现数据复用并促进开放科学[19]。RoaMartinez等[20]提出一种基于数据集元数据的元素定义通用结构，为各种角色的专家学者识别、共享和评估数据复用提供服务。Abella[21]结合BernersLee的星级模型和其他因素评估了巴塞罗那开放数据门户网站上数据集的质量。图书情报机构也制定了一系列标准和方案，如数据类型和格式标准(如PRONOM1，ResearchDataAlliance2)、元数据方案(如schema.org)[22]。

　　其他学者从数据集复用行为的模型和框架[23]、道德准则[24]、复用收益[25]等方面为数据集复用提供了相应的理论与实践支持，以保证数据集的完整性、真实性、合理性和有效性，实现数据的可持续使用。鉴于目前国内外关于科学数据集复用识别及复用特征探究的研究较少，为进一步补充现有研究，本文首先基于规则自动识别出生物医学领域科学文献中的科学数据集，然后根据科研人员复用数据集的行为特征和偏好，探索数据集的可靠性以及学术影响，以期为科研人员复用数据以及科研机构进行科学数据管理和数据服务提供参考。

　　1数据收集与处理

　　1.1数据来源

　　本文从NCBI中的PubMedCentral(PMC)开放获取子集(OpenAccess)采集文献全文并识别其中的科学数据集。NCBI(NationalCenterforBiotechnologyInformation)是美国国家生物技术信息中心，隶属于美国国立卫生研究院下设的国家医学图书馆，不仅拥有大约40个在线文献和分子生物学数据库，也提供在线生物医学信息和生物信息学工具。PMC是包含了生物医学和生命科学期刊文献的数字信息中心，其中的开放获取子集允许用户通过服务接口批量检索并下载文献集合进行文本挖掘。本文通过PMC提供的FTP服务接口批量下载了2020年之前的文件包，根据索引文件获取文献的基本信息，然后提取本地文件包中NXML格式的全文文献，获得2687283篇文献。

　　1.2基于规则的科学数据集识别

　　在2687283篇文献的基础上，本文选择具有代表性且格式规范的GeneExpressionOmnibus(GEO)、RefSeq、Assembly和ClinVar数据库，获取文献并识别出文献中的数据集。CBI已为这个数据库中的科学数据集分配唯一标识符——登录号，并允许通过登录号的整数扩展跟踪记录的更改版本。

　　在科学数据集识别结果的基础上，根据规则深入解读NISOJATS1.2期刊文献标签集，挖掘并获取存在科学数据集利用行为的文献信息，包括文献所在期刊名称、文献类型、作者、出版年份等。为获取复用的数据集以及所在文献的相关信息，本文统计了同一数据集在有数据集利用行为的文献中出现的次数，并按照数量降序排列，去除数量为的数据集及相关记录，余下11242个复用的数据集、77189篇有数据集复用行为的文献，以此作为后续数据集复用特征研究的基础。

　　2科学数据集复用特征分析

　　2.1数据集复用时间特征分析

　　分析生物医学领域有科学数据集复用行为的文献及文献中复用的科学数据集，其时间分布特征展示如下：①数据集复用最早可追溯至1999年D.MEckley等的研究，该研究参考了最早由M.D.Welch等[26]提及的NP_005712肌动蛋白相关蛋白同源物的序列，使用生化、超微结构和分子克隆技术分解了强肌动蛋白，获取其蛋白结构和序列组成，并将实验数据集提交至NCBI;②200年，只有%的数据集得到了复用，而在20年，这一比例达到了51%。

　　③近年来，数据集的数量和论文数量都在迅速增长，得到复用的数据集增长速度更快，说明单篇文献中数据集数量增加;④2006年以后，生物医学领域科学数据集复用呈线性高速增长趋势，这与近10余年来从知识范式到数据范式的数据科学发展时间历程基本吻合，一定程度上反映出开放科学环境下数据集复用的蓬勃发展之势。具体如图所示。

　　2.2期刊的研究领域分析

　　本文以中科院文献情报中心2019年期刊分区表(简称中科院分区表)为基准了解期刊的研究领域并评估其影响力。中科院分区表是在各学科内依据年平均影响因子对汤森路透每年度发布的SCI期刊划分分区。它包括大类分区(及Top期刊)和小类分区：大类是参考国内高校依据国务院学位办分类体系，结合SCI覆盖内容设计形成;小类则借用JCR学科分类体系，并对JCR中期刊刊名更名合并的情况进行了规范处理。

　　经过统计发现，存在数据集复用的文献共发表在2314种期刊上。按期刊发文量降序排列，排名前100的期刊占论文总数的72%，其中包含89本SCI期刊。使用中科院分区表对89本SCI期刊的研究领域进行统计，期刊大类包含工程技术、化学、环境科学与生态学、农林科学、生物、医学和综合性期刊。其中环境科学与生态学、生物、医学、综合性期刊都包含Top期刊。生物区的Top期刊数量最多，为数据集复用提供了较大的平台，而环境科学与生态学、综合性Top期刊出现在统计结果中，说明了生物医学领域数据集复用的跨学科性。

　　3结论

　　本文首先通过规则自动识别PMC开放获取子集文献中带有利用频次的数据集，去除利用次数为的数据集，以余下311242条复用的数据集、7718篇文献为研究样本，运用文献计量方法从多个维度揭示科研人员数据集利用行为的特征规律，并对高频复用的科学数据集和文献被引情况进行了解析，得出以下结论：

　　1)生物医学领域复用数据集的现象逐渐频繁。数据集复用行为最早可追溯至1999年，数据集复用高度集中分布于2006—2019年，2017年以后PMC数据集复用数量高速增长。相对于发表年限较长的文献，在近期发表的文献中科研人员更愿意公开、清晰地展示相关数据集，以提供测试样本的数据来源。

　　2)存在数据集复用行为的文献呈现出一定的学科特征，复用数据集的类别较为集中。遗传学和肿瘤学研究受到的关注度更高，且研究内容和研究方法的学科交叉性较为明显。得到复用的数据集大多是基因组、转录本和蛋白序列记录的集合。

　　3)数据复用有助于扩大研究的影响力。科研人员利用复用频率较高的科学数据集可能会增加文献的被引频次，从而在一定程度上扩大文献的影响力，同时也可以为数据集提供者带来更高的数据集利用收益和引文收益。

　　本文作为生物医学领域数据复用探索性研究的一步，其结论不仅可以为数据管理和服务提供依据，还可以为后续的研究提供素材，但难免存在一些不足：仅以生物医学领域为例，使用文献计量方法进行研究，无法深入分析数据集的内容信息，在以后的工作中将会从其他角度继续挖掘科研人员复用数据集的行为规律。

　　参考文献

　　[1]Thefourthparadigm:dataintensivescientificdiscovery[EB/OL][20200926]. http://research.Microsoft.com/enus/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf

　　[2]涂志芳.科学数据出版的基础问题综述与关键问题识别[J].图书馆,2018,285(6):9096,104.

　　[3]JOOYK,KIMY,BLOECHLEM.Engineeringresearchers’datareusebehaviours:astructuralequationmodellingapproach[J].ElectronicLibrary,2017,35(6):11411161.

　　[4]YOONA,KIMY.Socialscientists’datareusebehaviors:Exploringtherolesofattitudinalbeliefs,attitudes,norms,anddatarepositories[J].Library&InformationScienceResearch,2017,39(3):224233.

　　[5]FANIELIM,FRANKRD,YAKELE.Contextfromthedatareuser’spointofview[J].JournalofDocumentation,2019,75(6):12741297.

　　作者：焦红,杨波,周琪

上一篇：浅析加快推进农作物病虫害绿色防控工作的对策下一篇：我国秸秆焚烧管理和综合利用的法律法规研究及建议