学术咨询

让论文发表更省时、省事、省心

档案机构参与科学数据归档管理的模式、问题与对策

时间:2022年07月01日 分类:经济论文 次数:

摘 要:[目的/意义]档案机构参与科学数据归档管理,对优化科学数据管理流程及实现科研档案与科学数据协同管理具有重要意义。[方法/过程]文章以 DCC 数据管护模型作为分析框架,采用案例研究法对国内外科研院所、科研型企业、高等院校的科学数据管理实践实例

  摘 要:[目的/意义]档案机构参与科学数据归档管理,对优化科学数据管理流程及实现科研档案与科学数据协同管理具有重要意义。[方法/过程]文章以 DCC 数据管护模型作为分析框架,采用案例研究法对国内外科研院所、科研型企业、高等院校的科学数据管理实践实例进行研究,识别出职能合并式、资源共享式及独立运行式 3 种档案机构参与科学数据管理的主要模式。[结果/结论]研究结果显示,档案机构当前未能广泛参与到科学数据管理战略规划的制定之中,科学数据管理存在数据质量源头管控缺乏、数据价值鉴定工作缺失、数据长期保存技术单一、数据共享利用监管有待加强、数据集成服务有待完善等问题。未来档案机构应从提升数据管理意识、加强与科学数据管理机构的沟通协作、推进可行模式的探索等方面积极参与科学数据管理。

  关键词:科学数据;科研档案;档案机构;数据管理

档案管理

  1 引言

  随着大数据时代的到来和数字经济的繁荣发展,数据作为生产要素的价值与日俱增。其中,科学数据在促进科技创新、国家安全等方面更具有不可替代的战略价值。在科学研究领域,“数据密集型”科研范式的出现,标志着未来的科研流程将更大程度地建立在数据基础之上[1]。随着全球科技创新能力的不断提升,科学数据数量呈现“井喷式”增长态势。以航空航天领域为例,美国航空航天局每天要处理约24 TB 的数据;我国空间环境地基监测系统“子午工程”一期和二期项目的年生产数据总量超过 6.8 PB,数据类型超过 200 种[2]。但与此同时,受限于不恰当的管理方式,大量数据正面临着丢失、内容不可读取、共享和复用困难等风险,尤其是不可重复观测的数据更是如此[3]。为此,需要对科学数据进行存档管理,并提供支持信息以促进数据复用,实现验证发表结果、开展元分析、提出新问题、增加引用率、支持教学等目标[4]。为了更好地实现科学数据全生命周期管理,维护科研成果的完整性,确保研究结论的长期可应用性,各国政府相继出台政策,科研院所、高校纷纷制定规章制度,以应对日益紧迫的科学数据管理问题。

  一些科研资助机构、国际监管机构和科技期刊也要求将原始数据保存在永久的开放存取档案库中[5]。国务院于 2018 年出台《科学数据管理办法》(以下称《办法》),将科学数据管理上升到国家高度,提出了科学数据管理原则并明确各责任主体职责[6]。在《办法》的指导和要求下,我国依托行业主管部门及科研院所建立了“国家高能物理科学数据中心”“国家基因组科学数据中心”等 20 个国家科学数据中心,对多学科领域的科学数据进行管理和共享[7],并形成“数据中心”和“数据中心+数据论文”2 种主要管理模式[8]。但是,在数字信息资源保存方面具有坚实理论基础和丰富实践经验的档案机构在科学数据管理中呈现缺位状态。2020 年 10 月,《科学技术研究档案管理规定》修订出台,明确科学数据属于科研档案的归档范围[9]。在此背景下,档案机构应如何合理参与科学数据管理并发挥相应的作用成为值得深入探讨的议题。

  当前,国内外学术界对于档案机构参与科学数据管理的相关研究较少,多将档案机构作为科学数据管理的利益相关者,探讨档案机构参与科学数据管理的动因、权责及有关路径。Geoffery 等[10]认为档案馆应保证科学数据是长期可用的。Schumann 等[11]提出档案馆可以通过制定可信赖数字档案馆标准、启用数据批准印章(Data Seal of Approval,DSA)等措施保障社会科学数据的真实性。盛小平等[12]认为档案馆是科学数据开放共享的利益相关者之一,具有制定相关政策标准、收集存储与组织科学数据、提供数据培训与监管服务等职责。闫鹏[13]基于利益相关者理论,提出档案部门可为科学数据管理提供理论指导与实践服务。何思源等[14-15]从概念、管理、风险收益 3个层面分析了档案机构参与科学数据管理的合理性,并提出档案部门和科学数据管理部门的新型协作模式。王宁等[16]对国际组织相关成果开展分析,提出档案学视角下科学数据管理的优化路径。霍倩等[17]从政策工具角度分析科学数据管理政策,得出档案部门科学数据管理的启示。

  在国际实践领域,档案管理的理念已逐步渗入到科学数据管理之中。一方面,部分科学数据存储库的责任主体并未直接包含档案机构,但仍以“数据档案馆”命名,如英国数据档案馆(UK Data Archive)、爱尔兰社会科学数据档案馆(Irish Social Science Data Archive,ISSDA)等;另一方面,一些档案机构已经直接参与到科学数据管理之 中 ,如 美 国 国 家 大 气 科 学 研 究 中 心(NationalCenter for Atmospheric Research,NCAR)下设专门的档案管理机构,对其项目产生的科学数据进行管理以支持科学研究[18]。丹麦数据档案馆(The DanishData Archive)则是由国家档案馆为科研人员和学生提供研究数据集[19]。综上所述,本文从现实出发,选取国外科学数据管理实践典型案例开展比较分析,梳理国内外科学数据管理工作的现状与特点,在此基础上归纳档案机构参与科学数据管理的不同模式,并结合我国当前实际提出针对性的优化对策,以期为实现科学数据多方协同共治提供参考借鉴。

  2 研究方法与案例选取

  2.1 研究方法

  本文主要采用案例研究方法,以 DCC 数据管护模型为基础,构建理论分析框架,在此基础上开展对国内外科学数据管理实践案例的收集与案例数据的分析。在对国内案例开展调研时,辅以焦点小组访谈法,以档案机构工作人员、科学数据管理机构工作人员为访谈对象,聚焦研究问题进行半结构化访谈,尽可能详细地考察当前档案机构参与科学数据管理的现状。

  2.2 案例选取与数据收集

  本文在案例选取上主要有以下 3 方面的考虑:一是,不同类型机构需有较为丰富的科学数据管理实践经验;二是,综合平衡国内外案例,选取不同学科领域具有代表性的档案机构作为调研对象;三是,调研对象的科学数据管理涵盖自然科学领域及社会科学领域,应涉及科研院所、科研型企业、高等院校的科学数据管理机构(如科学数据中心、图书馆)及档案机构。经过前期的网络调研与文献回顾,并考虑案例资料的可获取性,选择国家空间科学数据中心(National Space Science Data Center,NSSDC)、国家基因组科学数据中心(National Genomics Data Center,NGDC)、天津中交第一航务勘察设计院有限公司、澳大利亚数据档案馆(The Australian Data Archive,ADA)、美国国家大气研究中心(The National Centerfor Atmospheric Research,NCAR)作为研究案例。

  NSSDC 和 NGDC 分别依托于中科院国家空间科学中心与中科院北京基因组研究所,拥有大量的科学观测与研究数据,由于观测数据的收集耗时长、成本高、长期复用价值大,因此,对科学数据管理的要求也比较高。NSSDC 是世界数据系统(World DataSystem,WDS)的正式成员,是被美国地球物理学会(American Geophysical Union,AGU)认可的学术论文关联数据仓储库。2020 年 10 月,NSSDC 通过 CoreTrust Seal 国际数据中心资质认证,成为亚太地区空间领域首家通过认证的数据中心。NGDC 面向我国人口健康和社会可持续发展的重大战略需求,建立生命组学大数据汇交、存储、安全管理、开放共享与整合挖掘研究体系。

  作为 2019 年我国新批准建设的 2家国家级科学数据中心,其科学数据管理相较于其他研究机构更为成熟,但尚未将档案机构纳入管理体系。研究国外同类机构的发展轨迹,探索将具备成熟电子文件管理经验的档案机构纳入科学数据管理体系,形成更加稳定的科学数据治理体系,可为我国未来档案机构参与科学数据管理提供借鉴。由于部分细节问题无法通过网络资源获取,因此,还对两所科学数据中心的领导、管理人员及技术人员等进行了半结构化访谈以充实资料。天津中交第一航务勘察设计院有限公司将科研档案、科学数据与企业知识管理系统相融合,在企业科学数据管理实践上处于领先地位,因而是一个具有典型意义的研究案例。美国 NCAR 始建于 1960 年,其宗旨是领导和促进大气、地球和太阳系科学研究和创新[20]。

  NCAR 研究范围包括气候变化、大气成分变化、日地相互作用、天气信息预报及对人类社会产生的影响,在长期保存与管理科学观测数据方面积累了丰富经验。ADA 隶属于澳大利亚国立大学社会研究与方法中心(Centre for Social Research and Methods,CSRM),成立于 1981 年,是通过 Core Trust Seal 认证的科学数据存储库,主要收集保存与社会、政治和经济事务有关的数据,为大学、政府和其他部门的众多社会科学研究者提供在线获取、记录、保存和传播社会科学数据的服务[21],在社会科学数据管理方面具有代表性。数据收集的具体过程如下:

  首先,浏览和观察 5个案例的官方网站,重点关注与科学数据生命周期各个环节相关的政策性文件、平台资源建设情况,对各案例当前科学数据管理的现状进行初步了解;其次,基于案例分析框架设计半结构化访谈提纲,对国内 3 个案例中的 NSSDC、NGDC 和天津中交第一航务勘察设计院有限公司的相关人员进行深度访谈,涉及目前科学数据管理的现状、面临的问题与挑战、对档案机构参与科学数据管理的看法和建议等。在征得访谈对象同意后,对访谈过程进行全程录音,访谈结束后,尽快转录录音文件,形成案例分析的核心资料;最后,为保证数据资料的信度和效度,还对不同来源的资料进行三角互证,对存在异议或表述不清楚的内容及时通过电话视频等形式予以补充和校正,以此保证资料收集的真实可靠性。受疫情影响,关于ADA与NCAR的案例数据主要通过互联网收集。

  3 研究过程

  3.1 理论框架

  构建为了更有效地推进数据管理实践,相关机构纷纷提出概念化模型指导实践工作,其中以英国数据管护中心(Digital Curation Centre,DCC)的数据管护模型最具代表性。该模型的适用对象包含任何二进制数字形式的信息,包括简单的数字对象(文本、图像、声音文件)、稍复杂的数字对象(网页)以及结构化的数据存储库等[22]。

  数据管护生命周期活动包括描述和表示信息、制定保存计划、社区观察与参与、管护和保存,由此引起的顺序性行动包括概念化、产生或接收、鉴定与筛选、采集、保存、存储、获取、利用、复用、转化与迁移,偶然性行动包括处理、再鉴定和迁移。针对数据生命周期顺序中的每一个行动,DCC都进行了相应的清单制定以确定该步骤的内容要点。DCC 数据管护模型揭示了贯穿于数据全生命周期的管护行动,本文据此构建案例分析框架,如图 1所示,用以指导科学数据管理实践案例的分析,探究档案机构参与科学数据管理的程度、方式及面临的问题与挑战。

  3.2 案例分析

  本文所收集的案例资料主要是政策文件资料和访谈数据。根据案例分析框架,设定政策与访谈定性数据内容分析编码表,包括科学数据管理的战略规划、数据收集、数据处理、数据保存、数据利用与服务5 个生命周期阶段。同时,运用开放性编码方法对科学数据归档保存进行重点分析。其中,政策文件资料采用手动编码,机构工作人员访谈材料录入 Nvivo 进行系统编码,并将两者内容进行提炼整合。在此基础上,对档案机构参与科学数据管理的模式与现存问题进行识别与归纳,并针对问题提出对策建议。

  3.2.1 科学数据管理生命周期编码分析由于篇幅限制,此处仅以表格形式归纳 NSSDC、NGDC、天津中交第一航务勘察设计院有限公司、澳大利亚 ADA、美国 NCAR 在战略规划、数据收集、数据处理、数据保存、数据利用与服务 5 个阶段的科学数据管理工作要点。

  3.2.2 科学数据归档保存分析

  归档保存是档案文件全生命周期管理的核心工作,相关的方法和规则经过多年实践已经十分成熟,但是对于科学数据管理而言仍属于比较新的挑战,一些科学数据管理机构甚至还未开始考虑数据归档与长期保存的问题。NSSDC 等 5 家机构的科学数据归档保存方式各有特点。

  4 研究发现与结论

  4.1 档案机构参与科学数据管理的模式科学数据的归档保存可以借鉴档案文件的归档管理模式,为档案机构参与科学数据管理提供了契机。根据表 1 和表 2 的案例资料编码分析结果,识别出档案机构参与科学数据管理的 3 种主要模式:资源共享式、职能合并式及独立运行式。

  4.1.1 资源共享式NCAR 下设科学数据中心、图书馆、档案机构等信息管理机构,同时配备可以互操作的一站式检索平台实现包括科研档案及科研数据在内的各类科研信息资源的检索。本文将此模式界定为科学数据与科研档案的资源共享模式。该模式为实现科学数据与科研档案的协同管理提供了新思路。在资源共享管理模式下,一站式检索平台不仅能更大程度地提高用户访问各类科研信息资源的效率,优化用户体验,同时也能降低日常归档、保管和利用服务等有关工作环节所带来的成本能耗。需要注意的是,该模式需要设置一个专门机构进行规划指导,通过制定顶层政策、强化沟通联系、开展协同合作等措施,实现跨部门资源的统筹集成与互操作应用。

  4.1.2 职能合并式

  ADA 与我国中交第一航务勘察设计院有限公司将档案管理和科学数据管理的职能进行合并,由同一机构统一开展科研信息资源管理工作,本文将此模式界定为科学数据与科研档案管理的职能合并模式。该模式将传统档案机构成功升级转型,实现科研档案与科学数据的协同管理,甚至承担知识管理的职能。职能合并式管理模式对档案机构参与科学数据全生命周期管理而言是一种可行的参考模式,该模式下的管理人员应具有“双重身份”,一方面要深谙现代档案管理的理念与方法,另一方面又要掌握数据挖掘开发与服务应用的先进技术。对于大型技术型企业和具备条件的科研机构,可尝试采用该模式,将科学数据与科研档案的归档管理相关联,实现科研链条全过程管理,为科研活动提供强有力的信息保障支撑。

  4.1.3 独立运行式

  NSSDC 与 NGDC 在开展科学数据管理工作时,尚未与档案机构业务进行协同,本文将此模式界定为科学数据管理中心的独立运行管理模式。该模式下科学数据管理机构与档案机构互不干涉,各有侧重。科学数据管理机构侧重于科学数据本身的统一开发与利用。档案机构侧重于科研档案的管理,重记忆留存,对科学数据本身归档的指导与干预较少。由于档案机构在数据管理技术和分析利用方面的水平尚不及科学数据中心,因此,独立运行模式是当前我国科学数据管理最普遍的模式。总体而言,在科研范式转变的新时代学术背景下,档案机构亟需重新审视自身定位。随着《科学数据管理办法》《科学技术研究档案管理规定》等相关法规的实施,档案机构以科研档案管理为切入点深度参与科学数据管理势在必行,档案机构协同科学数据中心、图书馆等信息机构实现科研过程全链条的信息保障工作将是未来科学数据管理的重点。

  4.2 科学数据中心独立运行模式存在的问题

  通过前述案例访谈及实际调研可知,天津中交第一航务勘察设计院有限公司、ADA、NCAR 的档案机构已通过职能合并或资源共享模式参与科学数据管理。本文主要结合档案管理理论与方法,探讨独立运行模式下 NSSDC 与 NGDC 的科学数据管理实践现状及存在问题,从中发现档案机构参与科学数据管理的契机并提出对策建议。

  4.2.1 档案机构战略规划失位的问题档案机构职能缺位,参与科学数据管理的合规性不足。根据《科学数据管理办法》及调研发现,在管理范畴上,当前我国科学数据管理的战略规划对象主要还是聚焦于科学数据本身,与科学数据相关联的文档与背景信息等并未被纳入其中。在管理机构方面,较为强调科学数据中心对科学数据进行全生命周期管理,而档案机构未被认定为科学数据管理的法定责任主体。在独立运行模式下,科学数据由科学数据中心保存管理,科研档案则由中科院档案馆保管,两者之间的天然联系被割裂,在管理上基本不存在业务协同,未实现各类科研信息资源的集成与互操作,难以满足研究者在同一时间点既获取科学数据又了解其科研项目背景信息的需求。

  4.2.2 科学数据源头失控的问题科学数据缺乏源头管控,数量完整性难以得到保障。当前,科学数据管理机构未在科研项目立项时对科学数据实施源头管控,科学数据的质量也因此受到一定影响。研究发现,科研人员主动向科学数据中心汇交的科学数据主要包括 2 类:项目研究数据、论文发表所形成和使用的数据。一方面,项目研究所产生的数据是否完全汇交,在很大程度上取决于科研人员的个人意愿,部分项目存在科研人员流动风险,使得数据极易留存在科研人员手中,出现数据孤岛问题;另一方面,因发表论文需要,一些调查、实验所形成的数据流入国际数据库,导致数据主权丧失档案管理部门在价值鉴定、安全审查方面已经形成成熟规范,但由于没有从一开始就介入科研数据管理的战略规划与制度建设,致使科学数据面临散失与流失风险,完整性难以得到保障。

  4.2.3 科学数据价值鉴定缺失的问题

  数据价值鉴定工作缺失,管理成本与效益难以平衡。当前,科学数据数量呈指数级增长,开展数据价值鉴定工作已迫在眉睫。数据价值鉴定工作主要包括 2 个方面:一是确定数据的保存期限;二是对保存期满的数据进行续存、销毁等处理。研究发现,科学数据管理机构缺乏完备的科学数据价值鉴定方案,难以准确判断数据保存价值、合理划分数据保存期限及对失去保存价值数据的处置方式,在对数据的价值鉴定主体、鉴定方法、保存期限、销毁方式等关键问题上均未形成科学认知。如 NSSDC 和 NGDC目前采取“一刀切”方式,即永久保存所有科学数据,尚未考虑数据删除或销毁问题,只有当科学数据出现重大质量问题如存在造假、篡改时,才会启动销毁程序。随着科学数据的不断增加,尤其在当前“碳达峰”与“碳中和”的能源约束条件下,一刀切模式将会带来管理成本投入增加与利用效益不平衡的风险。

  4.2.4 科学数据存储技术单一的问题

  数据保存技术单一,难以维护数据的长期可读性。科学数据在长期保存过程中会面临格式过时、算法陈旧、版本升级、储存库变迁等诸多问题,科学数据管理机构需制定长远的保存规划,在技术可行、成本可控、风险可预的前提下,采取综合性的保障手段进行应对[23]。调研发现,科学数据中心长期保存科学数据的技术较为单一,如 NSSDC 仅采用容灾备份这一常规手段对不可再生的科学数据(如卫星的原始观测数据等)进行长期保存,虽然也会根据科学数据的存储量及活跃度进行迁移处理,但事实上,这些技术难以保证科学数据在长期保存过程中运维环境的一致性及数据内容的完整性,数据的可读性仍然受到挑战。

  4.2.5 科学数据共享中存在数据滥用的问题

  在科学数据共享与服务中,数据滥用行为缺乏监管,数据集成服务有待完善。合理安全利用科学数据对维护国家安全、社会公共利益、商业机密、个人隐私具有重要意义[6]。科学数据中心目前已采取多种方式保障科学数据的安全利用。以 NSSDC 为例,一是,实行科学数据分级分类管理,如按照数据来源项目、所属领域、使用热度等确定管理级别;二是,签订共享协议,依据科研人员要求,部分科学数据需申请使用;三是,设置数据保护期,如天文领域的科学数据在保护期内(可为 1 年、2 年、3 年等)暂不公开共享。以上措施主要约束了科学数据的利用权限、利用范围与利用时效,而较少涉及科学数据的利用途径与利用行为,隐私泄露、违规利用等滥用问题无法得到有效解决。此外,科学数据中心通过线上线下提供多元的数据服务,包括数据应用工具开发、数据产品定制、数据系统设计与建设、数据出版、异构数据库一站式检索等多项服务,但还未能实现科学数据与相关科技文件材料、科研档案之间的整合与互操作,而这也是未来档案机构参与科学数据管理的建设重点。

  5 结语

  本文主要采用案例研究方法,通过对 NSSDC、NGDC、天津中交第一航务勘察设计院有限公司、ADA、NCAR 等国内外案例进行分析研究,识别出职能合并式、资源共享式、独立运行式 3 种档案机构参与科学数据管理的模式。调研发现,当前档案机构未能参与到科学数据管理战略规划的制定之中,科学数据管理存在数据质量源头管控缺乏、数据价值鉴定方案缺失、数据长期保存技术单一、数据共享利用监管有待加强、数据与档案文件的关联服务有待完善等问题。未来档案机构应从提升数据管理意识、加强与科学数据管理机构的沟通协作、推进可行模式的试点探索等方面参与科学数据管理。

  受限于案例资料的可获取性,本文未能将国内高校的科学数据管理实践纳入案例对象。事实上,随着科学研究范式的转型发展和科研档案及科学数据管理的不断深化,如何发挥档案机构在科学数据管理中的作用,如何实现科学数据与科研档案的协同管理,这些问题值得深入探讨。未来可对不同国家、不同地区、不同类型的科学数据管理机构及档案机构展开更为广泛的调研考察与对比分析,结合科研人员对科研档案及科学数据的利用需求,提出更具合理性、适用性与实践性的研究结论。

  参考文献:

  [1] HEY T,TANSLEY S,TOLLE K.The Fourth Paradigm:Data-Intensive Scientific Discovery[M].Published byMicrosoft Research,2009.

  [2] 国家空间科学数据中心.数据来源[EB/OL].(2020-09-20)[2022-03-19].

  [3] 王芳,慎金花.国外数据管护(Data Curation)研究与实践进展[J].中国图书馆学报,2014,40(04):116-128.

  [4] WHITLOCK M C. Data archiving in ecology and evolution:best practices[J]. Trends in Ecology andEvolution,2011,26(02):61-65.

  [5] MILLS J A,TEPLITSKY C,ARROYO B,et al.Archiving Primary Data:Solutions for Long-Term Studies[J].Trends in Ecology & Evolution,2015,30(10):581-589.

  [6] 国务院办公厅.国务院办公厅关于印发科学数据管理办法的通知[EB/OL].(2018-03-17)[2022-03-19].

  选自期刊《科技情报研究》第4卷第3期

  作者信息:❋王 芳1 韩家钰2 卜昊昊31.南开大学商学院信息资源管理系,天津 3000712.中国航空工业集团公司西安航空计算技术研究所,西安 7100683.中国人民大学信息资源管理学院,北京 100872

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问