学术咨询

让论文发表更省时、省事、省心

学术数字图书馆二十年从数字化合作到数字知识服务联盟

时间:2022年03月18日 分类:经济论文 次数:

摘要2001年,在教育部的支持下,大学数字图书馆国际合作计划(CADAL)项目联合全国学术图书馆开展数字化合作,致力于数字图书馆的共建共享。二十年间,全国共有841个学术图书馆参与其中,数字化合作的模式从资源共建发展到多元化共享,数字化合作的内容从大规模数字化发

  摘要2001年,在教育部的支持下,“大学数字图书馆国际合作计划”(CADAL)项目联合全国学术图书馆开展数字化合作,致力于数字图书馆的共建共享。二十年间,全国共有841个学术图书馆参与其中,数字化合作的模式从资源共建发展到多元化共享,数字化合作的内容从大规模数字化发展到特藏库建设,数字化合作的技术探索也逐渐走向智能化。CADAL项目参与成员众多、资源全面丰富、辐射范围广泛,将分散全国的各个学术图书馆凝结成一个合作共同体,充分发挥了纽带和桥梁作用。随着数字时代的快速发展和读者需求的不断变化,2021年全国学术图书馆数字化合作升级,正式成立数字知识服务联盟,共同探索信息资源和知识资源共建共享的新型模式和学术信息资源全面保障的解决方案。

  关键词数字图书馆学术图书馆CADAL项目数字知识服务联盟

数字图书馆论文

  引言学术图书馆是指高校图书馆和专业图书馆等具有学术性和学术支撑服务的研究型图书馆[1]。学术数字图书馆是学术图书馆在馆藏文献的基础上,运用先进技术,按照一定的方式集聚、组织、整理、呈现学术信息资源,并通过互联网随时随地向教学科研人员提供服务的学术信息资源系统。相比于其他数字图书馆,学术数字图书馆有自己的目的——为研究和教育服务[2]。也就是说,其核心是为学术研究服务,支撑教学科研需求,促进学术交流与传播。在信息化时代,学术数字图书馆作为知识经济社会中重要的信息资源载体,在满足师生、科研人员的信息需求方面发挥着至关重要的作用[3]。

  进入21世纪以来,随着“互联网+智能化”技术的迅猛发展,学术数字图书馆得到了蓬勃发展,传统信息服务的格局被彻底改变。2000年12月,中美两国计算机科学家倡导建设百万册数字图书馆项目,进而发展成为全球数字图书馆项目(UniversalDigitalLibrary);2001年5月,第十二届新信息技术国际会议召开,正式宣布成立中美百万册书数字图书馆项目;2002年,项目中方被教育部列为“十五”期间“211工程”,定名为“高等学校中英文图书数字化国际合作计划”,2009年8月更名为“大学数字图书馆国际合作计划”项目(以下简称“CADAL”)。CADAL是中国学术数字图书馆的典型代表之一,与“中国高等教育文献保障体系”(CALIS)共同构成“中国高等教育数字化图书馆”(CADLIS),成为国家创新体系中重要的学术信息基础设施之一。

  二十年来,先后有来自亚洲、北美、欧洲的共881个学术图书馆加入其中,在国家的大力投入和学术图书馆界的通力合作下,最终建成了拥有超过280万册中英文电子资源、嘉惠全球学林的中国学术数字图书馆。CADAL项目的成功,是中国841个学术图书馆[4]二十年来持之以恒共同努力的结果。项目参与成员众多、资源全面丰富、辐射范围广泛,将各个学术图书馆凝结成一个合作共同体,充分发挥了纽带和桥梁作用。本文梳理CADAL二十年来的发展历程,重点阐述未来的发展规划,以期为中国学术数字图书馆的共同发展提供借鉴。

  1数字化合作

  在21世纪初,数字化一百万册图书是一个宏大的项目工程,非单一学术图书馆可以独立完成。数字化后,将文献、影像、音频完善保存、衍生应用并进行全球的数字传播,亦非单一图书馆可以承担的任务。学术信息资源在地区、国家乃至全球范围的共建和共享,是学术图书馆通过资源互补以达到丰富馆藏资源种类、履行学术信息资源服务责任的必由路径。在教育部的支持下,CADAL项目将全国学术图书馆联合起来,凝心聚力共建共享,是中国学术图书馆开展数字化合作的一次重要探索和实践。

  1.1从资源共建到多元化共享

  资源共建是全国学术图书馆通力合作完成的一项巨大工程。项目进行过程中,各单位汇智聚力、分工明确、各司其职,形成全国一盘棋、集中力量办大事的格局。资源查重方面,由南京大学图书馆、复旦大学图书馆和浙江大学图书馆分别牵头古籍、民国图书和现代图书的查重工作,以防重复建设;技术研发方面,在浙江大学、中国科学院研究生院分别成立南北两个技术中心;数字化加工方面,与美国互联网档案馆(InternetArchive)共同研讨发布符合国际主流的标准规范体系,并在深圳和杭州建立了两个加工基地,在40余所高校建立了数字资源加工中心。

  在大规模图书数字化完成后的运维保障期,由哈尔滨工业大学图书馆牵头组成服务组、西南政法大学图书馆牵头组成技术组、四川大学图书馆牵头组成资源组,共同负责CADAL项目的日常工作。在各方的共同努力下,截至2021年12月31日,CADAL现有资源总量2848707册(件),网站在线资源2683602册(件)[5]。资源共享是全国学术图书馆将数字化红利惠及千万师生的一项重大成果。

  CADAL研发了海量数据的高效存储、处理、索引和查询等关键技术,搭建了负载均衡、容错容灾、统一管理、共建共享的协同合作平台,并通过OPENAPI对接成员馆书目检索系统,将CADAL的资源“有机嵌入用户信息环境”[6],最终形成“集中资源、分工合作、均衡负载、用藏结合”的学术研究型数字资源共建共享保障体系。借助互联网,数字化的学术资源跨越了时间和空间限制,惠及人人。截至2021年12月,CADAL项目与881所学术图书馆签订共建共享协议,服务2000余所院校,注册用户逾1000万。

  其中,有212所院校通过OPENAPI对接,2021年度调用接口共计57382216次[5]。多元化共享是全国学术图书馆共建过程中的一大收获。随着资源共建的深入开展,CADAL制定了支持数字资源生命周期管理的统一标准规范和运行规则,合作单位打破边界,实现资源的共享、服务的共享、设备的共享、技术的共享以及基础信息环境的共享[7]。学术图书馆在信息资源共建共享方面的深度合作和探索从未停歇。

  1.2从大规模数字化到特藏库建设

  21世纪初,全球数字图书馆建设热潮初起,各种类型的数字图书馆计划如雨后春笋般涌现,如2004年谷歌推出图书搜索计划(GoogleBookSearch)①、2008年欧盟委员会推出Europeana②、2008年美国大学图书馆合作共建数字资源共享库HathiTrust③。数字图书馆建设进入了规模巨大、免费服务、世界竞争的新阶段[8]。

  CADAL项目的创建和发展恰逢其时,同样处在这样的发展潮流中,同样是从大规模资源数字化开始。项目建设的数字资源主要是国内外研究型大学图书馆的馆藏文献,通过数字化将原来分散在各单位的文献资源进行有效整合,形成以数字化图书期刊为主、覆盖重点学科的学术文献资源体系。项目建设的数字资源类型包括:中文古籍、民国文献(民国图书、民国期刊、民国报纸)、中文现代图书、中文现代报刊、外文图书、外文科技报告、地方文史资料(满铁资料、侨批、地方志、少数民族资料)、图形图像资料(书画、篆刻、动漫、年画、连环画等艺术作品和标本、切片、手稿等研究素材)、声像资料,等等。随着数字化资源积累初具规模,在有限条件下,CADAL集中优势力量进行特藏资源建设,从全面收集信息走向组织整理信息。

  例如,项目建设之初对各单位20世纪80年代以来的学位论文进行了数字化,但是随着国内外论文数据库和各高校自建学位论文库的日益完善,CADAL暂停了对学位论文的进一步收藏。2018年开始,CADAL项目联合各学术图书馆,集中优势物力、人力,搭建多种类型的特色数据库,开展特藏资源的深度挖掘与揭示工作。目前已建成和正在建设中的项目共计22项,已投入使用的资料特藏库10个[9],这些项目在抢救与数字化保存濒危文献、盘活馆藏资源、传承民族文化遗产、支撑科研教学等方面发挥了重大作用。

  1.3走向智能化

  早期的数字化建设,在技术上偏重实体资源的数字呈现方式与存储方式,更多关注数字化在保护和传播实体资源方面的功能。2011年在中国学术数字图书馆建设十周年庆典暨国际学术研讨会上,CADAL项目负责人潘云鹤院士提出“在万物数字化、知识开放化时代,数据量将会剧增,内容更杂乱、形式更复杂、用途更广泛,海量数据具有复杂、开放和非结构化等特征,原来的数据库技术和图书馆技术已不适用,数字图书馆在广度上将走向数据海,在深度上将建设智慧图书馆,最终建成知识中心”[11]。

  同年,麦肯锡报告[12]提出的“大数据”概念与潘院士关于“数据海”的预见不谋而合。在这样的时代背景下,CADAL越发重视对数字资源的分类、著录、标引、检索和分析,将杂乱的数字资源逐渐整合为结构化、规范化的数据资源,为此开始了用数据助力知识服务的一系列探索。

  (1)加速数据共享流通。面对不同模态(文本、图像、音频、视频)、异源异构的复杂数据,CADAL一方面采用众包方式,完成近百万册书刊元数据修订、补全,生成文本化目录,梳理成结构化数据;另一方面组织技术团队解决异构鸿沟和语义鸿沟的难题,研发跨媒体海量信息融合与智能内容搜索技术,实现了统一的跨媒体索引机制。

  (2)繁荣数据应用生态。CADAL是全国学术图书馆本着“共建共享”理念所创,整合后的数据理当用之于民。近些年,CADAL为各类开放数据竞赛(如全国高校数据驱动创新研究大赛[13]、“慧源共享”高校开放数据创新研究大赛[14]、上海图书馆开放数据竞赛[15])提供海量民国书刊、墓志以及扫描图像的元数据,为浙江大学智能篆刻提供“印谱”数字资源[16],与哥伦比亚大学通过文物数字化复原技术共同举办馆藏民国门神画像联展[17],与哈佛大学、耶鲁大学等大学的东亚图书馆共同开展“基于CADAL资源的特藏建设:蒋介石资料数据库建设”研讨会[18],多路径激活数据资源,丰富数据应用场景,构建可持续发展的数据应用生态。

  (3)增强数据服务效能。面向跨界融合新业态与知识创新服务新需求,CADAL技术团队攻克了一系列关键技术,为进一步的知识服务奠定基础。

  如:研发面向专业领域知识搜索的多段落、多模态、多领域、多轮机器阅读理解技术,帮助数字图书馆实现从文献搜索服务到知识搜索服务的转变;研发人机协同的大规模知识图谱构建技术,支持从文本、图像等非结构化数据中自动或半自动抽取知识单元,构建的知识图谱已涵盖15287763个实体、43927个类别和240465种属性,可以帮助文本进行语义理解,来实现更多的知识服务[19]。

  经过二十年的建设,CADAL项目已经成为全球数字资源共享的一个重要平台,成为中外文化交流的桥梁和纽带,深化了学术图书馆间的合作交流,激发了数字资源的活力,增强了数字图书馆的服务效能,构建出数字合作新格局。但是百年变局的加速演进、世纪疫情的巨大冲击、读者需求的不断演变,对学术数字图书馆的技术创新能力、信息挖掘与揭示能力、知识服务能力提出了巨大的考验,学术数字图书馆走向智慧图书馆仍然任重而道远。

  2数字知识服务联盟

  随着新一轮科技革命和产业变革的深入发展,行业迭代加速升级,行业环境不断优化,新业态、新场景不断涌现,学术图书馆传统的文献资源管理与服务模式面临着巨大的挑战。

  一方面,数据的激增使得任何一个图书馆都不可能拥有完整无缺的学术信息资源,“拥有”学术信息资源的重要性正在被其可获得性与可使用性所超越和替代;另一方面,随着用户信息环境的变化,用户已不再满足于单本书籍孤立的知识组织形式和呈现形式,渴望学术信息资源以细粒度的知识单元和知识网络的形式呈现,更泛在地满足用户的个性化需求。数字时代呼唤创新的知识管理、组织和服务模式。

  近两年因新冠疫情而急速发展的云教育、云研究、云交流等伴生的“云信息需求”,也迫使图书馆界思考并探索服务模式的创新。在此背景下,CADAL项目管理中心联合若干学术图书馆倡议成立数字知识服务联盟(以下简称“联盟”),共同探索纸本数字并存时代或后纸本时代信息资源和知识资源共建共享的新型模式以及学术信息资源全面保障的解决方案。

  2.1联盟概况

  2021年5月11日,来自CADAL项目管理中心、北京师范大学图书馆、重庆大学图书馆、复旦大学图书馆、东南大学图书馆、南京大学图书馆、清华大学图书馆、上海交通大学图书馆、上海外国语大学图书馆、武汉大学图书馆、西安交通大学图书馆、西南政法大学图书馆、浙江大学图书馆、浙大城市学院图书馆、中国人民大学图书馆、中山大学图书馆共16个发起单位的代表举行了数字知识服务联盟成立签约仪式,共同开启了联盟发展的新篇章[20]。

  联盟旨在通过认同共享理念的中国高校图书馆的精诚合作,收集、组织、保存、交流和分享人类的文化、知识和智慧记录,提升联盟成员馆的学术信息资源保障水平和对机构教学科研的支持与服务能力,并进一步将知识本体以知识单元的形式进行封装,借助知识网络提供知识服务,在更大的范围内为科学研究、学术交流、人才培养以及人类的文明繁荣和共同利益做出贡献[21]。

  联盟是一个应用信息技术实现数字资源共建共享和长期保存,进而实现知识共享和知识服务的合作共同体。其最高决策机构是联盟全体大会,负责审核联盟中长期规划、核算经费预算和决算以及其他重要事项和政策决策。联盟全体大会休会期间由理事会定期召开常务理事会议,负责落实联盟运行所需的人事任免、财物终决和重大事项审议。理事会实行轮值主席制,两年为一任期。理事会下设秘书处,挂靠在CADAL项目管理中心,负责联盟工作的具体执行。

  2.2工作机制

  联盟将重点围绕图书数字化回溯、数字资源永久保存、数字新书采购和数字知识服务四方面展开。图书数字化回溯需要成员馆联合分工,汇聚成员馆馆藏书目形成联合目录,构成联盟图书馆的数字图书长期保存库。数字资源永久保存、数字新书采购和数字知识服务皆依托数字知识服务平台开展工作。

  数字知识服务平台是以CADAL资源为基础,构建以知识内容为核心,以满足不同用户的个性化知识需求为目标的新型信息资源与知识服务保障模式,搭建知识即服务(KnowledgeasaService,KAAS)的新型服务平台。联盟在数字知识服务平台的管理平台开展数字新书采购。出版社可以在管理平台上传本社的电子图书及相关元数据信息、设定电子书的定价及副本数、设置试读页数、了解本社图书出售、试读、推荐和购买情况;图书馆可以在管理平台进行本馆的用户管理、馆际互借权限管理、电子图书购买操作、查看已购电子资源目录、查看所有已购电子书和发生单次使用付费的电子书的使用情况以及进行详细的报表统计。

  同时通过联盟成员馆商定,形成联盟基础的财务审计表,供图书馆每年审计使用。区域中心可以在管理平台进行本分中心内所有单位的用户管理、查看各单位已购电子资源目录、制定区域中心的热门资源榜单和借阅次数榜单等。联盟成立后的首项重点工作是出台《数字知识服务联盟中文数字图书联合采购管理办法》,成员馆希望通过联盟的力量,以最优产品、最优价格和最优服务来获取数字图书以及数字形式的其他文献信息资源,进而推动数字知识服务产业健康发展。

  目前,与联盟合作的出版机构已达37家,在数字知识服务平台上可供购买的电子书品种数超3.4万册[21]。在平台测试使用阶段,清华大学图书馆向20家出版社采购电子书3125种,浙江大学图书馆向27家出版社采购电子书4378种,浙大城市学院图书馆向32家出版社采购电子书8372种。联盟的数字知识服务在数字知识服务平台的前端服务平台展开。

  在学术图书馆的视域情境下,用户的阅读行为通常分为被动阅读和主动阅读。被动阅读即阅读老师列出来的书目,多为通篇阅读;主动阅读往往应用在自主学习和研究中,用户并不需要阅读整本书,而只需查阅其中某一章节或者某一知识点。为了更泛在地满足用户的个性化需求,数字知识服务平台在原有文献服务的基础上进一步创新知识管理、组织和服务模式,提供知识检索、知识揭示、知识关联、个性化服务等功能,最终实现“知识赋能”[22]。

  例如,以某个概念为核心,将分散在不同图书中的知识综合起来形成专题,方便读者全面学习某个知识点;针对某一领域的图书,自动抽取其核心概念以及概念间的前后序关系,构建“领域知识空间”,可用于帮助推荐学习资料;基于海量图书的目录,生成具有代表性的知识脉络,构建高信息度、流畅度和低冗余度的学习路径,将海量同主题的图书综合到一个简洁而又全面的视图中,可用来帮助读者迅速获取信息。

  2.3数字版权解决方案

  图书馆之间根据用户的需求进行非商业性的互借是长久以来的惯例,对于满足公众阅读需求和确保馆藏的丰富性有着重要的意义。随着数字时代的到来,数字资源的互借和共享越来越普遍。但是,相较于纸本图书而言,数字化及其借阅的问题更为复杂。在中国数字图书馆初兴之时,一些专家学者就预见性地提出要注意建设过程中的知识产权风险[23,24]。

  美国著名的GoogleBooks案和HathiTrust案,虽然最后皆判定谷歌和HathiTrust的数字化属于合理使用[25,26],却也时刻警醒着图书馆界要在法律允许的范围内合理使用资源。在CADAL项目数字化合作的280万册数字资源中,约有60万册尚在版权保护期内。为了既能够尊重著作人的知识产权,又能够实现共建共享理念,CADAL依据《著作权法》《信息网络传播权保护条例》《普通高等学校图书馆规程》等相关法律法规的规定,对使用者、使用行为、使用范围进行了明确限制,多举措保障信息资源的合理使用。

  CADAL网站基于数字版权保护(DigitalRightsManagement,DRM)技术,实现了一套模拟实体图书馆借阅业务的数字图书借阅服务模式,只提供教学科研所需的在线阅读,不提供全文下载。CADAL服务对象通过IP或edu邮箱识别,严格限定为具有合作关系的高等院校和学术机构,合作单位内的用户可在线浏览所有资源,非合作单位的用户仅可浏览资源的前10页。

  CADAL还采取多种技术手段,避免服务对象的复制行为对著作权人利益造成实质性损害,避免服务对象以外的其他人获得著作权人的作品,避免任何人对资源进行任何形式的有形介质传递或网络传送。受控数字借阅(ControlledDigitalLending,CDL)是允许图书馆以受控的方式传播数字资源的一种借阅模式。所谓“受控”是指图书馆只能同时借出其合法获得的数字化副本数量,使用技术来确保“拥有与借出”的比例[27]。近两年,在新冠疫情的影响下,CDL受到越来越多的关注。

  2021年,国际图联发表声明支持CDL的发展[28]。对基于数字知识服务平台采购的新书,联盟借鉴了CDL的模式,并以图书章节形式进行数字传递。联盟与合作的出版机构已达成协议,图书馆每购买1本新书,天然就有5个电子书副本,也就是支持5个读者同时在线阅读同一本书。当产生一次借阅时,视为占用实际出借馆电子书的一个副本数。

  成员馆可对单本图书或批量图书设定是否允许馆际互借。平台上所有书分章节借阅,读者随借随还,后台准确匹配出借情况,便于馆与馆之间的统计结算。此外,平台还制定了一系列政策,如:限制借阅时长,到期后自动归还;限制借阅数量,规定读者可同时借阅的最大章节数;限制流通范围,读者无法拷贝传播数字图书版本。

  联盟提供的知识服务同样限定在合理使用的范围内。知识服务是将数字资源聚合重组,通过二次知识生产,最终实现增值性应用的过程。虽然通过智能手段挖掘蕴藏于大量显性信息当中的隐性知识不涉及著作财产权,但注意在知识生产过程中“不要侵犯著作权人的其他合法权益,如指明出处,尊重著作权人的精神权利”[29]。联盟将知识服务严格控制在学校课堂教学或科学研究范围内,并通过技术手段对用户权限、用户使用行为、用户隐私进行有效管理。

  2.4联盟的特点及意义信息技术的飞速发展、网络环境的日臻成熟与完善,为学术图书馆在信息资源共建共享方面深度合作提供了更为成熟的实现环境和实施条件。二十年来的“共建共享”思维深入人心,为学术图书馆的深度融合提供了思想基础。相比于21世纪初的数字化合作,数字知识服务联盟在各方面都有了进一步发展。

  3结语

  从数字化合作到数字知识服务联盟,是学术图书馆从共建共享到协作融合的理念升级,从资源数字化到面向知识生产、知识发布、知识存储、知识传播等整个知识服务生命周期的业务升级,是数字图书馆迈向智慧图书馆进程中的能力升级。

  二十年的CADAL发展之路表明,学术数字图书馆建设始于学术资源数字化,但早已突破文献服务的范畴,正在实现从流程驱动型向数据驱动型管理模式的转变,从数字资源服务向数字知识服务模式的转变,从资源共建向生态共建、能力共享、流程协作的合作模式的转变。我们共同期待,在人类迈向数字文明的进程中,学术数字图书馆能够紧抓信息革命历史机遇,培育创新发展新功能,开创融合互通新局面,共同推动数字学术的繁荣发展,让更多的人在数字化浪潮中享受发展的红利。

  参考文献

  [1]初景利.学术图书馆与新型出版[M].北京:国家图书馆出版社,2021:110.(ChuJL.Academiclibraryandnewpublishing[M].Beijing:NationalLibraryofChinaPublishingHouse,2021:110.)

  [2]WittenIH,BainbridgeD,NicholsDM.Howtobuildadigitallibrary[M].SanFrancisco:MorganKaufmann,2010:6.

  [3]KadirRA,DollahWA.K.W,SaaidFA,etal.Auserbasedmeasureinevaluatingacademicdigitallibrary[C]//InternationalConferenceonAcademicLibraries—VisionandRolesoftheFutureAcademicLibraries.Delhi,India,2009:8389.

  [4]CADAL共建共享单位[EB/OL].[20211228].(Coconstructioninstitutions,CADAL[EB/OL].[20211228].

  [5]2021年CADAL年度报告[EB/OL].[20220206].ccde4391b94d991995bc5765.pdf.(CADALannualreport2021[EB/OL].[20220206].

  [6]张晓林.让数字图书馆驱动图书馆服务创新发展——读《国际图联数字图书馆宣言》有感[J].中国图书馆学报,2010,36(3):7376.(ZhangXL.Theinnovationoflibraryservicedrivenbydigitallibrary:abookreportofIFLAManifestoforDigitalLibraries[J].JournalofLibraryScienceinChina,2010,36(3):7376.)

  作者:金佳丽薛霏黄晨

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问