非物质文化遗产的知识图谱构建

时间：分类：科学技术论文浏览次数：

摘要随着人工智能的快速发展，知识图谱已成为商业和学术界研究热点，但目前知识图谱种类繁多，应用场景也各有差异。文章构建非物质文化遗产知识图谱模型，分析区域非物质文化遗产知识图谱的应用。非物质文化遗产知识图谱构建能展现地域、文化类型与非物质文

　　摘要随着人工智能的快速发展，知识图谱已成为商业和学术界研究热点，但目前知识图谱种类繁多，应用场景也各有差异。文章构建非物质文化遗产知识图谱模型，分析区域非物质文化遗产知识图谱的应用。非物质文化遗产知识图谱构建能展现地域、文化类型与非物质文化遗产之间的关联关系，形成非物质文化遗产数据关联，并通过关系查询呈现非物质文化遗产隐性关系。

　　关键词非物质文化遗产;知识图谱;知识建构

图书馆情报工作

　　人工智能及大数据的快速发展为非物质文化遗产(以下简称“非遗”)传承与保护供了平台，而如何在繁杂的数据中对非遗进行搜索，以可视化方式呈现非遗之间关联关系是研究热点。知识图谱是非遗可视化主要应用工具，相关技术为互联网时代的知识组织和知识可视化提供支撑[1]。

　　传统的知识图谱在非遗领域的应用存在不足，主要表现为信息碎片化严重、知识耦合度不高、知识关联性不强，限制了非遗知识可视化的呈现效果。本文以RDF三元组为描述框架表述区域非遗知识结构及数据关联，为碎片化区域非遗数据资源统一建模、存储及可视化过程;以区域非遗项目构建平台为例，将非遗知识进行识别、抽取、表示等，以构建可视化知识平台。

　　1文献综述

　　知识图谱是以图可视化方式呈现知识之间关联关系的技术[2]。2012年谷歌首次提出知识图谱技术，通过搜索词条向用户展示相关词条或关键字的相互关系，快速发现信息和知识[3]。目前成熟的知识图谱应用有Freebase[4]、Wikidata[5]等。知识图谱在非遗领域的应用较广泛,但多数是本体和语义关系应用。美国国家网络化文化遗产倡导组织专门从事非物质文化数字建构，如语义信息架构、语义关系、关键字索引呈现、文化内容数字化重构[6]。

　　欧洲数字博物馆较早采用语义网技术，通过分散、异构的数字文化资源语义关联，将不同机构、元数据标准信息资源进行统一，针对非遗资源从知识表示、资源描述、本体的构建到数据的关系实现非遗资源多维度可视化呈现，成为欧洲重要的文化资源平台[7]。

　　Vincenzo等设计戏剧文化本体模型，包含戏剧实体、数据结构、描述框架，利用这些实体模型构建具有人物情感及意图的可视化图谱[8]。Valentina提出利用知识图谱RDF技术将意大利非遗进行编码分类，最终以SPARQL语言查询、检索非遗之间的关联关系[9]。这一系列应用开启非遗资源数字化传播的新时代。针对不同非遗文化分类及呈现形式，国内一般聚焦非遗数字化和语义关系研究。

　　谈国新等运用知识表示、知识工程等技术构建民俗舞蹈知识框架模型，为民俗舞蹈数字化保护提供借鉴[10]。上海图书馆推出的家谱知识库、古籍循证平台、名人手稿知识库等数字非遗项目以关联数据技术和本体建构作为核心技术，实现知识可视化[11]。梳理知识图谱应用现状,发现基于关联数据的资源整合集中应用在网络信息资源、数字图书馆等领域，呈现出从理论研究转向应用研究的趋势，出现大量项目[12]。

　　非遗知识库的建立是为了通过语义检索，可视化呈现非遗之间关联关系[13]。目前非遗数字化的建构应用丰富，主要表现在本体、语义关系、数据关联、资源聚合等方面。综合国内外研究，利用语义关系建立关联数据，使其成为本体构建的一部分，是知识图谱研究的热点。

　　国内基于知识图谱的研究集中在数字人文语义网、数据关联构建，但面对非遗知识图谱构建、搜索及可视化呈现等研究不足，缺乏对非遗领域知识服务的深层理解和应用。知识图谱构建是非遗数字可视化呈现重要组成部分，不仅涉及语义知识分析、表述框架的设计，知识的表示方法，还包括人物关系的呈现、知识的推理等复杂环节。本文针对以上局限，以非遗知识图谱构建为创新点，探索区域非遗数字可视化应用研究。

　　2非遗知识图谱模型构建

　　目前我国非遗数字化资源保护取得一系列进展，也面临问题：一方面资源入库信息零散，关联少;另一方面非遗资源库缺少统一建设，未实现跨平台、跨系统，难以实现多源异构数据的高效检索和可视化呈现。知识图谱技术为解决此问题提供契机，基于非遗知识图谱的知识构建与检索可以实现非遗数据异构的共享、语义检索、自动问答与可视化呈现等智能应用。

　　本文从非遗信息内容、类型、呈现形式，区域分布等着手，对非遗数据从知识构建、知识存储、知识管理到知识应用，构建以区域分布为特征的非遗知识库，以解决非遗数字化资源耦合度不高、关联性不强、低响应高延时等缺点。在语义搜索方面，以RDF为描述框架，对非遗资源实体、属性进行描述，揭示非遗语义关系，形成非遗数据关联，便于网络检索和数字化传播。

　　2.1知识建构

　　知识建构研究可以追溯到人工智能早期，M.ROSSQuillian[14]和AllanM.Collins[15]提出关于网络知识建构方法。知识建构实际是知识图谱表示，是指选择一种合适的语言对图谱进行建模，描述实体间的语义关系，以方便网络计算机识别计算。从知识提取的角度来讲，知识建构包括对实体的识别、知识表示、关系的抽取。

　　2.1.1实体识别

　　实体识别是非遗文本数据源获取知识的重要组成部分，命名实体是一个词或一个短语，可以在具有相同或相似的属性中标识一个事物[16]。对命名实体识别(NER)的规则是相同或相似事物集合的过程。在计算机中命名实体识别的方法有深度学习和机器学习两种方法。

　　在非遗知识图谱建构中，本文采取基于深度学习的NER方法，其方法是将非遗中的文本构建为自然语言处理的文本序列标注问题，以方便从非遗相关文本中提取语义信息。深度学习中常用架构是LSTM-CRF模型，其主体结构是长短时记忆网络与条件随机场(CRF)相结合而形成。

　　由嵌入层、双向LSTM层和CRF层组成。在嵌入层，网络信息的输入为通过预先字词one-hot编码，将其转化为向量输入网络嵌入层，通过嵌入层处理得到相应信息嵌入向量。在双向LSTM层，有正负向量层(对应li和Ri层)和信息加工Ci层，li和Ri层分别计算输入编辑对应向量信息，Ci层是将整合li和R的信息并进行解码输出。在CRF层对输入信息进行序列标注。

　　2.1.2知识表示

　　知识表示是对现实世界的一种抽象表达。一个知识表示载体应具有较强的表达能力，使计算机执行求解过程精确且高效。在计算机中，知识表示通常由符号和数值组成，关联图表示实体间关系，标量、概率等数值有助于刻画知识更深层次的细节。在知识图谱中，语义网络、RDF三元组、实体关系图均是知识表现的形式，图模型是知识图谱的逻辑表达方式，是人们最容易理解的一种知识表示，其基本思路是将知识图谱中的点与边表达成数值化向量。

　　在知识图谱中，每一个事实都用一个三元组来表达，即头实体(headentity)，关系(relation)，尾实体(tailentity)。将其定义一个三元组(h,r,t)，其中h和r分别表示实体和关系的向量，根据TransE模型假设，当h+r≈t，事实(h,r,t)成立，反之则反。基于这一思路推出以TransE模型损失函数，TransE模型损失函数是用实体和关系的分布式向量表示。

　　2.1.3知识抽取

　　非遗数据主要由非结构化、结构化、半结构化等类型构成。结构化数据本身就已存在数据库中，知识组织计算机能够识别，抽取简单，只需将关系数据中知识直接映射或转换映射为RDF数据。半结构化数据是从Web信息中自动或手动提取网页内容，这类数据不符合关系数据库的存储规则，但有标签及语义元素标记。非遗互联网数据越来越丰富，半结构化信息抽取也是非遗知识获取的重要来源。非结构化抽取是从自由文本中提取知识，包括实体、关系及事件三个模块，在抽取过程中主要基于已有的标注规则和知识库。这是三种数据来源中难度最大的一种。

　　一方面，在数据收集、文本处理、实体抽取、关系抽取等各个环节都可能存在噪声和误差，这些因素在各个环节的传播严重影响知识获取的精度;另一方面，数据来源多种多样，数据复杂多样使得处理困难。在处理非结构化数据时采用API接口技术，允许用户根据规则抽取文本信息实体与关系，以确保非遗知识图谱构建的准确性。实体抽取目的是从非遗文本中抽取实体信息，如非遗项目名称、传承人、区域、时间，遗产类别。

　　实体抽取一般先从文本中识别和定位实体，然后再将实体分类到预定义的类别中。例如,“湖北省政府于2020年，公布第六批荆楚非物质文化遗产目录”，“湖北省政府”、“2020年”、“荆楚非物质文化遗产”根据规则抽取为实体。关系抽取是抽取两个实体间的语义关系，在非结构化数据中，关系抽取与实体抽取密切联系。在关系抽取中，先行找到三元组实体主体或客体，然后用句子信息填充的三元组其他部分，填充部分则是实体间关系。

　　关系抽取是非结构化数据关键，目前基于关系抽取的方法有模板关系抽取、监督学习关系抽取。针对非遗数据，采用基于监督学习抽取方法。基于监督学习的关系抽取是从知识库中找出具有实体与属性的句子，以构成训练集，通过训练集形成分类器，在大量的分类标注数据样本中，对输入信息进行加工，以建立关系分类。基于监督学习的关系抽取重点是训练语料，包括语料获取和分类器语料优化。早期的知识抽取方法包括基于规则的关系抽取、词典驱动的关系抽取、本体的关系抽取[17]，这些关系抽取描述语句并不强，正确率低。为提高其准确率，在关系抽取中设定关系关键词。

　　例如，在非遗中，“遗产地区”关系可以为“位于”、“坐落”等。“遗产发源时间”关系表达的关键词可能是“起源”、“建立”、“设立”等。因此，在知识库中的关系名称是单一的，但在网络资源中对应的关系语言表达是多种方式。如果在关系抽取中直接匹配，会降低关系抽取的精度，而引入关系关键词可以很好解决这一问题。分类器语料优化与人工标注不同，人工标注往往会导致遗漏或错误，且只能用于简单的知识图谱关系抽取中，分类器语料优化是将非遗文本已标标语料设为正例，将未标注语料设置负例，按此算法反复迭代，最终完成文本分类。

　　2.2知识存储

　　非遗资源包含大量数据，这些数据具有关联性和灵活性，如何将这些数据有效表示和存储是知识图谱应用的关键。以传统文件或关系数据库存储的知识图谱越来越难应用在非遗中。基于新型知识图谱的图数据库框架、数据模型及管理模型的设计和选型都是大规模数据存储的关键。

　　3区域非遗知识图谱的应用

　　3.1非遗知识库展示平台

　　非遗知识图谱需要多源渠道形成非遗数据知识库，以知识抽取和融合技术构建[24]，RDF技术将非遗数据转换到图数据库中以提供链接、共享及查询等操作。

　　数据的获取。非遗信息组织，文本和图片资源收集是数据获取的第一步，非遗种类繁多，有传统舞蹈、传统音乐、曲艺、民间文学、手工美术等。本文以地区非物质文化遗产及中国非物质文化遗产数字博物馆资源为基础，收集地区非遗基本信息，构建区域非遗知识图谱知识库。信息获取来源：一是湖北区域非遗申报相关数据，二是通过python技术提取网络数据，最后对数据进行预处理，剔除无效数据。

　　知识抽取。非遗数据获取后，需对现有数据的知识和关系进行抽取，以建构其非遗知识库。知识抽取方法很多，有结构化、半结构化和非结构文本抽取，对非遗领域文本数据采用非结构化抽取，对网页和数据库数据采用结构化和半结构化抽取。知识存储。前面对非遗知识获取加工后，本文按知识图谱的存储规则将其知识转换成RDF三元组存入知识库。在存储过程中，本文采用分布式存储技术和分块管理来保证非遗知识图谱使用效率。

　　3.2用户语义搜索

　　与互联网中的检索不同，非遗知识图谱是处理粒度更细的语义数据，原有算法很难应用到非结构化的实体和关联数据中。知识图谱查询与检索是通过语义模型建构，包括语言学模型和概念建模。其中语言学模型主要以词语关系建模、分类及同义词库，而概念模型主要是语法元素如主、谓、宾等进行映射。同时语义建模的解析过程必须是可以计算。在庞大的非遗知识库中，语义搜索采用形式化结构，如在知识图谱的关系库中，采用RDF和OWL模型，这些RDF数据与非遗文档形成了关联。

　　4结语

　　在大数据时代，知识图谱的发展为非遗资源可视化研究提出新的方向。本文从知识图谱的理论构建、知识建构、知识存储等方面进行深入分析，指出知识建构包括实体识别，关系抽取及知识表示等三种建构过程。在知识的存储管理中详细分析存储的架构，当前数据存储的主要模型及存储管理方式。此外，本文提出知识图谱在区域非遗的建构模式，目前已得到湖北非遗保护相关单位的大力支持。论文以非遗知识数字化保护为契机，通过构建区域非遗知识库平台，运用知识图谱相关技术展示各区域不同类型非遗。

　　非物质文化遗产论文投稿刊物：图书情报工作(半月刊)创刊于1956年，由中国科学院文献情报中心主办。创刊以来，《图书情报工作》始终恪守理论与实践相结合、弘扬学术精神、推动事业发展的办刊宗旨。

　　虽然本文对知识的理论和应用研究还比较粗浅，但将知识图谱的相关理论应用到区域非遗资源的数字化呈现是本文研究的重点，以期为今后非遗数字化保护提出研究参考。当然，本文的研究也存在一些不足之处，其研究的广度和深度还有待进一步拓展。首先，本研究应从非遗的数量上进一步拓展，以丰富非遗三元组知识库。其次在知识抽取的模型设计中，应该深入分析比较不同的抽取算法的执行效率，以提高图计算能力。

　　参考文献

　　[1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.

　　[2]SinghalA.IntroducingtheKnowledgeGraph:Things,notStrings.OfficialGoogleBlog,May2012[J].2018.

　　[3]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

　　[4]BOLLACKERK,COOKR,TUFTSP.Freebase:ashareddatabaseofstructuredgeneralhumanknowledge[C]//Procofthe22ndAAAIConfonArtificialIntelligence.MenloPark,CA:AAAI,2007:1962-1963.

　　[5]WMF.Wikidata[EB/OL].[2015-11-11]. https://www.wikidata.org/wiki/Wikidata:Main_Page.

　　[6]CowieJ,LehnertW,Informationextraction[J]CommunicationsofthdACM,1996,39(1)：80-91.

　　[7]王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究——欧洲数字图书馆案例分析[J].图书情报工作,2016,60(12):29-37.

　　[8]LombardoV,PizzoA,DamianoR.Safeguardingandaccessingdramaasintangibleculturalheritage[J].JournalonComputingandCulturalHeritage(JOCCH),2016,9(1):1-26.

　　作者：范青，史中超，谈国新

上一篇：富水砂层超深圆形盾构接收井施工关键技术下一篇：建筑工程施工管理存在的问题及对策分析