学术咨询

让论文发表更省时、省事、省心

知识图谱在犯罪情报分析中的应用

时间:2021年02月08日 分类:电子论文 次数:

摘 要 随着大数据和人工智能技术的发展,知识图谱以其丰富的语义表达和推理给公安情报业务带来深刻的变革。本文梳理了知识图谱和犯罪情报的基本概念和特点,进而阐述基于知识图谱的犯罪情报图谱的构建流程和推理技术,介绍相关技术的重点难点及存在的问题,

  摘 要 随着大数据和人工智能技术的发展,知识图谱以其丰富的语义表达和推理给公安情报业务带来深刻的变革。本文梳理了知识图谱和犯罪情报的基本概念和特点,进而阐述基于知识图谱的犯罪情报图谱的构建流程和推理技术,介绍相关技术的重点难点及存在的问题,给出后续发展的方向。文本旨在为构建犯罪情报图谱提供整体思路,为犯罪情报图谱的各环节提供现有的可行技术,为犯罪情报图谱的实现和应用提供有益的借鉴。

  关键词 知识图谱 情报分析 犯罪情报 犯罪情报图谱

知识图谱

  现今信息技术日新月异,信息呈爆炸式增长,如何快速实现犯罪情报的要素提取、组织、和分析,辅助侦查是公安大数据和智慧警务的发展方向。知识图谱作为一种刻画大规模数据关联的利器,在犯罪情报分析应用中价值极大。

  一、知识图谱概述

  (一)知识图谱表示与建模知识图谱源于语义网络,由Google公司于2012年提出,采用图模型对现实世界的事物及关联建模。知识图谱将实体及关系表示为三元组G=(ε,R,ξ),ε表示实体集合,R表示实体关系的集合,ξ=R×ε×ε表示图谱三元组集合[1]。

  三元组的表示规范主要有资源描述框架(ResourceDescriptionFramework,RDF)、RDFs(RDFSchema)和网络本体语言(WebOntologyLanguage,OWL)。RDF是W3C提出用于描述实体的标准,对每个资源使用统一资源标识符(URI)标识,以网络形式连接各实体,可用多个三元组表示复杂语义,但最多仅能表述二元谓词,表示能力有限。RDFs是描述RDF的轻量级语言,增加对实体的类和属性描述,可描述实体和属性的关系。OWL基于XML和RDF/RDFs采用含头部和主体的二元结构。头部存储命名空间,主体则描述本体的类别、实例和属性间的关联。OWL还提供类、属性和实例的等价、互逆、对称等声明,表达能力更强,是W3C表示本体的推荐语言。

  (二)知识图谱的应用

  1.优化搜索引擎知识图谱最早应用于提升搜索引擎的能力。传统搜索引擎通过关键字实现网页搜,无法有效应对具有歧义的检索。知识图谱利用其强大的实体概念表述能力,能够利用数据的语义较为准确识别用户的需求,提高了用户搜索的准确性,成为新一代智能搜索引擎的强大动力。

  2.突破智能问答瓶颈在自动问答方面,知识图谱基于关联关系,实现自然语言的语义结构化,可提高自动问答系统的智能化和精确性。目前,智能问题系统能较好应对事实性单点问题,效果接近真人。结合知识图谱和机器学习的智能问答系统可提高对问题的语义理解,增强对词组合问题的探索[2]。

  3.实现机器推理

  结合逻辑谓词和图搜索等技术,知识图谱可完成基于关系逻辑的硬逻辑规则提取,完成精确型问题的机器推理工作,符合人类的推理逻辑,结果的可解释性最好[3]。将机器学习与知识图谱结合,把图谱映射为神经网络,通过优化算法提取实体邻接关系,实现图谱的多步推理[4]。

  4.增强推荐系统

  面对海量电商信息,知识图谱可增强商品与用户的信息语义关联,解决系统冷启动问题,增强商品推荐效果。Trans系列[5]嵌入法可获得实体和关系的低维稠密向量,进而确定实体的相似性以实现推荐。不同类别实体或关系构成的异质知识图谱使用图卷积网络可取得较好效果[6]。基于元路径的挖掘方法也可用于异质图谱推荐,利用路径相似性获得物品和用户的偏好特征,通过特征向量点积的加权累积进行推荐[7]。文献[8]使用元图替代元路径对异质网络进行特征提取,更全面展示其中的复杂特征,提升推荐效果。

  二、犯罪情报

  (一)犯罪情报的类型

  犯罪情报按来源可分为境内和境外情报。境内情报是从国内获取的犯罪情报;境外情报则通过各种方式从国外或境外获取的犯罪情报。犯罪情报按其地位分为战略情报和战术情报。战略情报是指对犯罪侦查工作具有重大影响的情报,而战术情报是指感知片面情况或局部情况的情报。在载体方面,犯罪情报可分为文字情报、声像情报和实物情报。从内容角度,犯罪情报分为人员、案件和犯罪组织情报等。犯罪情报属性分为线索型、资料型和预测型情报三类。线索型情报为犯罪侦查提供引导信息,资料型情报为犯罪侦查提供基础信息,预测型情报则指用于预测犯罪活动在特定时空范围内演变趋势。近年来,开源情报作为新情报源已崭露头角。

  (二)犯罪情报的特点

  犯罪情报具有知识性、有序性、传递性和实用性等基本属性。知识性表明情报是侦查人员对客观犯罪活动的认知。有序性是指犯罪情报处理需要一个渐进的加工过程。传递性是指犯罪情报必须在进行传递才能发挥价值。实用性则表明犯罪情报必须服务实战。犯罪情报的特性表现为社会性、累积性、时效性、随机性和秘密性等。犯罪活动是人类的行为,社会性是其与生俱来的天性。犯罪情报的价值只有积累到一定规模才能发挥作用。犯罪情报的实时性是捕捉战机的关键。随机性表明单条犯罪情报仅能反映特定犯罪活动在某个时空截面的情况。秘密性是指犯罪情报仅能以隐蔽方式在特定范围获取、传递和运用。

  三、犯罪情报的知识图谱构建及运用

  (一)基于知识图谱的犯罪情报图谱构建

  1.涉案实体识别

  实体识别是犯罪图谱的基础,旨在从情报中抽取实体。实体识别的对象分为实体、时间和数字三大类,细分为人名、机构名、地名、时间、日期、货币、交通工具和武器等。实体识别分人工识别和自动识别。人工识别相对准确,但效率低,仅适用少量样本的处理。自动识别分为两大类:基于规则的实体识别和基于机器学习的实体识别,机器学习识别又分为基于特征和基于神经网络。基于规则的方法适用于英文环境,国外早期系统均采用此法。基于词典方法依靠匹配规则简单有效,对中文支持较好,但构建词典耗时耗力[9]。

  机器学习方法则利用已标注的语料库训练模型,获得特定字或词作为命名实体整体或部分的概率,常用方法有基于上下文[10]和基于序列化标注[11]等。其后,基于LSTMCRF[12]的深度学习被用于实体识别。由于任务和需求不同,实体识别的粒度也不同。实体识别粒度越小则难度和开销越大,但指导意义更大。当前,困扰实体识别的要素包括实体命名形式多变、语言环境复杂和实体存在歧义等。

  2.实体消歧

  由于形式和语义复杂,实体识别后需进行一致性校验,即实体消歧。其原因在于:同一实体可能有不同的称谓,同一名称在上下文中可能表示不同的实体。消歧的一般方法为有监督的机器学习[13]。分类方法通过构建正负实例、指称-实体对等形式通过有监督方式进行学习,获取二元分类模型以实现实体消歧。机器学习排序方法分三类,PointWise使用近似回归模型计算候选匹配实体的得分并排序,得分越高则越倾向为同一实体。

  PairWise将候选项匹配成对,利用项与项间的相对位置关系构建训练样本,采用分类方法训练排序感知机实现消歧;ListWise则将査询结果排序列表视为训练实例,利用ListNet算法训练排序模型进行消歧。基于图的方法将情报中的实体指称及其候选实体构成图结构,利用两者的关联完成协同消歧[14]。混合模型综合运用多种模型获得各自消歧结果,最后通过比较得到最优结果,效果好于单模型。实体消歧过程要避免实体的遗漏和流失,以免情报失真。

  3.实体关联提取

  实体关联是构建犯罪知识图谱的核心环节,将情报信息从语言层面上升到内容层面。在犯罪情报方面,实体关系主要体现人(组织)、物或事为中心的两方或多方关联,需要时还可加入时间或地点。其难点在于同一关系表述不同、关系涉及实体多、同一词汇表达不同关系和存在隐性关联等。基于模板的方法是关系抽取的传统方法,根据实体指称的上下文关系参照模板提取关系[15]。

  基于机器学习的方法分为有监督学习和弱监督学习两类。有监督学习方法通过分类算法学习人工标注的实体指称关联样本进行模型训练,形成语义关系分类器用于关系提取[16]。基于弱监督学习方法以距离监督为假设,对人工标注的部分图谱三元组样本进行学习以形成分类器,进而自动完成其他内容的关系抽取[17]。Hasegawa等提出基于无监督技术的关系抽取,按实体特征进行全连通聚类,通过关系相似性确定实体关系的类型[18]。视频、图片、语言等类型的情报信息进行关系抽取将是今后的发展方向。

  (二)基于知识图谱的犯罪情报分析与挖掘当前的“情报主导警务”强调情报对警务活动的指导,要求警方有效融合情报,全面深入挖掘情报内涵,知识图谱正好满足需求。

  1.基于图谱的犯罪信息搜索

  传统的信息检索通过关键字匹配方式完成查找,未考虑关键字的语义和上下文关系,检索质量不高。基于知识图谱的实体检索同时考虑语义相似性和结构相似性,计算每个实体相关的三元组与用户查询之间的相关度,排序后得到候选实体[19]。此外,知识图谱作为一种存在逻辑结构的有向连通图,可通过图模型进行建模检索,用检索对象的特征建立子图并构建图谱的图索引[20],通过子图筛选技术实现犯罪信息检索。

  当检索目标较复杂时可综合多个图谱进行搜索,基于图谱的问答技术用于提高搜索效果[21]。基于词典-文法的语义解析方法通过分析问句,构建由节点、边和操作符组成的语义图,视其为图谱子图并映射到图谱中,通过图匹配完成检索[22]。目前,基于知识图谱的简单问题检索基本成熟,但深层挖掘问题、大规模搜索和长尾问题等仍待研究。

  2.基于图谱的案件推理

  知识图谱的结构化形式是其强于数据库的最大优势,支持信息推理,可用于情报的补齐、质检和挖掘,辅助研判。知识图谱推理着眼实体和关系,进行演绎推理和基于归纳的推理,由已有信息推断未知信息。归纳推理用于推理具体事实,利用逻辑规则获得某个事件的过程;演绎推理则着重提取知识图谱中的逻辑规则。演绎推理包括基于谓词逻辑的关系推理[23]、基于概率逻辑的规则提取[24]和基于随机游走的规则挖掘[25]等。归纳推理包括基于置信规则推理的关系预测[26],基于路径的关系推理[27]等。知识图谱推理技术可辅助事件规律挖掘、人员画像构建、特定群体发现、人物关系梳理等犯罪情报分析。

  情报论文投稿刊物:《图书与情报》始刊于1981年,由甘肃省图书馆、甘肃省科技情报研究所联合主办。自创刊以来一直以学术质量建设为核心,关注图情业界的最新学术热点与动态,注重刊发理论与实践相结合、国内与国外相融汇的科研学术成果,是一份图情界非常有影响的两栖类学术刊物。

  四、结语

  本文概述知识图谱和犯罪情报的相关概念和特点,介绍犯罪情报图谱的构建步骤和方法,梳理存在的问题和发展方向,为相关研究提供思路。在大数据和人工智能等新兴技术不断发展的今天,犯罪情报图谱赋能公安机关占据信息制高点,对维护国家安全和公共安全具有重要作用,是我国构建治理体系和治理能力现代化的重要抓手,在公安情报工作中大有作为。

  参考文献:

  [1] 赵军,刘康,何世柱,等.知识图谱[M].北京:高等教育出版社,2018:2-5.

  作者:张美璟

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问