特别鸣谢(按拼音排序)
报告摘要
面向业务场景,知识图谱应用趋势分析
· 知识图谱面向业务场景,强调行业知识与知识图谱的结合,实现在业务场景中的落地应用;
· 知识图谱的核心优势体现在对于实体、属性等客观世界事物的关联关系分析,尤其是隐性关系识别,可应用于辅助决策;
· 基于知识图谱构建的领域知识库应用,有效沉淀行业知识,赋能多业务场景;
· 注重行业知识图谱和关系挖掘,是人工智能在行业中更深层的落地应用。
最佳实践案例,对于知识图谱构建有重要指导意义
· 知识图谱已经在垂直领域内有一定的成功应用案例,本报告总结在金融行业、医疗与医药行业、政府与公共服务行业以及能源与工业行业中六个应用场景的最佳实践案例;
· 最佳实践案例对于知识图谱落地有重要的指导意义,企业可根据同行业内最佳实践案例制定符合自身业务需求的知识图谱解决方案,实现快速落地、及时应用。
从感知智能到认知智能,知识图谱是关键一步
· 认知智能时代的到来,是在感知智能之上,提高了AI的理解分析能力。知识图谱起到重要的支撑作用。在认知智能阶段,机器能够通过知识图谱挖掘隐性关系,洞察难以发现的关系和逻辑,用于最终的业务决策。
目录
一. 知识图谱技术概览
二. 知识图谱应用分析与落地挑战
三. 知识图谱最佳实践案例
四. 知识图谱未来展望
结语
关于爱分析
法律声明
1.知识图谱技术概览
1.1 知识图谱概述
1.1.1知识图谱定义
知识图谱即Knowledge Graph,以结构化的方式描述客观世界中实体、概念、事件以及之间的关系。其中,实体是指客观世界的具体事物;概念是指人类对于客观事物的概念化描述表示;事件是指发生在客观世界的活动,而关系则指实体、概念、事件之间客观存在的关联。
知识图谱技术是指在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等技术的交叉研究。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三方面的研究内容:
知识表示研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;
知识图谱构建解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;
知识图谱应用主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。
1.1.2知识图谱发展历程
谷歌于2012年正式提出知识图谱(Knowledge Graph)概念,并应用在智能搜索领域。知识图谱(Knowledge Graph)本质是以图的形式表现实体(概念、事物、人)及其关系的知识库,可看作有向图结构的网络。目前,知识图谱技术已在智能搜索、智能问答、网络分析、决策辅助、推荐系统等领域广泛应用。
通过知识图谱的发展历程可以看出,知识图谱是知识工程不断发展衍生出的新一代知识工程技术。2012年谷歌知识图谱项目之后,知识图谱技术快速发展,目前已形成在多垂直领域的行业应用。
1.1.3知识图谱的构建体系
知识图谱构建过程主要分为自顶向下(top-down)与自底向上(bottom-up)两种方式。两种方式的主要区别在于,在构建的过程中是否先定义本体与数据模式。目前,大多数知识图谱采用自底向上的方式进行构建。
在知识图谱的构建过程中,存在几项关键步骤,即知识抽取、知识表示、知识融合、知识推理、知识存储以及知识图谱应用等。
其中,知识抽取与知识融合环节是知识图谱构建的基础。通过客户数据库或公开网络获取到多源异构数据具有冗余、噪声、不确定性等特征,前期的数据清洗工作并不能实际解决这些问题,需要对相关数据抽取后进行融合操作并对质量进行评估,以便及时知识更新,保证知识图谱的准确性。同时,已有知识构建数据模型形成数据规范作用于知识表示的过程可以及时对数据模型进行修订,保证数据模型针对特定数据的实时性与有效性。
知识图谱的前期构建过程即知识抽取与知识融合,各厂商在技术层面大致趋同,更多的是基于人力与时间的投入。知识图谱发展至今,决定应用效果的更多是应用模型,即特定应用场景下相对应的应用模型。
1.1.4知识图谱应用特性
知识图谱技术源于语义网络,经过半个世纪的发展,融合本体论、群体智能使得知识图谱又形成自身特点。在实际业务应用中,知识图谱技术有以下特征:
可视化:知识图谱作为图类型知识库,本身具备可视化特性。知识图谱可以将多实体间的关系通过图形的方式进行显示。目前,通过知识图谱技术分析展示实体间关联关系已在多领域有广泛的应用;
准确性:知识图谱构建的语义网络中具有多种语义关系,多角度挖掘信息,保证相关信息的准确性;
关联分析:知识图谱本身具备“边”的概念,强调实体间的关联与属性。在实际业务场景中,利用知识图谱技术能快速有效地发现无关实体间的隐性关联关系。目前,关联分析在金融行业的营销与风控,政府与公共服务行业智能刑侦、智能经侦、治安管理、政务数字化等多领域有广泛应用;
拓展性:知识图谱本身的构建方式决定其本身具有良好的拓展性,当形成某细分领域知识图谱后可在此领域内快速拓展。同时,不同领域间知识图谱也有一定的拓展性,本身知识抽取与知识融合阶段对领域业务知识依赖有限,决定知识图谱领域内应用效果的关键因素是上层业务模型;
可解释性:弥补机器学习的不足,知识图谱本身与人类认知类似,通过实体、关系、属性去认知世界,同时知识图谱目前均为大规模知识库,语义丰富,将搜索问题与答案相连接,提供解释性的来源;
知识学习:通过推理、标注、纠错等具有反馈能力的学习机制,快速积累沉淀行业知识,形成领域知识库,降低行业经验的依赖性。
2.知识图谱应用分析与落地挑战
2.1知识图谱应用分析
知识图谱可为多领域客户在数据管理、关联分析、营销与风控、反欺诈等应用场景提供技术赋能。知识图谱技术为用户提供了一种更为有效的方式表达、组织、管理以及利用多源、异构、动态的数据。通过对于各领域内应用场景的分析,可以看出目前知识图谱应用场景的共性特点:
图谱的核心优势体现在对于实体、属性等客观世界事物的关联关系分析,包括显性关系与隐性关系识别。基于知识图谱此项特性,银行营销与风控、公安刑侦等较多业务场景都有应用。也是目前知识图谱技术应用最为广泛的功能点。构建实体关系网络,察觉实体关系,并发现信息(包括:风险消息、商机线索、关系事件)的传导路径,也会在其他行业中逐渐获得广泛应用;同时,关系网络的搭建结合目前数据可视化(二维以及三维展示)的技术,将会更好地给用户呈现实体关系网络;
领域知识库的应用也在各行业内广泛推广,相较于传统知识工程,利用知识图谱技术搭建领域知识库的实际应用效果更好;由于传统知识工程知识相对分散,关联性低,要求使用者对于知识应用的匹配度较高,同时无法延伸知识的应用场景,所以传统知识工程往往应用效果一般。在搭建领域知识库的过程中,知识图谱实现了知识的建模、抽取、融合、存储、应用,同时将相关知识进行关联,达到智能化的知识应用水平;
自然语言处理(NLP)技术与知识图谱技术之间存在较大交叉,面对复杂语义,可以利用知识图谱技术与自然语言处理相结合的应用,更好的服务与长文本处理;传统自然语言处理对于短文本有较好的处理效果,但面对长文本,尤其前后具备逻辑关系的语言,往往处理较差。知识图谱技术的应用解决长文本与长语句处理问题,使得智能客服、机器翻译、文本处理等应用有长足的发展。
2.2知识图谱落地应用场景
爱分析基于对国内知识图谱厂商的调研,准确定义了23个知识图谱技术的应用场景,涵盖金融、政府与公共服务、电信、医疗与医药、零售、能源与工业等六大行业。本报告应用场景只选取具有较强行业属性的应用场景进行研究分析,并没有穷举知识图谱所有应用场景。
知识图谱应用场景地图如下图所示:
2.3知识图谱各场景应用分析
通过知识图谱应用场景地图可以看出,目前在六大行业中,金融行业以及政府与公共服务行业知识图谱落地场景较多,其中主要以金融行业内的营销与风控场景和公共安全行业的业务场景居多。本章节将结合各行业具体落地场景分析目前知识图谱的应用现状。
2.3.1金融行业知识图谱应用场景分析
(1)金融行业营销与风控业务场景应用分析:
在对公业务的激烈竞争中,银行需要增强对企业关联关系网中产生的商机事件的洞察能力,及时抓住营销窗口期;
随着宏观经济环境不确定性的增加,银行需要增强对企业关联关系网中传导的行业景气度波动、重大负面事件等风险事件的洞察能力,建立重大风险事件快速响应和应急处置机制,及时发现潜在风险,提高风险监测与预警能力;
知识图谱可以为银行对公业务实现跨行业和跨企业的关系网络的构建,重塑对公业务营销与风控的过程,提升风险管理和营销管理的效率,特别是在反洗钱、反欺诈、舆情风控等环节中,知识图谱可以起到关键作用;
国内银行目前正在积极进行线上零售转型,大力发展个贷、微贷业务,需要增强对零售客户的数据洞察能力,挖掘客户的真实需求,实现千人千面,从而实现精准触达;
伴随着业务的发展,背后隐藏的风险也日益凸显,“薅羊毛”、亲友集中借贷、“垒大户“等问题频发,因此,贷前审查和贷后管理中对于客户之间关联关系的识别非常重要;
通过构建关联图谱,打通零售业务场景下客户从申请到贷后的全流程数据,建立零售客户全业务周期画像、客户关系画像,可以使银行在缩短营销周期、降低营销成本的同时确保风险可控。
(2)金融行业构建金融领域知识库业务场景应用分析:
金融机构内部在业务运行过程中累积了大量的知识与经验,这些知识与经验存在于领域专家脑中或技术文档中,难以得到有效利用,很多金融机构尝试使用知识管理系统,但知识管理系统中的知识与知识之间存在信息孤岛,没有建立知识之间的联系,知识的管理维护、更新升级等也都存在问题;基于知识图谱,可以有效将知识与业务进行关联,有效管理知识体系的同时更好地赋能业务;
在将知识图谱技术应用于营销、风控等业务环节的过程中,本质上是建立了营销领域和风控领域的知识库,随着知识图谱技术在金融行业的渗透,金融机构开始想要打造全公司级别的知识库或知识中台,将全公司的数据进行关联,满足不同业务部门的需求,更好的推动业务运行。
(3)金融行业在智能客服业务场景应用分析:
随着人工客服成本的逐年上涨,客服机器人在金融领域已经开始广泛使用,但在金融领域使用的客服机器人不同于一般的聊天机器人,对回答准确率的要求较高,现阶段,客服机器人只能作为人工客服的辅助和补充,主要应用在人工客服人手不足或是对服务质量要求不高的场景上;
金融机构对客服机器人的智能化水平要求不断增加,需要客服机器人对问题中模糊的部分通过上下文对话的关联进行意图识别,给客户带来更好的服务体验;
基于知识图谱技术的客服机器人,可以理解用户意图,实现上下文交互的对话流程。
2.3.2政府与公共服务行业知识图谱应用场景分析
(1)公共安全行业刑侦、经侦、反恐、治安管理等业务应用分析:
目前公共安全行业的智能化应用主要停留在感知智能,强调前端数据的采集以及后端视频解析能力,认知智能的应用推广有限,导致公安数据信息规模庞大、数据复杂。办案人员需要将海量数据快速抽取成知识,发现有用信息;
违法犯罪活动本身具备隐蔽性、团伙性等特征,在技术高速发展的背景下,又呈现出网络化、智能化、复杂化等新特征,增加了公安人员的办案难度。面对当前的公安业务新挑战,公安部门推动公安系统智能化改造,打破系统原有信息孤岛,挖掘潜在隐藏信息,分析关联关系,形成知识网络,通过技术手段支撑“人、事、地、物、组织”等刑侦关键要素;
案件的核心是“人”,在经济犯罪过程中,关键人员一定会留痕于关系网络,但关键在于,面对错综复杂的海量数据,经侦部门需要梳理脉络,利用知识图谱,形成人员、企业等要素的关系网络,搜寻关键线索,挖掘深层次信息;
由于暴恐事件具有团伙性、隐蔽性以及线上与线下关联性等特征,公安机关需对重点人员布控,基于知识图谱利用车辆与人员轨迹、同行人等数据建立风险预测模型,发掘隐性重点人员,形成团伙关系网络,通过团伙聚集度、活跃度、危险度等多维度信息对团伙进行布控设防;
治安事件发生具有突然性,当团伙发生案件时,若不能现场及时抓捕,后期可通过涉案人员关系图谱发掘潜在嫌疑人;针对有一定犯罪企图的重点人员,利用智能手段,建立重点人员预警模型,并通过关系图谱与轨迹信息,及时发现违法活动,阻止治安事件发生。
(2)交通行业业务场景应用分析:
面对城市交通拥堵问题,利用知识图谱技术,将前端感知设备采集数据形成人、车、道理的大交通关系图谱,通过交通业务模型,利用路口信号灯实时调度城市交通系统;
针对突发情况导致的道路无法通行,交通部门需要快速响应进行路径规划,合理指挥车辆规避风险路段,将影响降到最小。将时空概念引入,利用动态知识图谱技术,更快速的进行道路规划;
电警、卡口、人脸抓拍摄像机的广泛应用使得交通大数据中具有海量车牌与人脸照片,通过知识图谱技术可以快速构建人、车关系图谱,交管部门可以快速检索居民与同行人的轨迹信息。
(3)政务数字化业务场景应用分析:
在政务数字化的建设过程中,政府各部门主导建立业务系统,导致系统之间形成“信息孤岛”,不能有效的统一调度。采用知识图谱等新兴技术,平台将部门壁垒与信息孤岛现象打破,形成统一的数据标准规范服务业务应用;
目前各级政府部门已形成海量数据资源池,但真正能服务于业务的数据应用却较少。采用知识图谱技术,平台将各部门数据抽取融合形成知识,搭建政务领域知识中台,为上层各业务部门工作提供知识支持;
政府对于社会的宏观调控需要多维数据支撑,需要挖掘社会关键要素之间的隐性关系,辅助政府部门决断。知识图谱技术具有较强的关联关系分析能力,通过社会要素的关联分析与模型推算,在宏观调控、社会管控、政策实施、灾害防控等多方面为政府决策提供数据支撑。
2.3.3医疗与医药行业知识图谱应用场景分析
(1)药企业务场景应用分析:
从药物研发到临床试验再到上市推广,医学翻译贯穿于药企的整个业务生命周期中,医疗的特殊性使得药企对医学翻译的专业性提出极高的要求;
基于知识图谱的机器翻译,通过构建专业领域的知识体系,可以极大提高医学翻译的专业性和准确性,使翻译结果更加符合医学逻辑,保证翻译质量;
“4+7”带量采购使得跨国药企面临药价下调的压力,产品的覆盖力度和频率下降,亟需快速挖掘新市场以及提高对原有覆盖客户的精准营销;在医药营销“合规”的背景下,“带金销售”的医药代表模式走不通,数字化营销成为药企实现合规、高效、低成本的营销手段;
药企通过搭建自己的知识体系平台或问答平台,构建产品知识图谱、疾病知识图谱、用药知识图谱等,可以精准地为医生推送其感兴趣的内容,帮助医生正确用药、正确做治疗,提高医生对药企产品的认可度。
(2)医院业务场景应用分析:
患者去医院就诊时,经常会遇到“知症不知病”、“知病不知科”的问题,现有的导诊方式一般为人工导诊或基于关键词的导诊系统,导诊的效率和效果有待提升;为患者提供精准的智能导诊服务,不仅可以为患者快速找到合适的科室和合适的医生,减少患者就诊时间,同时可以缓解医务人员工作压力、促进医疗资源合理配置;
基于知识图谱的智能导诊系统,借助知识图谱的推理能力,患者只需描述症状或疾病,就可以为患者提供智能导诊服务,匹配科室和医生,缓解医院导诊服务的压力,提高医院的智能化管理水平。
2.3.4能源与工业行业知识图谱应用场景分析
国内工业水平发展参差不齐,长期的行业不景气导致企业信息化发展较慢,目前大部分企业数据粗放式管理,可用性与易用性较差,难以形成知识积累。随着竞争加剧,以电力、石化、工业、水务为代表的资源密集型企业加速向技术密集型与数字密集型企业转型,提高企业数字化能力;
面对能源与工业行业的业务挑战,企业需求将数据形成知识,创建支持上层业务应用的领域知识库,在辅助业务应用的同时进行相应的知识积累。员工可通过知识库快速获取知识,降低培训与研发成本。
2.3.5电信行业知识图谱应用场景分析
市场已经趋近于饱和的电信行业,提高服务质量是运营商争取客户的重要举措。由于人工客服的培训流程较长且人员流动性较强,建立运营商领域知识库是快速提高客服人员服务质量的有效方法。客服人员通过检索知识库获取知识,快速、准确地回答客户问题;
5G时代的到来,运营商更注重下沉市场。但对下沉市场的运营需要大量资源投入。建立运营商领域知识库,一线工作人员可以通过检索知识库的方式快速获取知识;
运营商利用知识图谱技术通过对购买人的关联关系图谱分析,可以快速获取潜在客户群体,发掘隐性商机。
2.3.6零售行业知识图谱应用场景分析
在零售数字化的进程中,零售商获取了大量消费者、商品以及门店的数据,但数据的价值在于发现三者的关联关系。通过知识图谱技术,零售商构建商品知识图谱,以商品为核心,发掘三者的隐性关系,辅助商品营销;
门店选址时,品牌商要高效、准确的选择新区域内最佳位置。通过大量的门店数据,基于知识图谱技术,可快速构建门店领域知识库,帮助企业根据产品类型快速发现区域内的空白市场点位,辅助决策人完成门店选址工作。
2.4 知识图谱的落地关键举措及挑战
2.4.1知识图谱落地的关键步骤
由1.1.3节可以看出,知识图谱的关键步骤包括知识抽取、知识融合、知识推理、知识存储与知识应用等关键五步。其中,知识抽取与知识融合环节共同完成知识构建,在知识构建的构建的过程,从海量数据中抽取概念、实体、关系和属性,并进行消歧、对齐和融合。
知识抽取:面对海量的数据源,在构建知识图谱的过程中,需要自动化的技术抽取可用的知识单元,其中知识单元包含实体、属性与关系三个要素。并通过不断形成的知识单元,形成知识表达,为上层的构建提供基础能力;
可以看出,知识抽取即可拆分为实体抽取、关系抽取以及属性抽取的技术。其中由于属性抽取主要针对实体可以看成是实体与属性值之间的关系抽取问题,所以属性抽取技术可以借鉴使用关系抽取技术的相关思想。实体抽取也可认为是命名实体的学习与识别,即从原始的语料中自动识别出命名实体;
实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。
知识融合:知识融合是针对于知识质量问题,进行高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、经验以及人的思想的融合,形成高质量的知识库;
知识融合技术主要包括实体对齐、知识加工、知识更新。其中实体对齐也称为实体匹配或实体解析,主要是用于消除异构数据中的实体冲突、指代不明等问题。在通过实体对齐后,已形成知识的雏形,但未形成知识体系,需要通过知识加工进行构建。知识更新主要作用于知识体系,进行不断的迭代更新,拓展知识。
知识推理:知识推理也为知识计算,是结合行业Know-How,计算知识中的显性与隐性关系和拓展属性;是在知识库的基础上进一步挖掘隐含的知识,丰富知识库。目前行业内的隐性关系挖掘,如银行业零售与营销业务场景、公安智能刑侦、公安智能经侦场景中的隐性关系挖掘,风险传导识别都是基于知识图谱的知识推理能力。知识推理的方法主要有三种,其中基于逻辑的推理方法以及基于图的推理是最主要的两种类别的方法。同时,行业内正在研究跨知识库的推理方法。
知识存储:知识存储保障知识图谱平台顺利运行,是关键的知识图谱基础。目前行业内主流的存储模式有三种:RDF(Resource Description Framework),即资源描述框架、关系型数据库以及图数据库。由于关系型数据库存储图数据可以很好的解决单条数据查询的问题,在存储效率和查询效率上都有很大的优势。同时,关系型数据库是目前最成熟也应用最广的数据库。但对于关系的实时查询以及深度关联查询时,关系型数据库不能做好很好的支持。图数据库相对而言有着高性能的表现,在数据灵活性以及开发敏捷性方面,图数据库有较大优势。RDF本质上为数据模型,提供统一标准描述实体,能够较好的用图描述,但存在设计不够灵活、存储空间大等问题;
在实际项目中,要实际根据数据特点进行数据存储结构选择与设计,而且目前没有任何一种通用的存储方式可以解决所有的问题,每一种存储方式都存在自身的局限性,所以在项目中要灵活配置使用数据存储结构。
知识应用:在2.1节可以看到,目前知识图谱技术在垂直行业已有较多应用场景。目前,知识图谱的构建和使用是以应用场景为导向。在行业内寻求应用场景,理解用户核心需求,判断是否能应用知识图谱后,再根据应用场景构建知识图谱;
在整个知识图谱的知识应用过程中;有两个核心关键点:1)找到业务与知识图谱技术的结合点,结合点的选取将直接影响实际应用效果。2)知识图谱的schema的设计,不同行业的知识体系不完全一样,具有较强的领域性,在设计schema的过程要求业务专家与技术人员协作完成,这也是知识图谱构建的难点;
知识图谱技术作为感知智能向认知智能跨进的关键技术,在行业内的应用场景会逐步地增加,相较于其他人工智能技术,知识图谱技术需要与行业Know-How有深度结合,更多的业务专家参与知识图谱的构建过程,会更有利于知识图谱的落地,
2.4.2知识图谱落地的“一核两翼”
上一小节可以看到,知识图谱技术落地的关键步骤为:知识构建(知识抽取与知识融合)、知识推理、知识存储与知识应用。其中,针对上一节中关键步骤中影响因素进行提炼总结,可得到决定知识图谱技术落地效果好坏的三大关键因素,本报告总结为“一核两翼”,即专业团队、数据与算法模型。
“一核两翼”中“一核”指的专业团队,这里的专业团队指行业专家与技术专家和用户共同组成的团队。行业专家与技术专家配合构建专业领域知识图谱,客户与技术专家完成知识图谱后期的运营与知识更新,让知识图谱“跑起来”。在“两翼”能力越来越接近的今天,专业团队对于项目应用的影响是决定性的。
“两翼”指数据与算法模型,知识图谱是连接数据知识与业务场景的关键技术,数据在整个知识图谱构建的过程中起到决定性作用,但由于数据来源广泛、各行业数据质量参差不齐,对于数据的治理、标注与知识图谱构建中的知识抽取加工的工作是老生常谈的难题,后面应用过程中的数据查询、分类也存在挑战。
算法模型则是支撑知识图谱自动化应用的核心,算法模型涵盖知识图谱构建的全流程工作,从最开始的数据治理到最终的应用查询,是知识图谱厂商技术实力与行业Know-How能力的体现。数据与算法模型的配合应用支撑知识图谱的行业落地。
2.4.3知识图谱技术落地挑战
实际应用过程中,知识图谱在落地中会出现很多挑战与困难,而其实知识图谱落地出现的困难正是由于厂商与用户在构建“一核两翼”能力过程中出现问题,典型挑战与困难可以归纳为“数据不精、业务不专、技术不强、配合不畅”。
数据不精:问题的核心是在部分信息化发展较缓慢的行业,行业数据整体治理水平较差,甚至部分关键数据仍未进行有效管控,需要知识图谱厂商进行合理的规划建设。但知识图谱厂商并非数据中台厂商,知识图谱厂商更强调基于有效的数据进行上层应用的建设。对于海量数据的治理工作能力有限,造成项目工期延长或适当降低项目功能预期等情况。随着各行业信息化以及数字化建设的推广,数据中台产品也将得到较好的推广,未来基于数据中台产品之上进行知识图谱建设,将有效的缓解数据不精的问题;
业务不专:业务不专的核心在于厂商理解用户需求,寻找知识图谱与业务的结合点,有效的赋能业务场景。前面几节已经多次强调业务专家以及行业知识对于知识图谱搭建的重要性;
知识图谱schema的设计是需要业务专家的深度参与。由于不同行业、不同领域对于知识的需求天差万别,所以很难出现跨行业通用的知识图谱搭建工具。同时,知识图谱的搭建过程本身也是一个行业知识的封装过程,只有业务专家的参与,才能更好的形成真实契合行业需求的知识图谱;
技术不强:知识图谱在应用的过程中,针对算法模型的封装、智能推理、搜索推荐、智能问答等多应用环节都存在一定的技术壁垒。同时,由于不同行业场景的需求不同,知识图谱普遍在各行业落地过程中存在较大的定制工作量,需要厂商不断的积累产品能力才能提高产品率,降低定制量;
配合不畅:知识图谱作为一项无自身单独使用场景的底层技术,需要技术人员与业务专家以及用户方进行有效配合。知识图谱项目很难单独依靠厂商自身能力单独完成项目。在落地的过程中,业务专家与技术专家对于甲方用户需求的理解、应用场景的选择,都来源于项目实施过程中的配合。用户、业务专家与技术专家良好的配合将有效促进项目落地的使用效果。
3.知识图谱最佳实践案例
知识图谱已经在垂直领域内有一定的成功应用案例,本报告总结在金融行业、医疗与医药行业、政府与公共服务行业以及能源与工业行业中的六个最佳实践案例。
最佳实践案例对于知识图谱落地有重要的指导意义,企业可根据同行业内最佳实践案例制定符合自身业务需求的知识图谱解决方案,做到快速落地、及时应用。
3.1金融行业最佳实践案例
3.1.1银行对公业务营销与风控场景最佳实践案例
对公业务营销与风控是银行的核心业务场景之一,但对公业务竞争激烈,银行需要增强事件驱动的商机洞察能力,及时抓住营销窗口期。同时,国内存在大量由企业连环担保形成的“担保圈”,潜在传导风险大,随着宏观经济不确定性因素的增加,银行需要增强对“担保圈”企业关联关系的洞察能力,从而及时预知和抵御风险。
知识图谱技术目前已在银行对公业务营销与风控场景有成功应用。在帮助银行构建知识图谱的过程中,知识图谱厂商应具备以下能力:
银行数据量巨大,需要厂商具备大规模知识图谱构建能力;
快速融合银行内外部相关数据,快速构建银行内部的知识图谱平台;
以知识图谱技术为核心,同时具备开发业务模型、构建客户标签体系等能力;
兼容性强,既可以作为独立的知识图谱平台,又可以与其他平台相对接,对外输出知识。
星环科技拓展知识图谱能力,赋能银行对公风控与营销场景
风险管理涉及银行核心业务板块,但传统风控体系依靠专家规则与巴赛尔协议的各项指标,指标对于先验的专家规则存在较强的依赖性,对于未发现的异常点无从下手。
同时,各业务子系统中存在海量数据,如何在海量数据中挖掘有价值的信息,并进行有效的关联融合,打破各业务子系统的数据孤岛问题,亟待行方解决。
知识图谱能够用数据做一系列的衍生类操作,赋能银行具体业务的营销与风控。某股份制商业银行信息科技部负责人表示:“知识图谱在金融方面的应用主要是在拓客以及风险识别和反欺诈等领域,这些领域呈现的特点就是对数据大规模的应用,除此之外就是对图谱图算法时效性以及深层次推理能力有更高的要求。”
星环科技专注于企业级容器云计算、大数据和人工智能核心平台的产品研发,为用户提供一站式、交互式的知识图谱构建工具,支持图谱构建、知识存储、分布式图谱计算以及图谱案例分析。
某股份制商业银行从2018年开始与星环科技合作建设知识图谱分析应用体系,整体项目建设主要分为三个阶段:图谱构建、风险传导算法研发、3D可视化分析。
第一步:完成对公企业客户的知识图谱构建;
第二步:基于已构建的对公企业知识图谱,进行风险传导算法研发与应用;
第三步:实现知识图谱的3D可视化分析,对接各业务应用平台。
知识图谱平台功能主要包括图谱存储、图谱分析、图谱可视化和图谱应用四个方面,用于客户精准营销、风险防控、运营优化以及管理决策。特别在风险防控方面,借助知识图谱平台快速建立不同场景风控图谱,借助图算法分析异常行为;同时,知识图谱平台支持信息动态更新以及风险计算的实时调用。
整体知识图谱平台由存储计算层、自动化建模层以及决策层组成:
存储计算层:在存储计算层强调多模态数据的应用,目前是包含四类的数据库,其中最主要就是图数据库,来支持知识图谱的存储和计算;
自动化建模层:在自动化建模层主要提供四大能力的支撑,第一项能力是搭建金融领域的本体库,第二项能力是在自动化建模平台上进行有效图谱的融合,实现图数据和本体进行有效的连接。第三项能力是图算法的分析能力。第四项能力是提供整个知识图谱模型的调度以及监控的能力;
决策层:重点是往四个方向去输出知识图谱的应用:精准营销、风险防控、业务优化以及管理决策。
知识图谱平台的价值体现在四个方面:
平台构建完成企业关联关系图谱,涵盖银行客户千万个实体与实体之间的关系,并提供八大类关系检索(法人、实控、集团、任职、担保、投资、股东、交易关系)。目前平台此项功能应用于新客的拓展以及集团关系认定等业务场景中;
实际计算中,单个风险点出发计算全局的风险值时间控制在1~4min;
平台实现基于自然语言查询的3D交互知识图谱应用,支持用户以自然语言输出查询的方式进行图上检索,降低图数据的应用门槛,方便总行业务人员以及分行的分析人员使用;
平台实现企业风险传导的3D图谱应用,实现企业风险在集团内部或者企业内部的动态穿透的分析能力。同时,对于分析人员,3D图谱相较于2D平面图谱有高几十倍的点边展示能力,且具有较强的解释性,既可以展示企业风险分又可展示动态风险传播路径。
3.1.2银行零售业务营销与风控场景最佳实践案例
零售业务营销与风控是银行的核心业务场景之一。在实际的业务场景中,用户需求日益个性化、多元化,银行需要增强用户群体的数据洞察能力,挖掘用户真实需求,并需要基于数据分析进行产品设计、渠道选择和营销策划,实现千人千面,从而精准触达用户;同时,零售业务是存量市场的竞争,银行需要批量拓展消费端场景,增强场景获客能力;在零售信贷申请、交易、支付等环节中,对欺诈风险的抵御至关重要。
知识图谱技术目前已在银行零售业务营销与风控场景有成功应用。在帮助银行构建知识图谱的过程中,知识图谱厂商应具备以下能力:
零售业务线众多,包含信用卡、贷款、理财、储蓄等,要求厂商具备跨渠道、跨业务打通数据的能力,不仅对各个业务线有高度的理解,还要具备良好的服务意识;
以知识图谱技术为核心,同时具备开发业务模型、构建客户标签体系等能力;
在项目实施过程中需要配备经验丰富的业务专家、算法专家和数据专家;
兼容性强,既可以作为独立的知识图谱平台,又可以与其他平台相对接,对外输出知识。
以知识图谱为动能,海致星图赋能零售风控与营销
某股份制商业银行作为国内金融科技实践的先驱,为提升数据价值不断进行积极的探索。 目前已取得一定应用成果。
某股份制商业银行信用卡中心客户经理需要每天关注手上数十家客户的风险信息,更需要不断的挖掘辖区内优质潜在客户的营销机会。而这些风险和营销的信号散落在行内外以及互联网各处,靠客户经理个人能力不仅很难覆盖,而且成本越来越高。
同时,由于企业间的复杂关系网络,营销机会与风险信息的传导更难以捕获。营销机会流失的同时背后的风险也日益凸显。
某股份制商业银行信用卡中心通过构建知识图谱平台,打通零售业务场景下客户从申请到贷后的全流程数据,建立零售客户全业务周期画像、客户关系画像,可以使银行在缩短营销周期、降低营销成本的同时确保风险可控。
海致星图是一家致力于利用机器学习、知识图谱等人工智能前沿技术,为金融领域提供专属的数据、技术及业务解决方案的大数据公司,在金融行业大数据与人工智能应用领域,有着丰富的经验与广泛的成功案例。
某股份制商业银行信用卡中心与海致星图合作,构建卡中心级支持多场景应用的知识图谱平台。平台基于数据处理,实现关系图谱的实时可视化事务查询、基于知识图谱的各类标签输出与图挖掘功能。
同时,知识图谱平台与各业务系统对接以支撑业务部门应用,各部门在平台上构建专属图模型,包括社群检测、亲密度评分、贷后失联修复、社交网络特征提取等,进一步实现客户关系挖掘营销与风险控制。
某股份制商业银行信用卡中心在构建知识图谱平台过程中,对接全行30亿+实体数据与120亿+条关系边数据,涉及16类实体、18种基础关系和28种挖掘类关系。平台整合内外部数据,构建企业间错综复杂的业务、控制、担保等关系,实现风险与营销信号在关系网络传导识别,服务业务应用。
某股份制银行信用卡中心与海致星图合作的知识图谱平台价值体现在四个方面:
银行信用卡催收中心日常催收搜寻工作时长缩短25%,有效挖掘并修复的失联客户数提高23%;伪冒侦测中心有效识别了疑似欺诈团伙800余起,环比提升超过20%;
信用卡中心基于平台进行批量发卡营销部门的客户触达数环比提高18%;
信用卡中心基于平台进行了关联营销潜客名单挖掘、行业营销价值评估、上下游企业商机传导等业务实践,并进行了集团派系的构建和划分;
信用卡中心基于平台的算法与业务模型,先后进行了互保企业违约传导分析、授信资金异常形态识别、担保(圈、链、网络)高风险节点识别、担保违约风险预测等应用。
3.1.3金融行业领域知识库最佳实践案例
金融机构内部在业务运行过程中累积了大量的知识与经验,这些知识与经验存在于领域专家脑中或技术文档中,难以得到有效利用,很多金融机构尝试使用知识管理系统,但知识管理系统中的知识与知识之间存在信息孤岛,没有建立知识之间的联系,知识的管理维护、更新升级等也都存在问题。
在实际的业务场景中,将领域知识库与实际业务相结合,可以有效的降低业务的上手难度,提高工作效率,同时将工作人员在重复的劳动中解放。知识图谱技术目前已在金融领域知识库的业务场景有成功应用。在帮助银行构建知识图谱的过程中,知识图谱厂商应具备以下能力:
搭建全公司级别的知识库或知识中台涉及到的数据量巨大,需要厂商具备大规模知识图谱平台搭建能力;
知识库或知识中台要支撑上层多业务部门的应用,要求厂商搭建的知识图谱平台组件足够灵活;
在项目实施过程中厂商需要配备经验丰富的业务专家、算法专家和数据专家;
兼容性强,既可以作为独立的知识图谱平台,又可以与其他平台相对接,对外输出知识;
各个金融机构对知识库或知识中台的需求存在差异,厂商需具备定制化改造的能力,同时具备良好的服务意识;
除了知识图谱技术以外,厂商还需要具备自然语言处理、图计算等技术能力。
一览群智助力某国有银行上线智能审单专家系统
某大型国有银行是国内领先的银行业机构。单证业务中心是银行重要的业务部门。但实际银行单证业务是一个对专业性要求较高的复杂繁琐工作,由于日常工作量较大,导致单证业务中心工作人员压力较大、单证业务中心运营成本较高等诸多问题。
传统单证业务痛点可总结为以下四方面:
成本高:例如跟单信用证、托收等具体的业务都涉及到对客户交单的处理。在信用证的业务流程中,单证审核员都要对单据进行人工审核。由于单证都为英文、且专业性很强,所以对单证审核员要求较高,导致单证中心运营成本较高;
经验要求高:业务方面的人才培养周期长,对于业务不熟练的新手不但审单效率更低,而且难免会出现各种错误,需要有经验的审单员协助与复查。
效率低:在单据方面由于种类较多,审核过程复杂,所以一个训练有素的单证审核人员一天也只能处理几笔业务,效率低下;
工作压力大:单证业务中心作为单证的集中处理中心,日常工作量大,同时由于审核流程较复杂等诸多原因,导致工作人员日常工作压力大。
面对业务中的痛点需求,某大型国有银行选择与一览群智进行合作,基于知识图谱等人工智能技术,共同打造智能审单专家系统。
一览群智以自然语言处理和知识图谱等认知智能技术为基础,为客户提供一站式AI产品和行业解决方案,满足企业在超大规模多源异构情况下的数据治理融合、不同场景下的AI建模和复杂决策分析需求。
一览群智打造的智能审核专家系统通过ICR识别票据并结构化业务信息;通过机器学习和自然语言处理进行业务分类并理解其含义;利用知识图谱构建自动审核引擎。系统具备完整的功能及流程。
在实际的业务场景中,将领域知识库与实际业务相结合,可以有效的降低业务的上手难度,提高工作效率,同时将工作人员在重复的劳动中解放。
某大型国有银行与一览群智进行合作构建的智能审单专家系统优势体现为:
业务系统信息自动填写:系统将自动识别业务信息并在业务系统填写,免除人工操作;
智能预审+多层级人机协同机制:机器自动给出单据及业务不符点和免查点,大幅提升人员效率,减轻审单压力;
创新的审核知识图谱构架:发扬图谱可视化、强关系表示的优点,全面理解并监控审核动作;
线下工作转线上:将原本线下的审核工作转移到系统中进行约束,统一审核标准,保证审核质量,加强合规性管理;
数据资产增值:将原本无法存留的发票信息、合同信息等进行结构化,通过挖掘数据价值,为营销/运营/风控等领域提供决策支撑。
3.2能源与工业行业最佳实践案例
能源与工业行业领域知识库最佳实践案例
作为劳动密集型企业,能源企业吸收大量劳动资源,但能源行业业务复杂,诸多环节积累大量知识,面临知识难以积累、人员培训难度大等痛点。能源企业需要快速建立领域知识库;同时,面对能源行业的业务挑战,企业需求将数据形成知识,创建支持上层业务应用的领域知识库,在辅助业务应用的同时进行相应的知识积累。员工可通过知识库快速获取知识,降低培训与研发成本;利用知识图谱技术,企业可打通底层数据,将行业知识整合,建立领域知识库,形成企业知识中台,赋能上层业务应用。
知识图谱技术目前已在能源与工业行业领域知识库的业务场景有成功应用。在帮助能源与工业企业构建知识图谱的过程中,知识图谱厂商应具备以下能力:
能源与工业行业具有海量数据,需要厂商具备大规模知识图谱构建能力;
能源与工业行业模型计算复杂度较高,需要厂商在行业内有一定模型积累;
企业针对生产与加工流程等场景构造与业务相关的复杂关系网络时,需要知识图谱厂商具备较强技术能力以及具有一定行业知识积累;
由于能源行业发展时间较早,系统部署情况复杂,要求厂商的知识图谱平台应具备较好的兼容性,能够快速完成平台对接工作。
明略科技助力国内某省电力数据中台创新应用
国网某省电力公司,是国家电网有限公司的全资子公司,担负某省电力供应的重大责任。公司积极开展智能电网建设,将人工智能与大数据技术赋能实际业务场景。
智能电网建设是智慧城市建设的重要组成部分,但由于电力行业属性较强,在数字化以及智能化转型的过程中,在数据层面存在诸多问题:
各部门形成数据孤岛,在应用建设过程中难以进行有效的数据互联;
各部门数据无统一数据标准,包括用户数据、营销部门和设备部门数据,存在数据收集困难和分类不统一等问题;
各部门数据对接存在不对应问题:如用户数据和设备需要对接,但会存在数据和设备不对应问题;
电力行业作为技术密集型行业,在各环节存在大量知识,需要有效途径对各场景内知识进行管理;
海量复杂数据情况下,数据实时性、数据打通以及更便捷地提取数据就会成为问题。
针对诸多的业务挑战,国网某省电力公司与明略科技合作建立统一的数据中台,先做好数据治理与关联工作,再将数据中台的成果服务于业务应用环节。
明略科技是中国领先的数据中台和企业智能决策平台提供商,致力于通过大数据分析挖掘和认知智能技术,推动知识和管理复杂度高的大中型企业进行数字化转型。
国网某省电力公司与明略科技对数据中台项目进行有效的拆解,进行“三步走”战略:
第一步,完成基于数仓的基本模型建立;
第二步,初步实现数据中台与主要业务系统的系统对接、数据共享与数据服务,同时探索在某些业务场景(设备故障知识图谱、配网调度机器人)等领域进行业务应用建设;
第三步,完成数据中台建设,实现公司整体的数据管理、数据分析与数据分享。
国网某省电力公司数据中台的建设核心主要体现在七大方面:数据汇聚、数据加工处理、数据治理管控、数据存储、数据分析、数据共享与数据应用。国网某省电力公司在构建中台的过程中,先实现数据中台基础能力,搭建整个企业的设备知识与业务模型中心。在搭建完中台能力后,在此基础上进行业务应用开发,循序渐进地推动项目向前。数据中台架构如下图所示:
国网某省电力公司与明略科技合作搭建的数据中台价值体现在四个方面:
数据汇聚层面:基于数据中台的搭建,实现线上数据实时采集、线下数据上传及导入,并监控、优化数据流转与工作链路;其中,针对电网类数据,完成生产管理、电力调度管理等15套业务系统数据采集;针对营销类数据,营销业务应用、用电信息采集等20套业务系统数据采集;针对经营类数据,完成财务管控、规划计划、电网建设、全员绩效、员工报销等118套业务系统数据采集;
核心资源标准库层面:结合CIM模型与维度建模方法,基于9大数据域(人员域、财务域、物资域、客户域、设备域、供应商域、项目域、合同域、公共域)完成企业级数据仓库建设,建立数据资源目录,形成数据共享能力;
数据共享层面:基于核心资源标准库,向下属地市公司和科研单位,高质量共享数据资源,支撑各类业务快速构建、敏捷创新;
数据应用层面:基于数据中台,完成设备故障知识图谱、配网调度机器人等应用建设,并继续探索在实际业务场景中的应用。在基于故障知识图谱的维修助手场景中,明略科 技帮助客户将故障信息搜索汇总时间从10分钟降低到1分钟内,且能实现远程技术支持。
同时,在项目的构建过程中,国网某省电力公司与明略科技积极配合,总结两点关键成功要素,对其他用户有一定的参考价值:
由于电力行业的特殊性,其他行业知识图谱厂商或者大数据厂商难以在电力行业有效地复制其他行业的成功案例。甲方用户在考察厂商时,应注重厂商在电力行业的案例背书和复杂电力数据场景下的治理、分析能力;
电力行业知识图谱以及数据中台的建设难以一蹴而就,需要较长期的投入,在项目进行之前,需对各阶段项目目标进行合理预期。
3.3医疗与医药行业最佳实践案例
医院智能导诊最佳实践案例
患者去医院就诊时,经常会遇到“知症不知病”、“知病不知科”的问题,现有的导诊方式一般为人工导诊或基于关键词的导诊系统,导诊的效率和效果有待提升;智能导诊虽然是诊疗过程中的一个辅助环节,但对强化医院内部管理、协调医疗资源、提升患者就医体验、提高医疗质量,具有明显的优化作用;为患者提供精准的智能导诊服务,不仅可以为患者快速找到合适的科室和合适的医生,减少患者就诊时间,同时可以缓解医务人员工作压力、促进医疗资源合理配置;
知识图谱技术目前已在智能导诊的业务场景有成功应用。在帮助医院构建知识图谱的过程中,知识图谱厂商应具备以下能力:
医疗是典型以多源异构数据为主的行业,数据融合在医疗应用场景中更加复杂,需要厂商具备较强的数据治理能力;
医院对智能导诊系统的疾病判断准确率、医生推荐准确率和体验度的要求较高,要求厂商不但技术实力强,在医疗领域know-how的积累更加重要;
各个医院科室划分、职能划分和医生资源分布情况不同,要求厂商的定制化能力较强,具备良好的服务意识。
基于知识图谱,深睿医疗创新“肝胆胰睿助” 智能问诊服务
中国人民解放军总医院是一家集医疗、保健、教学、科研为一体的大型三甲医院,日接待患者量巨大,医护人员工作繁忙。
中国人民解放军总医院肝胆胰肿瘤外科包括肝胆病区和胰腺病区,是以肝胆胰肿瘤的诊断、手术治疗和科研为主要方向的科室。肝胆胰肿瘤外科作为医院重要的科室,具有日常问诊量大、手术量大、复诊量大,同时部分患者长期住院接受治疗等特点,导致肝胆胰肿瘤外科医护人员工作压力较大。
深睿医疗联合鹏城实验室、解放军总医院刘荣主任、哈尔滨工业大学、北京大学、道子科技、云孚科技等机构共同推出“肝胆胰睿助”(简称:小睿)产品。基于海量数据、构建医疗知识图谱,为医生和患者提供覆盖诊前、诊中、诊后的数字化、智能化服务,旨在有效降低医护人员工作压力,提高诊断效率,同时为患者提供疾病知识,让患者了解相关病情。
深睿医疗通过计算机视觉、知识图谱等AI技术以及自主研发的核心算法,为国内外医疗服务机构提供基于人工智能和互联网医疗的解决方案。
实际使用过程中,患者扫描报到机旁的二维码,打开小程序“肝胆胰睿助”,通过一问一答的人机对话,完成自己病情的陈述,“肝胆胰睿助”则根据人机对话生成电子病历,以便医生查看。患者离开诊室后,还能向这位“肝胆胰睿助”咨询疾病问题。
“肝胆胰睿助” 基于海量的数据、构建医疗知识图谱,结合人工智能技术,建立虚拟医生问诊模型,根据患者症状进行鉴别问诊追问,最终生成一份符合门诊病历要求的病情总结,将医生从撰写病历的时间解脱出来,从而与病患进行更为深入的病情沟通,整体提升问诊效率及质量。
“肝胆胰睿助”在研发阶段收集互联网肝胆胰肿瘤患者数十万的提问,整理出患者最关心的问题,利用哈尔滨工业大学的语言技术平台LTP和大词林等技术将问题进行聚类,形成相关问题簇,最终交由中国人民解放军总医院肝胆胰肿瘤外科刘荣主任团队进行编辑对应回答,耗时2个月,从而达到95%问题覆盖率,从而保证了患者能搜其想看,并且保证能回答的准确性。
中国人民解放军总医院肝胆胰肿瘤外科应用“肝胆胰睿助”的价值主要体现在以下三大方面:
提高问诊效率,在患者候诊时进行鉴别问诊,有效减少医生撰写病历时间;
“肝胆胰睿助”支持患者答疑,解决患者问诊后咨询难的问题。同时,提供患者更多医学知识,包括解答术前、术后、不良反应等问题,加深患者病情了解,降低患者恐惧感,提高患者依从性;
支持随访功能,医生了解患者健康情况,同时患者向医生报告身体状况的可疑变化,及时防范病症复发。
3.4政府与公共服务行业最佳实践案例
公安行业最佳实践案例
目前公安行业的智能化应用主要停留在感知智能,强调前端数据的采集以及后端视频解析能力,认知智能的应用推广有限,导致公安数据信息规模庞大、数据复杂。办案人员需要将海量数据快速抽取成知识,发现有用信息;违法犯罪活动本身具备隐蔽性、团伙性等特征,在技术高速发展的背景下,又呈现出网络化、智能化、复杂化等新特征,增加了公安人员的办案难度。面对当前的公安业务新挑战,公安部门推动公安系统智能化改造,打破系统原有信息孤岛,挖掘潜在隐藏信息,分析关联关系,形成知识网络,通过技术手段支撑“人、事、地、物、组织”等刑侦关键要素。
知识图谱技术已应用在公安领域,通过知识图谱技术搭建公安领域知识图谱,针对多业务场景,实现重点人员关联分析、异常事件挖掘、重点场所关联分析、物品关联分析、团伙关系分析、相似案件推理等一系列智能辅助功能,提高公安机关办案效率。在帮助公安行业构建知识图谱的过程中,知识图谱厂商应具备以下能力:
公安机关具有海量数据,需要厂商具备大规模知识图谱构建能力;
各地公安机关具备自身特点,在构建知识图谱的过程中,需要较多定制化服务,要求厂商定制化能力较强,具备较好的服务意识;
公安实战经验需要转换为公安知识图谱中的应用模型,需要厂商具备一定公安行业模型积累;
公安领域内对于知识检索有一定需求,要求厂商具备一定自然语言处理能力;
公安领域存在大量的非结构化、半结构化信息,厂商在构建知识图谱的过程中需要较强的数据治理能力。
百分点助力某市政府构建治安防控大数据分析研判平台
某市地理位置特殊,多山且与港口城市接壤,是电信诈骗、跨境网络赌博等案件高发的城市。该市公安局下辖200多个派出所,希望能在网络诈骗专项治理行动中,使用新技术、新思路,解决当地网络诈骗、网络赌博等案件的发现难、取证难、抓补难等问题。
随着信息技术的快速发展,社会信息化程度的不断加深,犯罪活动呈现出复杂化、动态化、智能化的特征。如何利用大数据、人工智能等先进技术,分析数字世界并发现犯罪线索,实现对犯罪行为的早发现、早识别、早打击,已成为公安业务系统构建中最为核心的挑战。
尤其在疫情后,该市电信网络诈骗案频发,想通过贷款、兼职来获取资金的群众增多,犯罪分子利用这一点疯狂作案。该市公安机关迫切需要利用大数据与人工智能等新一代信息技术,对海量的多源异构数据进行整合治理,并深度结合当地业务场景和历史办案经验构建数据模型,有效提升该市的案件处置能力与公安综合防控水平。
百分点是中国领先的数据智能技术企业,在数字政府领域构建了完善的技术产品和解决方案体系,拥有丰富的海外国家级和国内省市级数字政府建设经验。
针对该市业务特点,该市政府与百分点构建了一体化的大数据综合分析平台,利用动态知识图谱等技术,将公安的人、地、事、物、组织、虚拟标识等要素按照实体、事件及其之间的关系进行数据融合汇聚治理,打破原有治安业务系统数据壁垒,提升治安数据融合治理、分析研判、智能应用和风险防控能力。
同时,该市政府与百分点构建了分析研判平台、战法模型平台、融合动态管控三个数据分析应用体系,实现社会治安风险的提前防范、精准打击和动态管控。治安防控大数据分析研判平台将知识图谱、NLP、战法模型等技术融入到治安综合平台建设中。基于数据资源统一服务平台,对治安信息进行全面整合、深度挖掘和研判分析,建立多种服务为上层各类治安业务应用提供支撑。
治安防控大数据分析研判平台解决方案的核心要素主要体现在以下四个方面:
公安大数据融合治理:利用百分点公安大数据治理平台,高效整合集成了当地近百类数据资源、几十亿条数据,并依托“动态知识图谱”技术,对每天新增千万条数据进行动态融合,实现对当地公安全要素数据的高效整合治理;
多维度综合分析研判电信诈骗事件:针对电信网络诈骗已有线索,通过联合搜素、事件查询、全息档案、关联分析、轨迹分析等多维分析功能,对文本、图片的检索分析,以及信息搜索,快速实现对线索的分析研判,展示线索的全貌;
结合实际业务构建预警战法模型:围绕“扫黄打非”专项业务流程,通过平台自定义算法,进行模型开发、模型分析,为用户提供低门槛、灵活易用的模型应用体验,深度挖掘潜在关联关系,快速发现高价值线索;
融合动态管控:境外赌场在国内发展大力代理机构,以“免费旅游、无息贷款“的幌子拉拢国内人员到东南亚国家或澳门赌场赌博。针对当地治安维稳、风险防控、侦查破案等实战需求,基于动态知识图谱,对各类轨迹信息进行实时接入和融合拉通,实现对人、车、物等重点目标的多维分析和智能管控。
该市政府与百分点构建的治安防控大数据分析研判平台的价值主要体现在以下三个方面:
覆盖全市200余个派出所,通过对潜在风险的主动感知预警,减轻了民警工作量,主动化解社会风险。打造了从案件线索发现、分析研判、侦查打击到风险预警的数字化侦查模式,对多起网络诈骗违法犯罪活动及可疑团伙准确识别和打击;
充分利用大数据、人工智能等信息技术将海量公安数据做融合治理,并结合资深干警的破案经验并沉淀为数据模型,打造了研判分析智慧大脑,使新任警员也能够快速获取经验知识,高效提升了办案业务能力和处置效率;
通过多维数据融合优化分析、碰撞关联,实现了一个窗口查询、各警种综合应用、多维度分级管控、预警信息主动推送和扁平化指挥调度,成功破获危害国家及群众财产安全的跨境网络赌博案件。
4.知识图谱未来展望
4.1 新机会:感知智能向认知智能时代跨进,知识图谱将驶向快车道
4.1.1感知智能定义
感知智能是指将物理世界的数据通过摄像头、麦克风或者其他传感器等方式进行采集,借助语音识别、图像识别等技术,映射到数字世界,并做标准化、结构化处理,一方面实现在特定场景的应用落地;另一方面可将数据提升至可认知的层次,即将信息翻译成及人类可理解、并用于分析和决策的数据,为认知智能提供数据基础。
4.1.2知识图谱是认知智能关键技术
人工智能分为感知智能、认知智能和行动智能三个阶段。当前正处于认知智能的起步阶段。
从感知智能到认知智能,知识图谱是关键一步。
认知智能是感知智能的进阶,需要在感知智能的基础上,结合行业知识,理解数据之间的逻辑关系以及代表的业务意义,并在此基础上进行分析决策。
感知智能阶段,更强调人工智能在信息获取上的应用创新,如计算机视觉领域的人脸识别算法应用。但随着人工智能与大数据技术的不断深化演进,业务场景数字化需求不断深化,同时大量无关联的数据使得管理变复杂,不利于用户数据管控,“数据孤岛”问题凸显。
核心问题在于,感知智能如同四肢,而认知智能如同大脑,忽略后端平台即“大脑”对于信息的知识抽取和与业务场景的关联分析,导致人工智能技术在推进过程中出现“四肢发达、头脑简单”的现象。
认知智能时代的到来,是在感知智能之上,提高了AI的理解分析能力。知识图谱技术将起到重要的支撑作用。在认知智能阶段,机器能够通过知识图谱挖掘隐性关系,洞察“肉眼”无法发现的关系和逻辑,用于最终的业务决策,注重行业知识图谱和关系挖掘,是人工智能在行业中更深层的落地应用。
认知智能时代刚刚起步,只有部分数字化水平较高的行业,如金融、政务、公安等行业开始逐步落地知识图谱应用场景,更多的行业还在探索阶段。
4.1.3认知智能时代,知识图谱将高速发展
认知智能时代的到来将推动知识图谱技术高速发展。
人工智能各时代之间是包含关系,而非取代关系,随着感知智能技术的发展,认知智能技术也会不断发展,海量数据的有效管理的问题会一直存在,知识图谱是目前平衡数据与管控最有效的解决方案,不断发展的知识图谱技术将为数据提供更加有效的分析管理应用;
目前,认知智能发展至今,在落地应用过程中存在两大核心难点,即海量数据治理与关联关系挖掘。其中海量数据的治理工作将主要由数据中台完成。关联关系挖掘目前将主要依靠知识图谱技术进行。由于知识图谱技术本身的优势,可以实现数据间隐性关系识别,同时目前学界正在攻关的跨知识库关联关系分析,也将有利于未来认知智能时代,具有复合知识能力的人工智能技术的研发。认知智能时代将更加依赖知识图谱。
认知智能相较于感知智能时代的一大特点为计算机的推理判断能力,将有效数据与相关结论关联,形成有效判断。辅助操作者决策类的应用将在未来的认知智能时代有广泛应用,而作为构建此类应用的底层技术,知识图谱也将高速发展。
4.2 新场景:知识图谱将在垂直领域诞生更多应用场景
知识图谱技术未来在垂直领域应用主要有两个方向:1)目前已有应用的行业将拓展应用场景与应用领域;2)未有知识图谱应用的行业将学习相似行业的成功经验复制应用。
针对目前已有应用的行业,知识图谱技术将通过关联分析、语义识别、智能搜索、推理决策、知识库管理等诸多应用功能与用户需求发生 “碰撞”,产生新的应用场景。同时,行业内知识图谱的整体搭建速度也会更快,成熟度更高,搭建成本降低,在此行业知识图谱技术已广泛应用时,将会出现功能完整的通用性知识图谱产品,知识图谱产品将向普惠方向发展,赋能行业内中小用户;
针对目前未有知识图谱应用的行业,主要原因有三点:1)行业内数据整体水平参差不齐,行业数字化进程较慢;2)劳动密集型产业,行业知识积累与管理对于行业整体影响较小;3)整体行业经济不景气,对于数字化投资有限,无专项资金支撑知识图谱构建;
针对此类行业,随着行业数字化转型的加快,未有知识图谱应用的行业将学习相似行业知识图谱产品的成功案例,复制到本行业中。但应注意,知识图谱技术有较强的领域性,在项目实施过程中需要行业用户与厂商共同探索在新行业内的知识图谱技术应用。
4.3 新融合:多技术融合将成为未来主流趋势
知识图谱本身是一种语义网络,属于泛自然语言处理技术,发展至今,知识图谱与NLP技术有千丝万缕的联系。同时,在未来认知智能,乃至行动智能的时代,人工智能技术的协同融合趋势将更加明显。
由于知识图谱的结构特殊性,随着数据量的增大,目前知识图谱的跨库应用能力较弱,对知识图谱进行分布式存储将成为重要研究方向。未来分布式的知识图谱存储结构将有效地解决知识图谱负载与存储模型的问题,更好地应对未来更大数据量的知识图谱构建。
机器学习等人工智能技术与知识图谱技术也会在知识构建、知识推理、知识存储以及知识应用等多方面有更加深入的结合。算法模型将更好地支持全流程的知识图谱构建。
结语
各行业领域用户都摩拳擦掌,准备利用知识图谱技术“武装”自身业务。但知识图谱技术在垂直领域的未来之路还有很长,每一项技术的发展都是螺旋递进。目前知识图谱只是在部分信息化较好的行业有良好应用,更多的应用场景需要厂商与用户共同探索。
知识图谱是感知智能向认知智能飞跃的关键技术。没有一项技术是完美的,所以,技术融合的趋势会让各项技术取长补短,更好服务于知识图谱的应用。技术融合也将是未来趋势。
目前国内已经涌现出一批知识图谱的优秀厂商,克服万难,在各擅长的领域内完成知识图谱的落地应用。“宝剑锋从磨砺出,梅花香自苦寒来”,知识图谱就是一个在应用中不断打磨进化的技术,各家厂商也应做好深耕行业,沉淀积累的准备。
知识图谱更像是一个工程而非单一的技术。知识图谱要做到的是落地应用而非纸上谈兵。在未来,相信知识图谱会赋能更多的应用场景。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。