国资国企大数据监管平台有丰富的应用场景,如智能搜索&推荐:提升用户找项目找投资效率;数据看板及可视化分析:分析事件发生的过程,分析用户行为,挖掘数据之间关...
引言:本文将从四个方面分享知识图谱在国资国企大数据监管平台的应用实践,首先是讲解知识图谱的概念,然后讲解为什么要做国资国企大数据监管平台落地知识图谱,接着讲解国资国企大数据监管平台在知识图谱领域的应用案例,最后探讨未来面临的挑战和机遇。
知识图谱简介
知识图谱发展历程
首先介绍下知识图谱的简史。1960年提出了语义网络,作为知识表示的一种方式,主要是帮助自然语言的理解,典型的就是语义网络,从不同维度表达词与词之间的语义关系。1980年提出了本体论,先定义一些本体再定义它们相关的关系,成熟的应用就是专家系统。1989年提出了万维网,然后1998年从超文本连接到语义网络,就是将每一个网页加一个语义含义。到了2006年提出了链接数据的概念,将互联网上的数据建立一些联系,如姚明的页面出现他妻子叶莉的信息,会给“叶莉”加一个链接。在2012年Google提出了知识图谱,目的是提升整个搜索效果。
知识图谱可以被认为是计算机科学早期愿景的实现,即创建大规模集成知识和数据的智能系统。源于语义网,数据库,知识表示,NLP,机器学习等研究领域的科学进步,知识图谱在过去几年中在学术界和工业界迅速普及。这些不同学科和技术的整合为知识图谱提供了丰富性,但也给从业者和理论家带来了挑战,让他们知道当前的进步是如何从早期技术发展而来的,以便一方面充分利用它们,另一方面避免重新发明轮子。
知识图谱的定义
知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体×关系×属性”集合的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。
知识图谱中包含的节点:
实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。如“中国”、“美国”、“俄罗斯”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
语义类(概念): 具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。
内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如每个国家的“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。
关系: 事物与事物之间的外部联系,代表知识图谱的边。在知识图谱上,关系则是一个把k k个图节点(实体、语义类、属性值)映射到布尔值的函数。
作为一种图数据结构,知识图谱的最小单元,是两个节点及它们之间的关系,即(node1, edge, node2)——这是一个三元组(triple)。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。如上图所示,公司是一个实体,买方-并购-卖方是一个(实体-关系-实体)的三元组。
知识图谱的应用场景
目前知识图谱应用场景分为两块,一种是通用领域,一种是垂直领域。通用领域如Google的搜索领域,国内的百度和搜狗也在搜索领域应用;还有些聊天领域,如智能机器人、智能手表。这种应用有一个特性就是依赖通用知识图谱,构建依赖国外维基百科,国内有百度百科、搜狗百科,将页面中结构化数据抽取出来构建知识图谱来支撑通用领域的问答和搜索。垂直领域应用越来越多,如金融、电商、公共安全、农业、电信等,如金融里面的反欺诈,公共安全领域的追捕犯罪分子。
不管是通用领域还是垂直领域落地有几个共性条件,第一个必须有一个结构化的数据,这个数据还要高质量,尽可能的海量数据;第二在数据基础上会抽象出一个本体库,从本体层面去定义实体类型,以及表示他们的关系,第三就是有可以利用数据和本体库的智能应用场景,依据知识图谱具有的优势和现有条件来确定业务场景是否需要知识图谱。目前知识图谱支撑的领域有搜索、问答、推荐、图数据关系挖掘。
随着信息化与数字化建设的展开与NLP技术的进步,知识图谱不再局限于网络百科式的搜索,其衍生出了互联网内容与社交、大数据知识图谱与行业知识图谱等多种产品类型,产品专业化与场景化的趋势日渐明显,行业知识图谱已经成为市场开拓重点。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,具备建设意愿与资金投入,因而成为了市场规模的主要拉力。据艾瑞统计测算,在2021年的行业市场结构中,金融与公安的市场份额合计共占总市场的38.2%。
各行业赛道知识图谱产业情况可从技术、业务、执行三大维度进行评价和对比。互联网是知识图谱产业最成熟的赛道。相比之下,其他行业的知识图谱产业仍处于建设期,以金融的表现为标杆。政务、工业都有巨大的数据量,但业务专家储备密集度、业务场景明确程度、客户配合度的评价偏低,需要较为漫长的磨合过程。尽管医疗领域的专家储备与业务场景明确度表现较好,但因各级医院资源利益不统一,文本数据理解难度大,其产业发展远不如人们所希冀的高专家水准。
为什么要在国资国企大数据监管平台落地知识图谱
国资国企大数据监管平台提供产权交易市场和投融资并购市场的商业情报、数据及数据分析工具,从通过数据系统开始,逐步想前台业务延展,实现从数据到分析到交易的商业闭环。为交易机构、国资国企、及投资人提供关联的业务方向、潜在的并购标的、战略意图识别、企业相似度、风险传递方向、派系分析等。对标、追踪、项目发现进行企业评估,智能搜索、智能匹配等。
有丰富的数据
接下来讲一下知识图谱为什么能在国资国企大数据监管平台中落地。首先我们有丰富的数据可以利用。国资国企大数据监管平台运行4年来,国资国企大数据监管平台及相关业务系统总计建立有数据库共8个,其中关系型数据库7个,图数据库1个,涉及数据表300多个,我们将国资国企大数据监管平台相关的数据管理统称为塔米星河。塔米星河中的数据有的是通过用户贡献而来,如用户账号、用户发布的项目、资讯、专栏等内容;有的是原始采集获取的,如来自各大产权交易机构官网的项目数据,成交公告、并购事件等;有的是经过加工提取的,如交易机构站点数据、达人、投资人、服务商数据、各种报告数据等;有的是对接第三方API获得的,如天眼查接口数据,证券资讯网站数据。这些庞大的数据和数据关联关系,足可以让知识图谱有用武之地。
有丰富的应用场景
那么为什么要在国资国企大数据监管平台中落地知识图谱?因为国资国企大数据监管平台有丰富的应用场景,如智能搜索&推荐:提升用户找项目找投资效率;数据看板及可视化分析:分析事件发生的过程,分析用户行为,挖掘数据之间关联,辅助决策:为每个企业建立成长性分析模型,为投资人线索挖掘提供帮助。国资国企大数据监管平台服务的产权交易市场,以及企业的投融资并购是一个低频行为,但是项目从启动到结束的整个过程需要多方参与,以及密集的知识储备,通过AI和知识图谱辅助提高决策效率显得非常有必要。
在智能搜索方面借助知识图谱AI+Web视角,提升搜索意图理解;在智能推荐方面利用知识图谱的AI+DB视角,可以从时间维度、相关主体维度推荐相关的内容;在智能辅助决策方面利用知识图谱NLP+AI视角,形成模型化的算法,生成语义化的图表和描述。如上图我们看到,当分析一个企业的并购行为时,我们可以从其参控股公司关系、产业布局、主导并购事件、竞争关系、行业、地区等等多个方面对其进行知识图谱化,并应用到真实场景中。
国资国企大数据监管平台知识图谱总体建设框架
接下来讲一下国资国企大数据监管平台中的知识图谱落地应用。一个知识图谱系统构建流程通常有五个部分,第一个是定义具体的业务问题,第二个数据搜集与处理,第三个是知识图谱的设计,第四就是知识图谱的存储,最后是应用开发及系统评估。
国资国企大数据监管平台知识图谱总体建设框架
数据层:在数据层会有外网数据爬虫平台,大部分数据是内网数据,数据分为两块结构化数据和非结构化数据。通过融合分析现有国资国企大数据监管平台现有10多个数据库、10万多并购事件数、4万多项目数据,以及上千万企业数据。构建一套新的图数据库系统,在现有数据库中抽取有用信息同步到图数据库中。而且要求构建一套自动化机制,实现数据的实时同步和条件抽取。
计算层: 计算层有预处理、归一化、数据融合以及推理计算。预处理方面结构化数据转换、半结构化数据抽取、文本关系抽取、数据标注,在处理完后会做一些实体名归一、属性归一、属性值归一。通过充分利用知识图谱应用技术,实现并购图谱从信息抽取到知识融合、知识加工全流程环节。信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
应用层:应用层有智能搜索、可视化、报告、以及完成公开市场企业并购融资行为在以下五大方面的分析,包括参控股企业查询、主导的并购融资事件分析、产业布局分析、行业分析以及竞争关系分析。同时对以上五大功能版块提供工具进行可视化分析,通过模板组装生成企业并购图谱分析报告。
知识图谱指对现实世界事物之间的相互关系进行形式化描述的结构化语义知识网络。“实体-关系-实体”、“实体-属性-属性值”三元组是知识图谱的基础表达方式,其中包含实体、概念、属性、属性值、关系等元素。实体指具有可区别性且独立存在的事物,如“成都传媒集团”、“郭智宇"等;概念指具有同种特性的实体构成的集合。
充分利用国资国企大数据监管平台数据源助推行业发展
充足的数据源是构建高质量知识图谱的重要前提。目前,国资国企大数据监管平台自建的项目数据、并购事件、新闻资讯、以及通过网络爬虫采集的网页数据、通过第三方接口对接的数据源均越来越丰富,具备构建并购知识图谱行业发展的基本要求。
提高国资国企大数据监管平台高效化智能化运作促进行业发展
高效化、智能化已成为社会发展的重要趋势,而知识图谱作为人工智能重要分支知识工程的具体应用体现,不仅能加深国资国企大数据监管平台垂直应用领域的智能化程度,还能为用户降低运营成本、提高系统运作效率。
建立数据治理规范为知识图谱提供充分必要条件
国资国企大数据监管平台涉及数据表总计为300个,涉及数据字段2000+多,数据库之间,表与表之间的关系错综复杂。团队经过多年对数据进行相关的描述和整理,构建数据字典,建立数据血缘关系,为知识图谱构建提供了充分必要条件。
国资国企大数据监管平台中的知识图谱应用场景
应用场景:智能搜索
搜素是国资国企大数据监管平台系统必不可少的功能,虽然现有系统已有检索功能,但是随着数据量的增加,以及后续更多功能的加入,原有的搜索系统面临以下几个问题:
- 检索速度慢,服务响应时间长。
- 国资国企大数据监管平台的统一搜索入口有功能缺失,比如新增加的专栏功能、债权项目就无法在搜索中检索出来。
- 检索不智能,无法通过关键词匹配最优结果,需要对中文分词进行管理和优化。
国资国企大数据监管平台综合搜素入口: 国资国企大数据监管平台综合搜索入口不仅包含现有的项目/资讯/塔米号/塔米达人信息,还包含现已上线的其他功能版块如债权招商、专栏、图谱、并购事件、成交公告、以及投资人、服务商、交易机构等信息。通过知识图谱构建的这些实体间关系,轻松实现了多源数据的综合搜索功能。
应用场景:时间轴数据透视
以时间为维度,对单一项目进行历史追踪数据分析,对交易主体进行历史项目汇聚和透视,形成更清晰的透视效果,挖掘信息历史价值。
分析主体:以时间为维度,对中央企业、地方国资、上市公司和新三板企业的并购融资行为进行统计和汇总,收集的主要实体数据如下表所示。
分析方法:
- 通过工商变更数据把实际控制权(存续、在业)的找出来
- 国资国企大数据监管平台现有产权交易所市场所有股权转让、增资扩股、成交公告信息
- 国资国企大数据监管平台需要补齐个产权交易所挂牌的2018年前的历史数据
- 地方国有企业清单目录,需要从地方国资委官网去找,省市一级问题不大,到区就比较麻烦,需人工补齐
- 通过比较上一次采集的实际控制权,版本比较,找出新设公司、投资、退出事件。不关心历史,只关心未来的快照变动
- 上市公司有哪些国企,以及国企参控股了哪些上市公司
- 沪深两市,上市公司关于定增、收并购、股权转让重大事件公告,要明确是否每一次投融资性行为都会有“拟公告”和“完成公告”
- 投资行为分析:收并购,融资行为:股权转让、增资扩股、定增(上市公司)
- 最终,以时间为维度,对单一项目进行历史追踪数据分析,对交易主体进行历史项目汇聚和透视,形成更清晰的透视效果,挖掘信息历史价值,通过横向穿透挂牌项目的整个生命周期:
通过横向穿透挂牌项目的整个生命周期,并购时间轴是基于时间序列对企业的历史并购事件进行可视化展示的应用,通过一条清晰直观的延伸时间轴,披露企业在所有公开市场的投融资并购行为,包括:股权融资、增资扩股、产权交易以及成交公告等信息。针对一个企业实体,通过年月日时间轴形式,完整的呈现出一个企业的并购融资发展历程。
应用场景:并购知识图谱
公开市场并购行为的价值和意义
并购(M&A)是指涉及两家以某种形式合并的公司的交易。并购交易可以按类型(水平,垂直,集团)或形式(法定,子公司,合并)进行划分。通过构建并购图谱分析,可以很好的评价一个企业的并购融资事件是否对企业带来了长期的利好,使企业能够发挥更好的协同作用,促进增长,以及实现产业多元化。
并购(M&A)的共同理由是创造协同效应,在这种协同效应中,合并后的公司的价值要比两家公司各自的价值高。协同效应可能是由于成本降低或收入增加。同时,与有机增长相比,通过并购(M&A)进行无机增长通常是公司获得更高收入的较快方法。公司可以通过收购或与具有最新功能的公司合并而获益,而不必承担在内部开发相同公司的风险。在横向合并中,最终的实体将获得更高的市场份额,并将获得影响价格的权力。纵向合并还可以提高市场支配力,因为该公司将更好地控制其供应链,从而避免了外部供应冲击。从事周期性行业的公司感到有必要分散现金流量,以免在行业发展放缓期间造成重大损失。在非周期性行业中实现目标可以使公司多元化并降低其市场风险。
并购知识图谱建设内容
本应用实现以下五大方面的并购图谱分析,包括参控股企业查询、主导的并购融资事件分析、产业布局分析、行业分析以及竞争关系分析;并在此基础上,基于报告样本生成企业并购图谱报告
其中每一项的建设流程大致分为数据获取、融合转化、知识计算和可视化四部分,每部分需制定标准的作业规则和文档说明,方便项目运维和知识的增量更新。
充分利用知识图谱应用技术,实现并购图谱从信息抽取到知识融合、知识加工全流程环节,在应用可见层面完成公开市场企业并购融资行为在以下五大方面的分析:包括参控股企业查询、主导的并购融资事件分析、产业布局分析、行业分析以及竞争关系分析。同时对以上五大功能版块提供工具进行可视化分析,通过模板组装生成企业并购图谱分析报告。
参控股及子公司关系图谱
展示企业对外投资和参控股情况,以图谱形式展示其所有参股企业列表和占比分布。下图展示了该企业的所有参控股企业情况以及占比。
同时可以生成企业关系图谱,实现企业关系图谱的构建+查询的整个流程,同时可以基于此挖掘出更有用的知识:企业合作伙伴发现、相似企业推荐、投资风险预测、企业市场预测等场景。
主导并购事件图谱分析
利用知识图谱分析并展示其相关联的2018-2021年度并购事件,并从股权收购,企业增资,新设投资,投资退出四个角度分别展示该公司这几年相关联的并购事件,以及对应事件简介和描述。
产业布局图谱分析
产业布局与并购事件热度分析,针对成都传媒集团2018~2020年并购事件根据标签(即对应并购企业的产业标签)来分析,整合企业产业布局。
行业图谱分析
同行分析二级图谱:针对统一行业获取行业前几名的相关数据,利用知识图谱进行对比分析(并购行业,区域,规格,市场占有率多个维度进行同行对比图谱(对比的公司可以自己再增加)综合挖掘其潜在的公司战略意图。
同区分析二级图谱:针对统一区域获取区域内前几名的相关数据,利用知识图谱进行对比分析(并购行业,区域,规格,并购行业,区域,规格,市场占有率多个维度进行同行对比图谱(对比的公司可以自己再增加)综合挖掘其潜在的公司战略意图。
竞争关系关联分析
竞争关系二级图谱:利用并购数据分析潜在的竞争对手和相应同行竞争对手,并对比潜在对手和自己公司的在(并购行业,交易金额,历年估值,市场占有率多个维度进行同行对比图谱(对比的公司可以自己再增加)综合挖掘其潜在的公司战略意图。
应用场景:数据可视化分析
进行可视化展示,目的是展示内部数据间关联关系,后期让用户能够更好的找到需要的信息而不是直白的搜索列表,返回什么就看什么,可以主动的在知识图谱知识网络中漫游。
国资国企大数据监管平台可视化数据大屏,为企业提供最直接的结果呈现,可以让我们全面认识数据,使数据更加直观清晰、真实可靠。
应用场景:国资国企数据看板
知识图谱的核心价值在于对多源异构数据和多维复杂关系的处理与可视化展示,让上游大数据和下游AI任务形成有效连接,突破以往基于字符串匹配的浅层语义,更加便利、有效的帮助客户组织领域知识,为流程优化、辅助决策、预测分析等下游应用提供基础服务。国资国企大数据监管平台围绕全量的国企央企上市公司而展开的一系列公开市场投融资并购行为知识图谱建设。
国资国企大数据看板系统结合自身庞大的数据库资源及多年来产权投融资并购市场的综合服务能力。为【地方政府、国企、央企、上市公司、交易机构】提供国资国企投融资并购大数据“全景可视化”看板,自助式数据分析与洞察; 实现企业价值画像“一键竞调”,并购图谱“一键穿透”,分析报告“一键下载”。
知识图谱在国资国企数据看板中的功能特点:
- 系统默认提供全量数据主看板、基于省份的数据看板
- 系统提供一套可视化模板库,用户可自定义数据看板
- 系统提供数据分析模板超市,用户可直接使用或自定义参数修改
- 多维度多条件数据检索查询、大批量数据导出
- 丰富的文档资源:投资分析报告、项目分析报告、企业评价报告
- 系统提供基于某个“企业”的关联事件查询、时间序列展示、并购图谱分析
投融资并购领域的知识图谱,知识单元包括公司、产品、股东、并购事件等,知识单元之间的关系包括上下游、竞争对手、合作、股权、并购等。知识图谱可以知识单元之间的关系网络直观地显示出来,当其中某个节点发生变化时,能快速识别出这个变化在关系网络中的传导过程及对特定主体的具体影响。
本应用有效的帮助企业通过知识图谱了解自己,了解竞争对手。包括竞品分析(商业模式、经营情况、相似程度等)、上下游风险的传导以及供求关系、企业经营的实时跟踪等。这些信息能帮助投资机构更好地分析行业及公司,提升效率,抓住业务机会。
知识图谱的技术架构
知识图谱即将知识结构绘制成以各个知识单元概念为节点的地图。知识图谱的基础是自然语言处理,在计算机对文本中的知识点理解之后,再建立起各个知识单元之间的关系,形成知识网络,最后以可视化的形式展现出来,或者通过智能搜索引擎呈现。
知识图谱的体系架构
知识图谱的体系架构是其指构建模式结构,如图2所示。其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。
知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。
知识图谱的价值核心是通过数据积累形成的产业知识体系,早期依赖于专家支持,后续主要由算法驱动,不断迭代。一般来说,积累时间越长、处理数据越多,产业知识体系越完善,搜索及预测效果越好。
知识图谱产业链流程
知识图谱的构建和应用许多多方供应商通力合作,上游着重数据处理,中游搭建模型,应用服务前端形成闭环。每一行业的知识图谱内容包括三个部分:行业信息化与数字化基础观察、场景应用分析、市场规模分析。 行业带有深厚的科技基因,总体信息化与数字化基础良好,大厂具备较为充足的投入预算与建设实力,中小企业主要依托现有基础夯实业务。场景应用:以智能推荐与辅助决策为核心,推出网络搜索、商品迭代开发、商品精准导购、内容个性化推荐等细分应用。
知识图谱的未来展望
总结下今天分享的内容,首先是知识图谱优势五大视角:Web+NLP+KR+AI+DB。知识图谱落地充分必要条件三个方面:数据+本体库+智能应用场景。以及国资国企大数据监管平台中知识图谱落地,1.交易市场数据:结构化企业数据+项目交易事件+非结构化的用户文本数据;2.行业本体库:支持图谱数据构建+智能应用;3.智能应用:智能搜索+并购图谱+智能推荐+图谱数据可视化。
知识图谱是一个强大的工具,尤其是对于企业级而言,例如对于网络管理、元数据管理,它对于决策支撑、场景回溯、场景预测、强可视化以及白盒化的用户体验而言价值重大。无论是系统管理员、IT工程师还是企业的决策管理者都会感知到知识图谱的深远意义。
知识图谱的优势
- (1)关系的表达能力强: 传统数据库通常通过表格、字段等方式进行读取,而关系的层级及表达方式多种多样,且基于图论和概率图模型,可以处理复杂多样的关联分析,满足企业各种角色关系的分析和管理需要。
- (2)像人类思考一样去做分析: 基于知识图谱的交互探索式分析,可以模拟人的思考过程去发现、求证、推理,业务人员自己就可以完成全部过程,不需要专业人员的协助。
- (3)知识学习: 利用交互式机器学习技术,支持根据推理、纠错、标注等交互动作的学习功能,不断沉淀知识逻辑和模型,提高系统智能性,将知识沉淀在企业内部,降低对经验的依赖。
- (4)高速反馈: 图式的数据存储方式,相比传统存储方式,数据调取速度更快,图库可计算超过百万潜在的实体的属性分布,可实现秒级返回结果,真正实现人机互动的实时响应,让用户可以做到即时决策。
在知识图谱实践过程遇到的问题和挑战
- 1.构建本体库需要交易市场/投融资并购行业专家的加入及规范
- 2.投融资并购行业实体词类型、实体词需要规范化及挖掘,大量非结构文本数据亟待结构化。
未来的挑战:
- 打造出国央企投融资并购领域最权威的知识图谱。
- 提升用户智能应用效果,达到通过知识图谱辅助决策、提供效率的作用。
- 将知识图谱深入结合国资国企大数据监管平台业务场景深入结合,将图谱与并购地图、AI、区块链应用相结合。
相关阅读:
版权申明:本文主要目的是通过网络分享行业经验和技术探讨,原创著作权归探码科技所有,请勿用于商业用途。