和讯网 | 2017-09-20
在社会网络中,一个著名的理论是:
最多通过六个人,你就能够认识世界上的任何一个陌生人。如果把每个人看作实体,找出人与人之间的联系,其中涉及的就是建设知识图谱的技术。
通过知识图谱的图形化展示,可以很直观地呈现人们错综复杂的社交关系。据说,这种技术曾经用于情报部门反恐,并取得了良好的效果。今天,知识图谱已经从007的神秘技能演变为金融黑科技。这项金融黑科技真正应用的起点在2012年,谷歌公司将其引入搜索引擎,用于改善搜索体验。简单地说,就是通过对网页信息的爬取和分析,找出不同种类信息的内在联系,从“关系”的角度突破信息碎片化壁垒,提供包含关联关系的搜索结果。
值得注意的是,金融领域由于对数据强烈的依赖性,被认为是人工智能最适合落地的领域之一。海量的数据为人们更好地掌握与认知事物规律,提供了越来越丰富的来源。
但是,由于非结构化数据的急剧增长,对数据的分析与理解的要求已经远远超过人类的生理极限,这对我们的分析手段提出了新的要求与挑战。传统的数据储存方式将数据分门别类的存放,已经很难适应现实瞬息万变的市场行情,无法满足金融分析的实时性和全局性的要求。
金融知识图谱是金融行业语义理解和知识搜索的关键性基础技术,可以为舆情监控、知识发现和推理决策等提供技术支撑。因此,越来越多的金融机构及企业在探索构建金融领域的知识图谱研究,将海量非结构化信息自动化利用起来,为金融领域应用决策提供更精准可靠的依据。
知识图谱本质上是一种语义网络,是基于图的数据结构,以图的方式存储知识并向用户返回经过加工和推理的知识。它由“节点”和“边”组成,节点表示现实世界中的“实体”,边表示实体之间的“关系”。
一般来说,知识图谱分为通用知识图谱和领域知识图谱。其中,通用知识图谱主要由各大搜索引擎公司研究,以提高搜索准确率,争取直接给出目标答案;而领域知识图谱可根据领域特定的情况,提供各种针对性的应用。
具体到金融领域,因为涉及到各行各业,包含了经济、产业、公司等众多方面的知识,所以金融知识图谱相对于其他领域比较特别。具体来说,金融知识图谱常见的实体包括:公司、产品、证券和人员等。实体间的关系包括:股权关系、任职关系、担保关系、供应商关系、竞争对手关系、生产关系、采购关系和上下游关系等(参见下图)。其中,有些实体和关系,可以自动抽取生成,如股权关系和任职关系等,均可在工商局注册登记平台得到公开信息。而产品间的上下游关系则需要有系统性的数据源,这就给信息获取和识别带来了巨大的挑战。
目前,知识图谱的应用在国内还处于初始阶段,但已经在金融、医疗和电商等行业得到了广泛的探索。特别在金融行业中,知识图谱是一个重要的反欺诈手段。例如,基于大数据的分析把不同来源的各类数据整合在一起,有效地识别出团体欺诈、身份造假、代办包装等欺诈行为。此外,还可应用于行业风险预测、对客户的精准营销以及可视化展示等一些典型的领域。相信随着研究的深入,还会有越来越多的应用场景被发掘出来。