人工智能 频道

人工智能演义第四回 | 语义网络你方唱罢,知识图谱横空出世

  前几回,我们从图灵、达特茅斯会议等见证了人工智能的跌宕起伏,也了解到了神经网络和符号主义为代表的技术发展,今天,我们来探讨下“语义网络”和”知识图谱‘’对人工智能和人力资本行业发展的作用。

  上回书说到由符号主义所引领,以专家系统为代表的人工智能第二次高潮又一次戛然而止。而与此同时,随着技术的发展,人工智能也逐渐褪去其神秘面纱,随个人电脑一道“飞入寻常百姓家”。一个新的伟大时代即将到来,当时的符号主义科学家们也不甘寂寞,争着再做一次时代的弄潮儿。

语义网络诞生与发展

  本回的第一位主人公是一位英国科学家,名叫伯纳斯-李(Tim Berners-Lee)。

  如果大家对他的名字还有点陌生,那么听听他的成就吧:第一位HTTP协议和Web浏览器的开发者,WWW(万维网)的发明人,万维网联盟(W3C)的创始人,以及2016年图灵奖的获得者。

△英国科学家伯纳斯-李

  在2012年伦敦奥运会中,伯纳斯-李与贝克汉姆、丹尼尔·克雷格(007扮演者)、憨豆先生和JK·罗琳等一众家喻户晓的英国名人一起出现在开幕式的表演中,足以证明他在英国人民乃至世界人民中的地位。

  在伯纳斯-李的诸多研究中,还有一项曾经产生过巨大影响力的研究方向,那就是语义网络(Semantic Network)。这一研究方向的初衷是希望机器能够读懂互联网上的所有内容。

  “知识点:语义网络(Semantic Network):语义网络(Semantic Network)是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。”

  在多年的人工智能演进中,学者们普遍注意到了知识对实现人工智能落地所起到的决定性作用。上回提到的符号逻辑和专家系统分别依靠AI专家或者行业专家对领域内的知识进行整理,面对不同行业的海量知识,他们往往力不从心。

  互联网的诞生为人类知识的产生和结构化带来了新的契机。在新的互联网世界,每个人都可以创建自己的网页,网友们使用一种统一的HTML语言对不同的内容进行标记,而浏览器能够解析这些HTML标签,并根据标签对这些内容进行展示。语义网络的思想与之类似,它使用一套更复杂的标签系统对互联网上的所有内容进行标记和解释。

  早期的语义网络希望发动互联网上的所有内容贡献者一起创建一个规模更大的知识库,基于此进行知识的表达与推理。除了要面对海量的知识之外,语义网络还继续解决海量内容贡献者的协同问题。不同的人知识体系可能不同,对事物的认识可能不同,即使对同一事物,可能也存在不同的描述方式。为解决这一问题,伯纳斯-李引入了资源描述框架(Resource Description Framework,RDF),网络本体语言(Web Ontology Language)等概念,对语义网络的标签方式进行了规范,来实现描述的统一。

  尽管有相关技术的支持,实现自动推理的语义网络仍需要面对海量类别与实体以及各种模糊概念、不确定性和不一致性带来的挑战。而另一方面,互联网的快速发展和商业化也超出了伯纳斯-李的预期。互联网的创建伊始有一些乌托邦的味道,所有的内容创建者都被寄希望严格遵守各种内容与标签规范,为自己所提供的内容负责。但随着互联网的快速普及,以及大量商业需求的产生,几乎所有网页制作者都把注意力放在内容的展示上,对内容的知识化并不在意,更不要说遵守相关的知识表达规范了。

  为了汇集散落各处的网页信息,搜索引擎开始登场并且逐渐走到了互联网舞台的中央。各大搜索引擎通过爬虫技术几乎抓取了全网的主要网页,而大数据和自然语言处理技术的进步也使得直接对海量文本数据进行语义分析与推理成为可能,是时候把接力棒交给他们了。

知识图谱横空出世

  2006年,伯纳斯-李又提出了链接数据(Linked Data)的概念,数据不仅仅发布于语义网中,而要建立起数据之间的链接从而形成一张巨大的链接数据网。2009年,如今已不见踪影的雅虎研究院发表了一篇题为《A web of concepts》的论文,提出以概念为核心对互联网中的内容进行抽取和管理。

  2012年,Google发布了一款名叫“知识图谱”(Knowledge Graph)的产品,在一定程度上对这篇文章的核心思想进行了实现。

  “知识点:知识图谱(Knowledge Gragh):是知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。”

  一石激起千层浪,从产品形态上来看,Google的知识图谱会在搜索框的右侧对一些Query增加一个知识看板(Knowledge Panel),会识别出Query包含的实体,给出介绍以及一些重要的属性信息。而在产品背后,是Google基于海量数据所构建的图数据库,包含了亿级的实体和关系,以及所需要的的信息提取,链接和分析的能力。

  在知识图谱里,通常用图中的节点来表达实体、用图里的边来表达实体间的关系(Relation)。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系。

△Google知识图谱展示

  无独有偶,一年之后Facebook也发布了一款类似的产品:Graph Search,提供基于实体识别和知识图谱的搜索服务。一时间,各大互联网巨头纷纷开始构建各自的知识图谱,好不热闹,沉寂许久的符号逻辑学派再一次强势归来,从此走向一个新的时代。

  为什么Google等互联网公司提出的知识图谱能够取得成功,院长觉得天时、地利、人和缺一不可:

  ·天时:这些互联网巨头天生拥有海量的数据,解决了知识获取的源头问题;

  ·地利:大数据和人工智能技术的进步,使得机器可以高效地从非结构的文本中抽取实体及属性内容,不再依赖人工的标签或者专家的输入;

  ·人和:知识图谱依托于明确的搜索业务需求,场景明确,且对于准确度和推理能力的要求不算太高;

知识图谱在人力资本领域的应用

  前面说到的知识图谱更多的是互联网巨头面向整个世界构建的通用知识体系,但具体到某个行业其准确性和丰富程度未必能满足具体业务的要求。有道是“一花一世界,一叶一如来”,每一个行业领域都有着构建一套贴近自己行业的知识图谱的需求。

  上回曾经说到过,在七八十年代,专家系统曾经在很多行业有成功的应用,产生了很大的影响力。而在最近的十年,研究者们也开始将知识图谱的概念和相关方法引入自己的专业,开始行业知识图谱的构建。这些行业图谱通常依托已有的行业语料与专家知识,借助先进的自然语言处理算法,挖掘行业相关的实体、属性及关系,并利用这些抽取的知识赋能业务,提供从感知到认知的智能能力升级。

  如今,与我们生活密切相关的零售、医疗、金融和教育等各个行业,都有AI公司都推出了很多有影响力的行业知识图谱赋能各自业务。而作为人力资源领域最早进行AI实践的e成科技,早在几年前就开始了人力资源行业知识图谱的谋篇布局,目前已经形成覆盖公司、职能、专业、证书、行业、学校、部门和技能八大类型,百万实体千万关系量级的人力资源知识图谱,是最大规模的全行业人力资源知识图谱。

  基于e成科技的人力资源知识图谱,我们可以了解到不同行业有哪些岗位,岗位下有哪些职能,不同职能又会需要哪些技能,这些技能之间存在着什么样的关系等等。前几回,院长也和大家讨论过知识图谱在人力资本不同场景的应用。在e成科技提供的简历解析、人岗匹配、人才岗位画像和AI面试等诸多业务场景中,都能够看到知识图谱的应用。

  回顾符号主义发展的七十年历程,核心要解决的问题还是知识的获取、表达及推理的问题。受限于不同时代的技术,知识提供者经历了从AI专家到行业专家再到普通互联网内容贡献者的过程,与之相适应的的是知识抽取和表达技术也在不断地丰富和完善。这一变化也得益于以统计机器学习和神经网络为代表的其他人工智能领域的进步。未来符号逻辑的发展方向一定不是封闭的,而是更多的与AI的不同流派结合,与不同的行业结合,相信这一定大有可为!基于沉淀多年的、领先的AI算法能力,e成科技重磅打造了AI开放平台。提供AI算法能力、AI产品和AI解决方案。

  作者:e成科技AI算法负责人刘洋

0
相关文章