蚂蚁大规模知识图谱构建及其应用( 二 )

2025-12-14 知识图谱

知识存储，包括Ha3存储和图存储等。

知识运营，包括知识编辑、在线查询、抽取等。

持续学习，让模型自动地进行迭代学习。

构建过程中的三个经验与技巧融合专家知识的实体分类

蚂蚁大规模知识图谱构建及其应用

文章插图
在构建知识图谱中，需要对输入的实体进行分类，在蚂蚁场景下是一个大规模多标签分类的任务。为了融合专家知识来进行实体分类，主要做如下三点优化：

语义信息增强：引入label语义图表示学习的Embedding 。
对比学习：加入层次label监督的对比。
逻辑规则约束：融入专家先验知识。

领域词表注入的实体识别

蚂蚁大规模知识图谱构建及其应用

文章插图
在实体识别的基础上，从字词连边的图结构出发，让模型学习到对连边的合理赋权，对噪声词连边减小权重。提出了边界对比学习和语义对比学习两个模块：

边界对比学习，用来解决边界冲突问题。在词表注入之后，构建一个全连接图，用GAT来学习每个token的表征，边界分类正确的部分构建一个正例的图，错误的部分构建负例的图，通过对比让模型学到每个token的边界信息。
语义对比学习，用来解决语义冲突问题。借鉴了原型学习思想，把label的语义的表征加进来，强化每个token与label语义之间的关联关系。

逻辑规则约束的小样本关系抽取

蚂蚁大规模知识图谱构建及其应用

文章插图
在领域问题上我们的标注样本很少，会面临few-shot或zero-shot的场景，在这种情况下进行关系抽取的核心思想就是引入外部知识库，为了解决语义空间不同导致的性能下降问题，设计了基于逻辑规则的推理模块；为了解决实体类型匹配导致的死记硬背问题，设计了细微差异感知模块。
2、图谱融合图谱融合是指不同业务领域下图谱之间的信息融合。

蚂蚁大规模知识图谱构建及其应用

文章插图
图谱融合的好处：

跨业务的知识复用：基于图谱本体模型，实现跨业务的知识连接。
减少无效数据拷贝：连接即可应用，标准化知识服务链路。
业务快速价值落地：减少业务找数据的成本，通过知识复用带来更大业务价值，降本提效。

图谱融合中的实体对齐

蚂蚁大规模知识图谱构建及其应用

文章插图
知识图谱融合过程中一个核心技术点就是实体对齐，这里我们采用了SOTA算法BERT-INT ，主要包括两个模块，一个是表示模块，另一个是交互模块。
算法的实现流程主要包括召回和排序：
召回：在表示模块，利用标题文本的 BERT向量相似度召回。
基于标题+属性+邻居的排序模型：ü 利用表示模块，完成对标题、属性和邻居的向量表示：

计算标题的cos相似度。
分别计算两个实体的属性和邻居集合间的相似度矩阵，并提取一维相似度特征。
将三个特征拼接为特征向量计算Loss 。

3、图谱认知

蚂蚁大规模知识图谱构建及其应用

文章插图
这一部分，主要介绍一下蚂蚁内部的知识表示学习框架。
蚂蚁提出了一个基于Encoder-Decoder框架的知识表示学习。其中Encoder是一些图神经的学习方法， Decoder是一些知识表示的学习，比如链接预测。这套表示学习框架可以自监督产出通用的实体/关系Embedding ，有几个好处：1）Embedding Size远小于原始特征空间，降低了存储成本；2）低维向量更稠密，有效缓解数据稀疏问题；3）同一向量空间学习，对多源异质数据的融合更自然；4）Embedding具有一定的普适性，方便下游业务使用。

推荐阅读

上一篇：探索 Gateway API 在 Service Mesh 中的工作机制

下一篇：这么多人用Codesandbox，他服务器扛得住么？