
文章插图
在构建知识图谱中 , 需要对输入的实体进行分类 , 在蚂蚁场景下是一个大规模多标签分类的任务 。为了融合专家知识来进行实体分类 , 主要做如下三点优化:
- 语义信息增强:引入label语义图表示学习的Embedding 。
- 对比学习:加入层次label监督的对比 。
- 逻辑规则约束:融入专家先验知识 。

文章插图
在实体识别的基础上 , 从字词连边的图结构出发 , 让模型学习到对连边的合理赋权 , 对噪声词连边减小权重 。提出了边界对比学习和语义对比学习两个模块:
- 边界对比学习 , 用来解决边界冲突问题 。在词表注入之后 , 构建一个全连接图 , 用GAT来学习每个token的表征 , 边界分类正确的部分构建一个正例的图 , 错误的部分构建负例的图 , 通过对比让模型学到每个token的边界信息 。
- 语义对比学习 , 用来解决语义冲突问题 。借鉴了原型学习思想 , 把label的语义的表征加进来 , 强化每个token与label语义之间的关联关系 。

文章插图
在领域问题上我们的标注样本很少 , 会面临few-shot或zero-shot的场景 , 在这种情况下进行关系抽取的核心思想就是引入外部知识库 , 为了解决语义空间不同导致的性能下降问题 , 设计了基于逻辑规则的推理模块;为了解决实体类型匹配导致的死记硬背问题 , 设计了细微差异感知模块 。
2、图谱融合图谱融合是指不同业务领域下图谱之间的信息融合 。

文章插图
图谱融合的好处:
- 跨业务的知识复用:基于图谱本体模型 , 实现跨业务的知识连接 。
- 减少无效数据拷贝:连接即可应用 , 标准化知识服务链路 。
- 业务快速价值落地:减少业务找数据的成本 , 通过知识复用带来更大业务价值 , 降本提效 。

文章插图
知识图谱融合过程中一个核心技术点就是实体对齐 , 这里我们采用了SOTA算法BERT-INT , 主要包括两个模块 , 一个是表示模块 , 另一个是交互模块 。
算法的实现流程主要包括召回和排序:
召回:在表示模块 , 利用标题文本的 BERT向量相似度召回 。
基于标题+属性+邻居的排序模型:ü 利用表示模块 , 完成对标题、属性和邻居的向量表示:
- 计算标题的cos相似度 。
- 分别计算两个实体的属性和邻居集合间的相似度矩阵 , 并提取一维相似度特征 。
- 将三个特征拼接为特征向量计算Loss 。

文章插图
这一部分 , 主要介绍一下蚂蚁内部的知识表示学习框架 。
蚂蚁提出了一个基于Encoder-Decoder框架的知识表示学习 。其中Encoder是一些图神经的学习方法 , Decoder是一些知识表示的学习 , 比如链接预测 。这套表示学习框架可以自监督产出通用的实体/关系Embedding , 有几个好处:1)Embedding Size远小于原始特征空间 , 降低了存储成本;2)低维向量更稠密 , 有效缓解数据稀疏问题;3)同一向量空间学习 , 对多源异质数据的融合更自然;4)Embedding具有一定的普适性 , 方便下游业务使用 。
推荐阅读
- 健身之后才知道的10条伪知识,健身避坑
- 奇险天下第一山是什么山蚂蚁庄园 奇险天下第一山是什么山
- 核心交换机的六个基础知识
- 蚂蚁去除办法 蚂蚁去除的小妙招
- 蚂蚁花呗可以转账给朋友吗怎么转 蚂蚁花呗可以转账给朋友吗
- 一些减肥的冷知识,可以让你瘦到更快一些
- 水晶城里学知识,别有洞天
- 鳝鱼及营养知识详细介绍
- 娱乐冷知识——邓为
- oneAPI用于大规模图计算异构加速框架设计
