[ PROMPT_NODE_27490 ]
knowledge_graphs
[ SKILL_DOCUMENTATION ]
# 知识图谱推理
## 概述
知识图谱以图格式将结构化信息表示为实体和关系。TorchDrug 为使用基于嵌入的模型和神经推理方法的知识图谱补全(链接预测)提供了全面支持。
## 可用数据集
### 通用知识图谱
**FB15k (Freebase 子集):**
- 14,951 个实体
- 1,345 种关系类型
- 592,213 个三元组
- 来自 Freebase 的通用世界知识
**FB15k-237:**
- 14,541 个实体
- 237 种关系类型
- 310,116 个三元组
- 移除了逆关系的过滤版本
- 更具挑战性的基准
**WN18 (WordNet):**
- 40,943 个实体(词义)
- 18 种关系类型(词汇关系)
- 151,442 个三元组
- 语言知识图谱
**WN18RR:**
- 40,943 个实体
- 11 种关系类型
- 93,003 个三元组
- 移除了简单逆模式的过滤 WordNet
### 生物医学知识图谱
**Hetionet:**
- 45,158 个实体(基因、化合物、疾病、通路等)
- 24 种关系类型(治疗、导致、结合等)
- 2,250,197 条边
- 集成了 29 个公共生物医学数据库
- 专为药物重定位和疾病理解设计
## 任务:KnowledgeGraphCompletion
知识图谱的主要任务是链接预测——给定头实体和关系,预测尾实体(反之亦然)。
### 任务模式
**头实体预测:**
- 给定 (?, 关系, 尾实体),预测头实体
- “什么会导致疾病 X?”
**尾实体预测:**
- 给定 (头实体, 关系, ?),预测尾实体
- “基因 X 会导致什么疾病?”
**两者:**
- 同时预测头实体和尾实体
- 标准评估协议
### 评估指标
**排序指标:**
- **Mean Rank (MR)**: 正确实体的平均排名
- **Mean Reciprocal Rank (MRR)**: 排名倒数的平均值
- **Hits@K**: 前 K 个预测中包含正确实体的百分比
- 通常报告 K=1, 3, 10
**过滤 vs 原始:**
- **过滤 (Filtered)**: 从排名中移除其他已知的真实三元组
- **原始 (Raw)**: 在所有可能的实体中进行排名
- 过滤是评估的标准做法
## 嵌入模型
### 平移模型
**TransE (Translation Embedding):**
- 将关系表示为嵌入空间中的平移
- h + r ≈ t (头实体 + 关系 ≈ 尾实体)
- 简单且有效的基线
- 在 1 对 1 关系上表现良好
- 在 N 对 N 关系上表现较差
**RotatE (Rotation Embedding):**
- 将关系表示为复数空间中的旋转
- 能更好地处理对称和逆关系
- 在许多基准测试上达到最先进水平
- 可建模 co