[ PROMPT_NODE_26402 ]
data_formats
[ SKILL_DOCUMENTATION ]
# ClinVar 数据格式和 FTP 访问
## 概述
ClinVar 提供多种格式的批量数据下载,以支持不同的研究工作流。数据通过 FTP 分发并按计划更新。
## FTP 访问
### 基础 URL
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
### 更新计划
- **月度发布**: 每月第一个星期四
- 包含完整文档的完整数据集
- 无限期存档以保证可重复性
- 包含发布说明
- **每周更新**: 每周一
- 月度发布的增量更新
- 保留至下一次月度发布
- 允许与 ClinVar 网站同步
### 目录结构
pub/clinvar/
├── xml/ # XML 数据文件
│ ├── clinvar_variation/ # VCV 文件 (以变异为中心)
│ │ ├── weekly_release/ # 每周更新
│ │ └── archive/ # 月度存档
│ └── RCV/ # RCV 文件 (变异-疾病对)
│ ├── weekly_release/
│ └── archive/
├── vcf_GRCh37/ # VCF 文件 (GRCh37/hg19)
├── vcf_GRCh38/ # VCF 文件 (GRCh38/hg38)
├── tab_delimited/ # 制表符分隔的摘要文件
│ ├── variant_summary.txt.gz
│ ├── var_citations.txt.gz
│ └── cross_references.txt.gz
└── README.txt # 格式文档
## 数据格式
### 1. XML 格式 (主要分发格式)
XML 提供最全面的数据,包含完整的提交详情、证据和元数据。
#### VCV (变异) 文件
- **用途**: 以变异为中心的聚合
- **位置**: `xml/clinvar_variation/`
- **登录号格式**: VCV000000001.1
- **最佳用途**: 针对特定变异的查询,无论其疾病如何
- **文件命名**: `ClinVarVariationRelease_YYYY-MM-DD.xml.gz`
**VCV 记录结构:**
xml
NM_000059.3(BRCA2):c.1310_1313del (p.Lys437fs)
Breast-ovarian cancer, familial 2
Pathogenic
reviewed by expert panel
#### RCV