# COSMIC 数据库
## 概述
COSMIC (癌症体细胞突变目录) 是全球最大、最全面的探索人类癌症体细胞突变的数据库。通过程序化方式访问 COSMIC 丰富的癌症基因组数据,包括数千种癌症类型中的数百万个突变、精选基因列表、突变特征和临床注释。
## 何时使用此技能
当您需要执行以下操作时,请使用此技能:
- 从 COSMIC 下载癌症突变数据
- 访问癌症基因普查 (Cancer Gene Census) 获取精选癌症基因列表
- 检索突变特征谱
- 查询结构变异、拷贝数变异或基因融合
- 分析耐药突变
- 处理癌症细胞系基因组数据
- 将癌症突变数据整合到生物信息学流水线中
- 在癌症背景下研究特定基因或突变
## 前置条件
### 账户注册
COSMIC 下载数据需要身份验证:
- **学术用户**: 免费访问,需在 https://cancer.sanger.ac.uk/cosmic/register 注册
- **商业用户**: 需要许可证 (联系 QIAGEN)
### Python 环境要求
bash
uv pip install requests pandas
## 快速入门
### 1. 基础文件下载
使用 `scripts/download_cosmic.py` 脚本下载 COSMIC 数据文件:
python
from scripts.download_cosmic import download_cosmic_file
# 下载突变数据
download_cosmic_file(
email="
[email protected]",
password="your_password",
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz",
output_filename="cosmic_mutations.tsv.gz"
)
### 2. 命令行使用
bash
# 使用简写数据类型下载
python scripts/download_cosmic.py
[email protected] --data-type mutations
# 下载特定文件
python scripts/download_cosmic.py
[email protected]
--filepath GRCh38/cosmic/latest/cancer_gene_census.csv
# 下载特定基因组组装版本
python scripts/download_cosmic.py
[email protected]
--data-type gene_census --assembly GRCh37 -o cancer_genes.csv
### 3. 处理下载的数据
python
import pandas as pd
# 读取突变数据
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='t', compression='gzip')
# 读取癌症基因普查
gene_census = pd.read_csv('cancer_gene_census.csv')
# 读取 VCF 格式
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
## 可用数据类型
### 核心突变
下载综合突变数据