# GEO 数据库
## 概述
基因表达综合数据库 (GEO) 是 NCBI 的公共存储库,用于存储高通量基因表达和功能基因组学数据。GEO 包含超过 264,000 项研究,涵盖超过 800 万个来自基于阵列和基于测序实验的样本。
## 何时使用此技能
当需要搜索基因表达数据集、检索实验数据、下载原始和处理后的文件、查询表达谱或将 GEO 数据集成到计算分析工作流中时,应使用此技能。
## 核心能力
### 1. 理解 GEO 数据组织
GEO 使用不同的登录号类型对数据进行分层组织:
**系列 (Series, GSE):** 一个完整的实验,包含一组相关的样本
- 示例:GSE123456
- 包含实验设计、样本和整体研究信息
- GEO 中最大的组织单元
- 当前数量:264,928+ 个系列
**样本 (Sample, GSM):** 单个实验样本或生物学重复
- 示例:GSM987654
- 包含单个样本数据、协议和元数据
- 链接到平台和系列
- 当前数量:8,068,632+ 个样本
**平台 (Platform, GPL):** 所使用的微阵列或测序平台
- 示例:GPL570 (Affymetrix Human Genome U133 Plus 2.0 Array)
- 描述技术和探针/特征注释
- 在多个实验间共享
- 当前数量:27,739+ 个平台
**数据集 (DataSet, GDS):** 格式一致的精选集合
- 示例:GDS5678
- 按研究设计组织的实验可比样本
- 经过处理以进行差异分析
- GEO 数据的一个子集 (4,348 个精选数据集)
- 非常适合快速比较分析
**表达谱 (Profiles):** 链接到序列特征的基因特异性表达数据
- 可按基因名称或注释查询
- 交叉引用 Entrez Gene
- 支持跨所有研究的以基因为中心的搜索
### 2. 搜索 GEO 数据
**GEO 数据集搜索:**
按关键词、生物体或实验条件搜索研究:
python
from Bio import Entrez
# 配置 Entrez (必需)
Entrez.email = "
[email protected]"
# 搜索数据集
def search_geo_datasets(query, retmax=20):
"""搜索 GEO 数据集数据库"""
handle = Entrez.esearch(
db="gds",
term=query,
retmax=retmax,
usehistory="y"
)
results = Entrez.read(handle)
handle.close()
return results
# 示例搜索
results = search_geo_datasets("breast cancer[MeSH] AND Homo sapiens[Organism]")
print(f"Found {results['C")