[ PROMPT_NODE_26654 ]
gtars
[ SKILL_DOCUMENTATION ]
# Gtars: Rust 基因组工具与算法
## 概述
Gtars 是一个高性能的 Rust 工具包,用于操作、分析和处理基因组区间数据。它提供了专门用于重叠检测、覆盖率分析、机器学习标记化以及参考序列管理的工具。
在处理以下内容时使用此技能:
- 基因组区间文件 (BED 格式)
- 基因组区域间的重叠检测
- 覆盖率轨迹生成 (WIG, BigWig)
- 基因组机器学习预处理与标记化
- 单细胞基因组学中的片段分析
- 参考序列检索与验证
## 安装
### Python 安装
安装 gtars Python 绑定:
bash
uv uv pip install gtars
### CLI 安装
安装命令行工具(需要 Rust/Cargo):
bash
# 安装所有功能
cargo install gtars-cli --features "uniwig overlaprs igd bbcache scoring fragsplit"
# 或仅安装特定功能
cargo install gtars-cli --features "uniwig overlaprs"
### Rust 库
在 Rust 项目的 Cargo.toml 中添加:
toml
[dependencies]
gtars = { version = "0.1", features = ["tokenizers", "overlaprs"] }
## 核心能力
Gtars 组织为专门的模块,每个模块专注于特定的基因组分析任务:
### 1. 重叠检测与 IGD 索引
使用集成基因组数据库 (IGD) 数据结构高效检测基因组区间之间的重叠。
**适用场景:**
- 查找重叠的调控元件
- 变异注释
- 比较 ChIP-seq 峰值
- 识别共享的基因组特征
**快速示例:**
python
import gtars
# 构建 IGD 索引并查询重叠
igd = gtars.igd.build_index("regions.bed")
overlaps = igd.query("chr1", 1000, 2000)
请参阅 `references/overlap.md` 获取全面的重叠检测文档。
### 2. 覆盖率轨迹生成
使用 uniwig 模块从测序数据生成覆盖率轨迹。
**适用场景:**
- ATAC-seq 可及性分析
- ChIP-seq 覆盖率可视化
- RNA-seq 读取覆盖率
- 差异覆盖率分析
**快速示例:**
bash
# 生成 BigWig 覆盖率轨迹
gtars uniwig generate --input fragments.bed --output coverage.bw --format bigwig
请参阅 `references/coverage.md` 获取详细的覆盖率分析工作流。
### 3. 基因组标记化
将基因组区域转换为离散的标记,用于机器学习应用,特别是基因组数据的深度学习模型。
**适用场景:**
- 基因组预处理