[ PROMPT_NODE_27556 ]
vaex
[ SKILL_DOCUMENTATION ]
# Vaex
## 概述
Vaex 是一个高性能 Python 库,专为惰性、核外 (out-of-core) DataFrames 设计,用于处理和可视化过大而无法放入内存的表格数据集。Vaex 每秒可处理超过十亿行数据,支持对数十亿行的数据集进行交互式探索和分析。
## 何时使用此技能
在以下情况使用 Vaex:
- 处理大于可用内存的表格数据集(GB 到 TB 级别)
- 在海量数据集上执行快速统计聚合
- 创建大数据集的各种可视化图表和热力图
- 在大数据上构建机器学习工作流
- 在不同数据格式之间进行转换 (CSV, HDF5, Arrow, Parquet)
- 需要惰性求值和虚拟列以避免内存开销
- 处理天文数据、金融时间序列或其他大规模科学数据集
## 核心能力
Vaex 提供六个主要能力领域,每个领域都在参考目录中有详细记录:
### 1. DataFrames 与数据加载
从各种来源加载和创建 Vaex DataFrames,包括文件 (HDF5, CSV, Arrow, Parquet)、pandas DataFrames、NumPy 数组和字典。参考 `references/core_dataframes.md` 了解:
- 高效打开大文件
- 从 pandas/NumPy/Arrow 转换
- 使用示例数据集
- 理解 DataFrame 结构
### 2. 数据处理与操作
执行过滤、创建虚拟列、使用表达式以及聚合数据,而无需将所有内容加载到内存中。参考 `references/data_processing.md` 了解:
- 过滤与选择
- 虚拟列与表达式
- Groupby 操作与聚合
- 字符串操作与日期时间处理
- 处理缺失数据
### 3. 性能与优化
利用 Vaex 的惰性求值、缓存策略和内存高效操作。参考 `references/performance.md` 了解:
- 理解惰性求值
- 使用 `delay=True` 进行批处理操作
- 在需要时物化列
- 缓存策略
- 异步操作
### 4. 数据可视化
创建大数据集的交互式可视化,包括热力图、直方图和散点图。参考 `references/visualization.md` 了解:
- 创建 1D 和 2D 图表
- 热力图可视化
- 使用选择集
- 自定义图表与子图
### 5. 机器学习集成
构建包含转换器、编码器的机器学习工作流,并与 scikit-learn、XGBoost 及其他框架集成。参考 `reference