[ PROMPT_NODE_27556 ]

vaex

[ SKILL_DOCUMENTATION ]

# Vaex ## 概述 Vaex 是一个高性能 Python 库，专为惰性、核外 (out-of-core) DataFrames 设计，用于处理和可视化过大而无法放入内存的表格数据集。Vaex 每秒可处理超过十亿行数据，支持对数十亿行的数据集进行交互式探索和分析。 ## 何时使用此技能在以下情况使用 Vaex： - 处理大于可用内存的表格数据集（GB 到 TB 级别） - 在海量数据集上执行快速统计聚合 - 创建大数据集的各种可视化图表和热力图 - 在大数据上构建机器学习工作流 - 在不同数据格式之间进行转换 (CSV, HDF5, Arrow, Parquet) - 需要惰性求值和虚拟列以避免内存开销 - 处理天文数据、金融时间序列或其他大规模科学数据集 ## 核心能力 Vaex 提供六个主要能力领域，每个领域都在参考目录中有详细记录： ### 1. DataFrames 与数据加载从各种来源加载和创建 Vaex DataFrames，包括文件 (HDF5, CSV, Arrow, Parquet)、pandas DataFrames、NumPy 数组和字典。参考 `references/core_dataframes.md` 了解： - 高效打开大文件 - 从 pandas/NumPy/Arrow 转换 - 使用示例数据集 - 理解 DataFrame 结构 ### 2. 数据处理与操作执行过滤、创建虚拟列、使用表达式以及聚合数据，而无需将所有内容加载到内存中。参考 `references/data_processing.md` 了解： - 过滤与选择 - 虚拟列与表达式 - Groupby 操作与聚合 - 字符串操作与日期时间处理 - 处理缺失数据 ### 3. 性能与优化利用 Vaex 的惰性求值、缓存策略和内存高效操作。参考 `references/performance.md` 了解： - 理解惰性求值 - 使用 `delay=True` 进行批处理操作 - 在需要时物化列 - 缓存策略 - 异步操作 ### 4. 数据可视化创建大数据集的交互式可视化，包括热力图、直方图和散点图。参考 `references/visualization.md` 了解： - 创建 1D 和 2D 图表 - 热力图可视化 - 使用选择集 - 自定义图表与子图 ### 5. 机器学习集成构建包含转换器、编码器的机器学习工作流，并与 scikit-learn、XGBoost 及其他框架集成。参考 `reference

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI