极速 DataFrame 库

Polars 是一个用于处理结构化数据的极速 DataFrame 库。其核心用 Rust 编写，并提供 Python、R 和 NodeJS 接口。

主要特性

快速：完全用 Rust 从头编写，设计贴近底层机器，无外部依赖。
I/O (输入/输出)：对所有常见数据存储层提供一流支持：本地、云存储和数据库。
直观的 API：以您预期的方式编写查询。Polars 会利用其查询优化器在内部确定最有效的执行方式。
核外处理：流式 API 允许您处理结果，而无需将所有数据同时加载到内存中。
并行：通过在可用 CPU 核心之间分配工作负载，充分利用您机器的性能，无需额外配置。
向量化查询引擎
GPU 支持：可选地在 NVIDIA GPU 上运行查询，以在内存工作负载中实现最大性能。
Apache Arrow 支持：Polars 可以消费和生成 Arrow 数据，通常进行零拷贝操作。请注意，Polars 不是基于 Pyarrow/Arrow 实现构建的。相反，Polars 有自己的计算和缓冲区实现。

DataFrame 新用户

DataFrame 是一种二维数据结构，对于数据操作和分析非常有用。它具有行和列的标签轴，每列可以包含不同的数据类型，使得合并和聚合等复杂数据操作变得更加容易。由于其灵活性以及存储和处理数据的直观方式，DataFrame 在现代数据分析和工程中越来越受欢迎。

理念

Polars 的目标是提供一个闪电般快速的 DataFrame 库，它能

利用您机器上的所有可用核心。
优化查询以减少不必要的工作/内存分配。
处理远大于可用 RAM 的数据集。
提供一致且可预测的 API。
遵循严格的模式（数据类型在运行查询前应已知）。

Polars 用 Rust 编写，这使其具有 C/C++ 的性能，并允许它完全控制查询引擎中性能关键的部分。

示例

Python Rust

scan_csv · filter · group_by · collect

import polars as pl

q = (
    pl.scan_csv("docs/assets/data/iris.csv")
    .filter(pl.col("sepal_length") > 5)
    .group_by("species")
    .agg(pl.all().sum())
)

df = q.collect()

LazyCsvReader · filter · group_by · collect · 在功能 csv 上可用 · 在功能 streaming 上可用

use polars::prelude::*;

let q = LazyCsvReader::new("docs/assets/data/iris.csv")
    .with_has_header(true)
    .finish()?
    .filter(col("sepal_length").gt(lit(5)))
    .group_by(vec![col("species")])
    .agg([col("*").sum()]);

let df = q.collect()?;