查询计划

对于任何惰性查询，Polars 都有两种计划：

我们可以通过可视化和文本打印的方式来理解未优化和优化的查询计划。

下面我们考虑以下查询

Python

q1 = (
    pl.scan_csv("docs/assets/data/reddit.csv")
    .with_columns(pl.col("name").str.to_uppercase())
    .filter(pl.col("comment_karma") > 0)
)

未优化查询计划

要创建查询计划的可视化，应安装 Graphviz 并将其添加到您的 PATH 环境变量中。

首先，我们通过设置 optimized=False 来可视化未优化计划。

Python

q1.show_graph(optimized=False)

查询计划可视化应从下往上阅读。在可视化中

我们还可以使用 explain(optimized=False) 打印未优化计划

Python

q1.explain(optimized=False)

FILTER [(col("comment_karma")) > (0)] FROM WITH_COLUMNS:
 [col("name").str.uppercase()]

    CSV SCAN data/reddit.csv
    PROJECT */6 COLUMNS

打印的计划也应从下往上阅读。此未优化计划大致相当于：

现在我们使用 show_graph 可视化优化计划。

Python

q1.show_graph()

我们还可以使用 explain 打印优化计划

Python

q1.explain()

 WITH_COLUMNS:
 [col("name").str.uppercase()]

    CSV SCAN data/reddit.csv
    PROJECT */6 COLUMNS
    SELECTION: [(col("comment_karma")) > (0)]

优化计划是：

在这种情况下，查询优化器已识别出可以在从磁盘读取 CSV 时应用 filter，而不是将整个文件读入内存后再应用筛选器。此优化称为 *谓词下推* (Predicate Pushdown)。