连接

连接操作将一个或多个数据框中的列组合成一个新的数据框。不同类型的连接所使用的“连接策略”和匹配条件会影响列的组合方式，以及连接操作结果中包含的行。

最常见的连接类型是“等值连接”，其中行通过键表达式进行匹配。Polars 支持多种等值连接策略，它们精确地决定了如何处理行的匹配。Polars 还支持“非等值连接”，这是一种匹配条件不是相等关系的连接类型；以及一种通过键的近似性进行行匹配的连接类型，称为“近似连接”。

快速参考表

下表是为那些知道自己要找什么的人提供的快速参考。如果您想了解连接的总体概念以及如何在 Polars 中使用它们，可以跳过该表并继续阅读下文。

Python Rust

join join_where join_asof

join ( semi_anti_join 某些选项需要) join_asof_by 适用于 feature asof_join join_where 适用于 feature iejoin

类型	函数	简要描述
等值内连接	`join(..., how="inner")`	保留左右两侧都匹配的行。
等值左外连接	`join(..., how="left")`	保留左侧所有行以及右侧匹配的行。左侧不匹配的行，其右侧列用 `null` 填充。
等值右外连接	`join(..., how="right")`	保留右侧所有行以及左侧匹配的行。右侧不匹配的行，其左侧列用 `null` 填充。
等值全连接	`join(..., how="full")`	保留两个数据框中的所有行，无论它们是否匹配。不匹配的行，其另一侧的列用 `null` 填充。
等值半连接	`join(..., how="semi")`	保留左侧与右侧有匹配的行。
等值反连接	`join(..., how="anti")`	保留左侧与右侧没有匹配的行。
非等值内连接	`join_where`	查找左侧和右侧所有满足给定谓词（或多个谓词）的可能行配对。
近似连接 (Asof join)	`join_asof`/`join_asof_by`	类似于左外连接，但匹配的是最接近的键，而非精确匹配的键。
笛卡尔积	`join(..., how="cross")`	计算两个数据框的笛卡尔积。

等值连接

在等值连接中，通过检查键表达式的相等性来匹配行。您可以使用 join 函数通过指定用作键的列名来执行等值连接。在示例中，我们将加载一些（修改过的）大富翁房产数据。

首先，我们加载一个包含游戏中房产名称及其颜色组的数据框

Python Rust

import polars as pl

props_groups = pl.read_csv("docs/assets/data/monopoly_props_groups.csv").head(5)
print(props_groups)

let props_groups = CsvReadOptions::default()
    .with_has_header(true)
    .try_into_reader_with_file_path(Some("docs/assets/data/monopoly_props_groups.csv".into()))?
    .finish()?
    .head(Some(5));
println!("{props_groups}");

shape: (5, 2)
┌──────────────────────┬────────────┐
│ property_name        ┆ group      │
│ ---                  ┆ ---        │
│ str                  ┆ str        │
╞══════════════════════╪════════════╡
│ Old Ken Road         ┆ brown      │
│ Whitechapel Road     ┆ brown      │
│ The Shire            ┆ fantasy    │
│ Kings Cross Station  ┆ stations   │
│ The Angel, Islington ┆ light_blue │
└──────────────────────┴────────────┘

接下来，我们加载一个包含游戏中房产名称及其价格的数据框

Python Rust

props_prices = pl.read_csv("docs/assets/data/monopoly_props_prices.csv").head(5)
print(props_prices)

let props_prices = CsvReadOptions::default()
    .with_has_header(true)
    .try_into_reader_with_file_path(Some("docs/assets/data/monopoly_props_prices.csv".into()))?
    .finish()?
    .head(Some(5));
println!("{props_prices}");

shape: (5, 2)
┌──────────────────────┬──────┐
│ property_name        ┆ cost │
│ ---                  ┆ ---  │
│ str                  ┆ i64  │
╞══════════════════════╪══════╡
│ Old Ken Road         ┆ 60   │
│ Whitechapel Road     ┆ 60   │
│ Sesame Street        ┆ 100  │
│ Kings Cross Station  ┆ 200  │
│ The Angel, Islington ┆ 100  │
└──────────────────────┴──────┘

现在，我们将两个数据框连接起来，创建一个包含房产名称、颜色组和价格的数据框

Python Rust

连接

快速参考表

等值连接

连接策略

内连接

左连接

右连接

全连接

半连接

反连接

非等值连接

近似连接 (Asof join)

笛卡尔积