4.2.2 迭代器 Iterator
迭代器 Iterator
迭代器允许我们迭代一个连续的集合,例如数组、动态数组
Vec
、HashMap
等,在此过程中,只需关心集合中的元素如何处理,而无需关心如何开始、如何结束、按照什么样的索引去访问等问题。
1. For 循环与迭代器
从用途来看,迭代器跟 for
循环颇为相似,都是去遍历一个集合,但是实际上它们存在不小的差别,其中最主要的差别就是:是否通过索引来访问集合。
Rust 中的 for
:
1 |
|
Rust
中没有使用索引,把 arr
数组当成一个迭代器,直接去遍历其中的元素,从哪里开始,从哪里结束,都无需操心。因此严格来说,Rust
中的 for
循环是编译器提供的语法糖,最终还是对迭代器中的元素进行遍历。
那又有同学要发问了,在 Rust
中数组是迭代器吗?因为在之前的代码中直接对数组 arr
进行了迭代,答案是
No
。那既然数组不是迭代器,为啥咱可以对它的元素进行迭代呢?
简而言之就是数组实现了 IntoIterator
特征,Rust 通过 for
语法糖,自动把实现了该特征的数组类型转换为迭代器(你也可以为自己的集合类型实现此特征),最终让我们可以直接对一个数组进行迭代,类似的还有:
1 |
|
直接对数值序列进行迭代,也是很常见的使用方式。
IntoIterator
特征拥有一个 into_iter
方法,因此我们还可以显式的把数组转换成迭代器:
1 |
|
2. 惰性初始化
在 Rust 中,迭代器是惰性的,意味着如果你不使用它,那么它将不会发生任何事:
1 |
|
在 for
循环之前,我们只是简单的创建了一个迭代器
v1_iter
,此时不会发生任何迭代行为,只有在 for
循环开始后,迭代器才会开始迭代其中的元素,最后打印出来。
这种惰性初始化的方式确保了创建迭代器不会有任何额外的性能损耗,其中的元素也不会被消耗,只有使用到该迭代器的时候,一切才开始。
3. next 方法
对于 for
如何遍历迭代器,还有一个问题,它如何取出迭代器中的元素?
先来看一个特征:
1 |
|
呦,该特征竟然和迭代器 iterator
同名,难不成。。。没错,它们就是有一腿。迭代器之所以成为迭代器,就是因为实现了
Iterator
特征,要实现该特征,最主要的就是实现其中的 next
方法,该方法控制如何从集合中取值,最终返回值的类型是关联类型
Item
。
因此,之前问题的答案已经很明显:for
循环通过不停调用迭代器上的 next
方法,来获取迭代器中的元素。
既然 for
可以调用 next
方法,是不是意味着我们也可以?来试试:
1 |
|
果不其然,将 arr
转换成迭代器后,通过调用其上的
next
方法,我们获取了 arr
中的元素,有两点需要注意:
next
方法返回的是Option
类型,当有值时返回Some(i32)
,无值时返回None
- 遍历是按照迭代器中元素的排列顺序依次进行的,因此我们严格按照数组中元素的顺序取出了
Some(1)
,Some(2)
,Some(3)
- 手动迭代必须将迭代器声明为
mut
可变,因为调用next
会改变迭代器其中的状态数据(当前遍历的位置等),而for
循环去迭代则无需标注mut
,因为它会帮我们自动完成
总之,next
方法对迭代器的遍历是消耗性的,每次消耗它一个元素,最终迭代器中将没有任何元素,只能返回
None
。
3.1 例子:模拟实现 for 循环
因为 for
循环是迭代器的语法糖,因此我们完全可以通过迭代器来模拟实现它:
1 |
|
IntoIterator::into_iter
是使用完全限定的方式去调用
into_iter
方法,这种调用方式跟
values.into_iter()
是等价的。
同时我们使用了 loop
循环配合 next
方法来遍历迭代器中的元素,当迭代器返回 None
时,跳出循环。
4. IntoIterator 特征
其实有一个细节,由于 Vec
动态数组实现了
IntoIterator
特征,因此可以通过 into_iter
将其转换为迭代器,那如果本身就是一个迭代器,该怎么办?实际上,迭代器自身也实现了
IntoIterator
,标准库早就帮我们考虑好了:
1 |
|
最终你完全可以写出这样的奇怪代码:
1 |
|
这段代码为所有实现了 Iterator
trait 的类型
I
实现了 IntoIterator
trait。它的作用是将一个迭代器转换为另一个迭代器(实际上就是它自己)。下面是对代码的详细解释:
1. IntoIterator
的作用
IntoIterator
是一个 Rust 标准库中的
trait,用于将某个类型转换为一个迭代器。它的定义如下:
1 |
|
Item
:迭代器产生的值的类型。IntoIter
:迭代器的类型。into_iter
:将自身转换为迭代器的方法。
2. 代码解析
1 |
|
impl<I: Iterator> IntoIterator for I
:- 这里为所有实现了
Iterator
trait 的类型I
实现了IntoIterator
trait。 - 这意味着任何迭代器都可以通过调用
into_iter
方法将自己转换为一个迭代器。
- 这里为所有实现了
type Item = I::Item;
:- 定义了
IntoIterator
的关联类型Item
,它的类型与I::Item
相同,即迭代器I
产生的值的类型。
- 定义了
type IntoIter = I;
:- 定义了
IntoIterator
的关联类型IntoIter
,它的类型就是I
本身。也就是说,into_iter
方法返回的迭代器就是I
自己。
- 定义了
fn into_iter(self) -> I
:- 实现了
into_iter
方法,它直接返回self
,也就是迭代器本身。 - 由于
self
的类型是I
,而I
已经是一个迭代器,所以这里只是将迭代器原封不动地返回。
- 实现了
#[inline]
:- 这是一个编译器提示,建议编译器将
into_iter
方法内联展开,以提高性能。
- 这是一个编译器提示,建议编译器将
3. 为什么需要这个实现?
这个实现的作用是让所有迭代器都自动实现 IntoIterator
trait。这样做的意义在于:
一致性:
- 在 Rust 中,
for
循环依赖于IntoIterator
trait。例如:这里的1
2
3for x in some_iter {
// ...
}some_iter
需要实现IntoIterator
trait。通过为所有迭代器实现IntoIterator
,可以确保任何迭代器都可以直接用于for
循环。
- 在 Rust 中,
灵活性:
- 如果一个类型已经是一个迭代器,那么调用
into_iter
方法时,它可以直接返回自己,而不需要额外的转换逻辑。
- 如果一个类型已经是一个迭代器,那么调用
4. 示例
假设我们有一个迭代器:
1 |
|
由于 Vec
的 into_iter
方法返回的是一个迭代器,而迭代器已经实现了
IntoIterator
,所以我们可以直接使用它:
1 |
|
或者显式调用 into_iter
:
1 |
|
5. 总结
这段代码的作用是为所有迭代器实现 IntoIterator
trait,使得迭代器可以直接用于 for
循环或其他需要
IntoIterator
的场景。它的核心思想是:如果一个类型已经是一个迭代器,那么它的
into_iter
方法只需要返回它自己即可。这种设计体现了 Rust
的“零成本抽象”原则,既提供了便利性,又没有额外的运行时开销。
4.1 into_iter, iter, iter_mut
在之前的代码中,我们统一使用了 into_iter
的方式将数组转化为迭代器,除此之外,还有 iter
和
iter_mut
,聪明的读者应该大概能猜到这三者的区别:
into_iter
会夺走所有权iter
是借用iter_mut
是可变借用
其实如果以后见多识广了,你会发现这种问题一眼就能看穿,into_
之类的,都是拿走所有权,_mut
之类的都是可变借用,剩下的就是不可变借用。
使用一段代码来解释下:
1 |
|
具体解释在代码注释中,就不再赘述,不过有两点需要注意的是:
.iter()
方法实现的迭代器,调用next
方法返回的类型是Some(&T)
.iter_mut()
方法实现的迭代器,调用next
方法返回的类型是Some(&mut T)
,因此在if let Some(v) = values_iter_mut.next()
中,v
的类型是&mut i32
,最终我们可以通过*v = 0
的方式修改其值
4.2 Iterator 和 IntoIterator 的区别
这两个其实还蛮容易搞混的,但我们只需要记住,Iterator
就是迭代器特征,只有实现了它才能称为迭代器,才能调用
next
。
而 IntoIterator
强调的是某一个类型如果实现了该特征,它可以通过
into_iter
,iter
等方法变成一个迭代器。
5. 消费者与适配器
消费者是迭代器上的方法,它会消费掉迭代器中的元素,然后返回其类型的值,这些消费者都有一个共同的特点:在它们的定义中,都依赖
next
方法来消费元素,因此这也是为什么迭代器要实现
Iterator
特征,而该特征必须要实现 next
方法的原因。
5.1 消费者适配器
只要迭代器上的某个方法 A
在其内部调用了
next
方法,那么 A
就被称为消费性适配器:因为 next
方法会消耗掉迭代器上的元素,所以方法 A
的调用也会消耗掉迭代器上的元素。
其中一个例子是 sum
方法,它会拿走迭代器的所有权,然后通过不断调用 next
方法对里面的元素进行求和:
1 |
|
如代码注释中所说明的:在使用 sum
方法后,我们将无法再使用 v1_iter
,因为 sum
拿走了该迭代器的所有权:
1 |
|
从 sum
源码中也可以清晰看出,self
类型的方法参数拿走了所有权。
5.2 迭代器适配器
既然消费者适配器是消费掉迭代器,然后返回一个值。那么迭代器适配器,顾名思义,会返回一个新的迭代器,这是实现链式方法调用的关键:v.iter().map().filter()...
。
与消费者适配器不同,迭代器适配器是惰性的,意味着你需要一个消费者适配器来收尾,最终将迭代器转换成一个具体的值:
1 |
|
运行后输出:
1 |
|
如上述中文注释所说,这里的 map
方法是一个迭代者适配器,它是惰性的,不产生任何行为,因此我们还需要一个消费者适配器进行收尾:
1 |
|
5.3 collect
上面代码中,使用了 collect
方法,该方法就是一个消费者适配器,使用它可以将一个迭代器中的元素收集到指定类型中,这里我们为
v2
标注了 Vec<_>
类型,就是为了告诉
collect
:请把迭代器中的元素消费掉,然后把值收集成
Vec<_>
类型,至于为何使用
_
,因为编译器会帮我们自动推导。
为何 collect
在消费时要指定类型?是因为该方法其实很强大,可以收集成多种不同的集合类型,Vec<T>
仅仅是其中之一,因此我们必须显式的告诉编译器我们想要收集成的集合类型。
还有一点值得注意,map
会对迭代器中的每一个值进行一系列操作,然后把该值转换成另外一个新值,该操作是通过闭包
|x| x + 1
来完成:最终迭代器中的每个值都增加了
1
,从 [1, 2, 3]
变为
[2, 3, 4]
。
再来看看如何使用 collect
收集成 HashMap
集合:
1 |
|
zip
是一个迭代器适配器,它的作用就是将两个迭代器的内容压缩到一起,形成
Iterator<Item=(ValueFromA, ValueFromB)>
这样的新的迭代器,在此处就是形如
[(name1, age1), (name2, age2)]
的迭代器。
然后再通过 collect
将新迭代器中(K, V)
形式的值收集成
HashMap<K, V>
,同样的,这里必须显式声明类型,然后
HashMap
内部的 KV
类型可以交给编译器去推导,最终编译器会推导出
HashMap<&str, i32>
,完全正确!
5.4 闭包作为适配器参数
之前的 map
方法中,我们使用闭包来作为迭代器适配器的参数,它最大的好处不仅在于可以就地实现迭代器中元素的处理,还在于可以捕获环境值:
1 |
|
filter
是迭代器适配器,用于对迭代器中的每个值进行过滤。
它使用闭包作为参数,该闭包的参数 s
是来自迭代器中的值,然后使用 s
跟外部环境中的
shoe_size
进行比较,若相等,则在迭代器中保留 s
值,若不相等,则从迭代器中剔除 s
值,最终通过
collect
收集为 Vec<Shoe>
类型。
6. 实现 Iterator 特征
之前的内容我们一直基于数组来创建迭代器,实际上,不仅仅是数组,基于其它集合类型一样可以创建迭代器,例如
HashMap
。 你也可以创建自己的迭代器 —— 只要为自定义类型实现
Iterator
特征即可。
首先,创建一个计数器:
1 |
|
我们为计数器 Counter
实现了一个关联函数
new
,用于创建新的计数器实例。下面我们继续为计数器实现
Iterator
特征:
1 |
|
首先,将该特征的关联类型设置为
u32
,由于我们的计数器保存的 count
字段就是
u32
类型, 因此在 next
方法中,最后返回的是实际上是 Option<u32>
类型。
每次调用 next
方法,都会让计数器的值加一,然后返回最新的计数值,一旦计数大于 5,就返回
None
。
最后,使用我们新建的 Counter
进行迭代:
1 |
|
6.1 实现 Iterator 特征的其它方法
可以看出,实现自己的迭代器非常简单,但是 Iterator
特征中,不仅仅是只有 next
一个方法,那为什么我们只需要实现它呢?因为其它方法都具有默认实现,所以无需像
next
这样手动去实现,而且这些默认实现的方法其实都是基于
next
方法实现的。
下面的代码演示了部分方法的使用:
1 |
|
其中 zip
,map
,filter
是迭代器适配器:
zip
把两个迭代器合并成一个迭代器,新迭代器中,每个元素都是一个元组,由之前两个迭代器的元素组成。例如将形如[1, 2, 3, 4, 5]
和[2, 3, 4, 5]
的迭代器合并后,新的迭代器形如[(1, 2),(2, 3),(3, 4),(4, 5)]
map
是将迭代器中的值经过映射后,转换成新的值[2, 6, 12, 20]filter
对迭代器中的元素进行过滤,若闭包返回true
则保留元素[6, 12],反之剔除
而 sum
是消费者适配器,对迭代器中的所有元素求和,最终返回一个 u32
值 18
。
6.2 enumerate
在之前的流程控制章节,针对 for
循环,我们提供了一种方法可以获取迭代时的索引:
1 |
|
相信当时,很多读者还是很迷茫的,不知道为什么要这么复杂才能获取到索引,学习本章节后,相信你有了全新的理解,首先
v.iter()
创建迭代器,其次 调用 Iterator
特征上的方法
enumerate
,该方法产生一个新的迭代器,其中每个元素均是元组
(索引,值)
。
因为 enumerate
是迭代器适配器,因此我们可以对它返回的迭代器调用其它
Iterator
特征方法:
1 |
|
7. 迭代器的性能
前面提到,要完成集合遍历,既可以使用 for
循环也可以使用迭代器,那么二者之间该怎么选择呢,性能有多大差距呢?
理论分析不会有结果,直接测试最为靠谱:
1 |
|
上面的代码对比了 for
循环和迭代器 iterator
完成同样的求和任务的性能对比,可以看到迭代器还要更快一点。
1 |
|
迭代器是 Rust 的 零成本抽象(zero-cost
abstractions)之一,意味着抽象并不会引入运行时开销,这与
Bjarne Stroustrup
(C++ 的设计和实现者)在
Foundations of C++(2012)
中所定义的
零开销(zero-overhead)如出一辙:
In general, C++ implementations obey the zero-overhead principle: What you don’t use, you don’t pay for. And further: What you do use, you couldn’t hand code any better.
一般来说,C++的实现遵循零开销原则:没有使用时,你不必为其买单。 更进一步说,需要使用时,你也无法写出更优的代码了。 (翻译一下:用就完事了)
总之,迭代器是 Rust
受函数式语言启发而提供的高级语言特性,可以写出更加简洁、逻辑清晰的代码。编译器还可以通过循环展开(Unrolling)、向量化、消除边界检查等优化手段,使得迭代器和
for
循环都有极为高效的执行效率。
所以请放心大胆的使用迭代器,在获得更高的表达力的同时,也不会导致运行时的损失,何乐而不为呢!
8. 学习其它方法
迭代器用的好不好,就在于你是否掌握了它的常用方法,且能活学活用,因此多多看看标准库是有好处的,只有知道有什么方法,在需要的时候你才能知道该用什么,就和算法学习一样。
同时,本书在后续章节还提供了对迭代器常用方法的深入讲解,方便大家学习和查阅。