4.5.2 结构体中的自引用
结构体自引用
1. 平平无奇的自引用
可能也有不少人第一次听说自引用结构体,那咱们先来看看它们长啥样。
1 |
|
以上就是一个很简单的自引用结构体,看上去好像没什么,那来试着运行下:
1 |
|
运行后报错:
1 |
|
因为我们试图同时使用值和值的引用,最终所有权转移和借用一起发生了。所以,这个问题貌似并没有那么好解决,不信你可以回想下自己具有的知识,是否可以解决?
2. 使用 Option
最简单的方式就是使用 Option
分两步来实现:
1 |
|
在某种程度上来说,Option
这个方法可以工作,但是这个方法的限制较多,例如从一个函数创建并返回它是不可能的:
1 |
|
报错如下:
1 |
|
其实从函数签名就能看出来端倪,'a
生命周期是凭空产生的!
如果是通过方法使用,你需要一个无用 &'a self
生命周期标识,一旦有了这个标识,代码将变得更加受限,你将很容易就获得借用错误,就连
NLL 规则都没用:
1 |
|
这里定义了一个结构体 WhatAboutThis
,它有一个字段
name
是 String
类型,另一个字段
nickname
是一个可选的生命周期为 'a
的字符串切片引用。
方法实现:
这个方法1
2
3
4
5impl<'a> WhatAboutThis<'a> {
fn tie_the_knot(&'a mut self) {
self.nickname = Some(&self.name[..4]);
}
}tie_the_knot
接受一个可变引用&'a mut self
,并将nickname
设置为name
的前四个字符的引用。主函数:
在1
2
3
4
5
6
7
8
9
10fn main() {
let mut tricky = WhatAboutThis {
name: "Annabelle".to_string(),
nickname: None,
};
tricky.tie_the_knot();
// cannot borrow `tricky` as immutable because it is also borrowed as mutable
// println!("{:?}", tricky);
}main
函数中,我们创建了一个WhatAboutThis
的实例tricky
,并调用了tie_the_knot
方法。然后尝试打印tricky
,但这里会出现编译错误。
为什么会出现借用错误?
- 生命周期和借用规则:
- 在
tie_the_knot
方法中,self
的可变引用&'a mut self
的生命周期是'a
。 - 当
tie_the_knot
方法被调用时,tricky
的可变引用被借用,并且这个借用的生命周期是'a
。 - 由于
nickname
字段是一个引用,它的生命周期也是'a
,这意味着nickname
引用的数据(即name
的前四个字符)必须至少存活到'a
结束。
- 在
- 借用冲突:
- 在
main
函数中,tricky.tie_the_knot()
调用后,tricky
的可变引用仍然处于借用状态(因为nickname
引用了name
的一部分)。 - 当你尝试在
println!
中打印tricky
时,Rust 会尝试获取tricky
的不可变引用,但由于tricky
已经有一个可变引用(通过tie_the_knot
方法),这会导致借用冲突。
- 在
如何解决这个问题?
- 使用
clone
或to_owned
:- 如果你不需要
nickname
是一个引用,可以将nickname
改为String
类型,并在tie_the_knot
方法中使用clone
或to_owned
来创建一个新的String
:这样,1
2
3
4
5
6
7
8
9
10
11#[derive(Debug)]
struct WhatAboutThis {
name: String,
nickname: Option<String>,
}
impl WhatAboutThis {
fn tie_the_knot(&mut self) {
self.nickname = Some(self.name[..4].to_owned());
}
}nickname
就不再是一个引用,而是拥有自己的数据,避免了生命周期和借用的问题。
- 如果你不需要
总结
这段代码的问题在于 tie_the_knot
方法中的可变引用生命周期与结构体的生命周期绑定,导致后续的不可变引用无法获取。通过缩短可变引用的生命周期或改变
nickname
的类型,可以避免这个问题。 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
## 3. unsafe 实现
既然借用规则妨碍了我们,那就一脚踢开:
```rust
#[derive(Debug)]
struct SelfRef {
value: String,
pointer_to_value: *const String,
}
impl SelfRef {
fn new(txt: &str) -> Self {
SelfRef {
value: String::from(txt),
pointer_to_value: std::ptr::null(),
}
}
fn init(&mut self) {
let self_ref: *const String = &self.value;
self.pointer_to_value = self_ref;
}
fn value(&self) -> &str {
&self.value
}
fn pointer_to_value(&self) -> &String {
assert!(!self.pointer_to_value.is_null(),
"Test::b called without Test::init being called first");
unsafe { &*(self.pointer_to_value) }
}
}
fn main() {
let mut t = SelfRef::new("hello");
t.init();
// 打印值和指针地址
println!("{}, {:p}", t.value(), t.pointer_to_value());
}
在这里,我们在 pointer_to_value
中直接存储裸指针,而不是
Rust 的引用,因此不再受到 Rust
借用规则和生命周期的限制,而且实现起来非常清晰、简洁。但是缺点就是,通过指针获取值时需要使用
unsafe
代码。
当然,上面的代码你还能通过裸指针来修改
String
,但是需要将 *const
修改为
*mut
:
1 |
|
运行后输出:
1 |
|
上面的 unsafe
虽然简单好用,但是它不太安全,是否还有其他选择?还真的有,那就是
Pin
。
4. 无法被移动的 Pin
Pin
在后续章节会深入讲解,目前你只需要知道它可以固定住一个值,防止该值在内存中被移动。
通过开头我们知道,自引用最麻烦的就是创建引用的同时,值的所有权会被转移,而通过
Pin
就可以很好的防止这一点:
1 |
|
上面的代码也非常清晰,虽然使用了
unsafe
,其实更多的是无奈之举,跟之前的 unsafe
实现完全不可同日而语。
其实 Pin
在这里并没有魔法,它也并不是实现自引用类型的主要原因,最关键的还是里面的裸指针的使用,而
Pin
起到的作用就是确保我们的值不会被移走,否则指针就会指向一个错误的地址!
5. 使用 ouroboros
对于自引用结构体,三方库也有支持的,其中一个就是 ouroboros,当然它也有自己的限制,我们后面会提到,先来看看该如何使用:
1 |
|
可以看到,ouroboros
使用起来并不复杂,就是需要你去按照它的方式创建结构体和引用类型:SelfRef
变成 SelfRefBuilder
,引用字段从
pointer_to_value
变成
pointer_to_value_builder
,并且连类型都变了。
在使用时,通过 borrow_value
来借用 value
的值,通过 borrow_pointer_to_value
来借用
pointer_to_value
这个指针。
看上去很美好对吧?但是你可以尝试着去修改 String
字符串的值试试,ouroboros
限制还是较多的,但是对于基本类型依然是支持的不错,以下例子来源于官方:
1 |
|
总之,使用这个库前,强烈建议看一些官方的例子中支持什么样的类型和 API,如果能满足的你的需求,就果断使用它,如果不能满足,就继续往下看。
只能说,它确实帮助我们解决了问题,但是一个是破坏了原有的结构,另外就是并不是所有数据类型都支持:它需要目标值的内存地址不会改变,因此
Vec
动态数组就不适合,因为当内存空间不够时,Rust
会重新分配一块空间来存放该数组,这会导致内存地址的改变。
类似的库还有:
- rental, 这个库其实是最有名的,但是好像不再维护了,用倒是没问题
- owning-ref,将所有者和它的引用绑定到一个封装类型
这三个库,各有各的特点,也各有各的缺陷,建议大家需要时,一定要仔细调研,并且写 demo 进行测试,不可大意。
rental 虽然不怎么维护,但是可能依然是这三个里面最强大的,而且网上的用例也比较多,容易找到参考代码
6. Rc + RefCell 或 Arc + Mutex
类似于循环引用的解决方式,自引用也可以用这种组合来解决,但是会导致代码的类型标识到处都是,大大的影响了可读性。
7. 终极大法
如果两个放在一起会报错,那就分开它们。对,终极大法就这么简单,当然思路上的简单不代表实现上的简单,最终结果就是导致代码复杂度的上升。
8. 学习一本书:如何实现链表
最后,推荐一本专门讲如何实现链表的书(真是富有 Rust 特色,链表都能复杂到出书了 o_o),Learn Rust by writing Entirely Too Many Linked Lists
9. 总结
上面讲了这么多方法,但是我们依然无法正确的告诉你在某个场景应该使用哪个方法,这个需要你自己的判断,因为自引用实在是过于复杂。
我们能做的就是告诉你,有这些办法可以解决自引用问题,而这些办法每个都有自己适用的范围,需要你未来去深入的挖掘和发现。
偷偷说一句,就算是我,遇到自引用一样挺头疼,好在这种情况真的不常见,往往是实现特定的算法和数据结构时才需要,应用代码中几乎用不到。