关于rust的内存布局

常用类型

一般类型的布局是其大小(size)、对齐方式(align)及其字段的相对偏移量:

  • 对于枚举,如何布局和解释判别式也是类型布局的一部分;
  • 对于 Sized 的数据类型,可以在编译时知道内存布局;
  • 可以通过 size_of 和 align_of 获得其 size 和 align。

The layout of a type is its size, alignment, and the relative offsets of its fields.
For enums, how the discriminant is laid out and interpreted is also part of type layout.
Type layout can be changed with each compilation.

数字类型

整数类型

1、无符号整数

Type Minimum Maximum size(bytes) align(bytes)
u8 0 2^8-1 1 1
u16 0 2^16-1 2 2
u32 0 2^32-1 4 4
u64 0 2^64-1 8 8
u128 0 2^128-1 16 16

2、有符号整数

Type Minimum Maximum size(bytes) align(bytes)
i8 -(2^7) 2^7-1 1 1
i16 -(2^15) 2^15-1 2 2
i32 -(2^31) 2^31-1 4 4
i64 -(2^63) 2^63-1 8 8
i128 -(2^127) 2^127-1 16 16

浮点数

Type size(bytes) align(bytes)
f32 4 4
f64 8 8

f64 在 x86 系统上对齐到 4 bytes。

usized & isized

usize 无符号整形,isize 有符号整形。
在 64 位系统上,长度为 8 bytes,在 32 位系统上长度为 4 bytes。

bool

bool 类型,取值为 true 或 false,长度和对齐长度都是 1 byte。

array

 let array: [i32; 3] = [1, 2, 3];

数组的内存布局为系统类型元组的有序组合。

 size 为 n*size_of::<T>()
 align 为 align_of::<T>()

str

char 类型

char 表示:一个 32 位长度字符,
Unicode 标量值 Unicode Scalar Value 范围为 in the 0x0000 - 0xD7FF 或者是 0xE000 - 0x10FFFF。

str 类型

str 与 [u8] 一样表示一个 u8 的 slice。
Rust 中标准库中对 str 有个假设:符合 UTF-8 编码。内存布局与 [u8] 相同。

slice

slice 是 DST 类型,是类型 T 序列的一种视图。 slice 的使用必须要通过指针,&[T] 是一个胖指针,保存指向数据的地址和元素个数。 slice 的内存布局与其指向的 array 部分相同。

&str 和 String 的区别

下面给出 &str String 的内存结构比对:

let mut my_name = "Pascal".to_string();
my_name.push_str( " Precht");

let last_name = &my_name[7..];
String的内存布局

                     buffer 数据指针
                   /   capacity 容量
                 /   /  length  长度
               /   /   /
            +–––+–––+–––+
stack frame │ ? │ 8 │ 6 │ <- my_name: String
            +–│–+–––+–––+
              │
            [–│–––––––– capacity –––––––––––]
              │
            +–V–+–––+–––+–––+–––+–––+–––+–––+
       heap │ P │ a │ s │ c │ a │ l │   │   │
            +–––+–––+–––+–––+–––+–––+–––+–––+

            [––––––– length ––––––––]
String vs &str

         my_name: String字符串 last_name: &str 切片
            [––––––––––––]    [–––––––]
            +–––+––––+––––+–––+–––+–––+
stack frame │ ? │ 16 │ 13 │   │ ? │ 6 │ 
            +–│–+––––+––––+–––+–│–+–––+
              │                 │
              │                 +–––––––––+
              │                           │
              │                           │
              │                         [–│––––––– str –––––––––]
            +–V–+–––+–––+–––+–––+–––+–––+–V–+–––+–––+–––+–––+–––+–––+–––+–––+
       heap │ P │ a │ s │ c │ a │ l │   │ P │ r │ e │ c │ h │ t │   │   │   │
            +–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+–––+

struct

结构体是带命名的复合类型,有以下几种 struct:

StructExprStruct

struct A {
    a: u8,
}

StructExprTuple

struct Position(i32, i32, i32);

StructExprUnit

struct Gamma;

tuple

元组是匿名的复合类型,有以下几种 tuple:

() (unit)
(f64, f64)
(String, i32)
(i32, String) (different type from the previous example)
(i32, f64, Vec<String>, Option<bool>)

tuple 的结构和 Struct 一致,只是元素是通过 index 进行访问的。

closure

闭包相当于一个捕获变量的结构体,实现了 FnOnce 或 FnMut 或 Fn。

fn f<F : FnOnce() -> String> (g: F) { // 实现FnOnce trait,接收闭包
    println!("{}", g());
}

let mut s = String::from("foo");
let t = String::from("bar");

f(|| {
    s += &t;
    s
});
// Prints "foobar".

生成一个闭包类型:(最新版的FnOnce方法定义已经改变)

struct Closure<'a> {
    s : String,
    t : &'a String,
}

impl<'a> FnOnce<()> for Closure<'a> {
    type Output = String;
    fn call_once(self) -> String {
        self.s += &*self.t;
        self.s
    }
}
f(Closure{s: s, t: &t});

union

union 的关键特性是 union 的所有字段共享公共存储。因此,对 union 的一个字段的写入可以覆盖其其他字段,union 的大小由其最大字段的大小决定。

#[repr(C)]
union MyUnion {
    f1: u32,
    f2: f32,
}

每个 union 访问都只是在用于访问的字段的类型上解释存储。读取并集字段读取字段类型处的并集位。字段可能具有非零偏移量(除非使用C表示法);在这种情况下,从字段偏移量开始的位被读取。程序员有责任确保数据在字段的类型上是有效的。否则会导致未定义的行为。比如读取整数 3,但是需要转换为 bool 类型,则会出错。

enum

enum Animal {
    Dog(String, f64),
    Cat { name: String, weight: f64 },
}

let mut a: Animal = Animal::Dog("Cocoa".to_string(), 37.2);
a = Animal::Cat { name: "Spotty".to_string(), weight: 2.7 };

枚举项声明类型和许多变体,每个变体都独立命名,并且具有struct、tuple struct或unit-like struct的语法。
enum 是带命名的标签联合体,因此其值消耗的内存是对应枚举类型的最大变量的内存,以及存储判别式所需的大小。

use std::mem;

enum Foo { A(&'static str), B(i32), C(i32) }

assert_eq!(mem::discriminant(&Foo::A("bar")), mem::discriminant(&Foo::A("baz")));
assert_eq!(mem::discriminant(&Foo::B(1)), mem::discriminant(&Foo::B(2)));
assert_ne!(mem::discriminant(&Foo::B(3)), mem::discriminant(&Foo::C(3)));


enum Foo {
    A(u32),
    B(u64),
    C(u8),
}
struct FooRepr {
    data: u64, // 根据tag的不同,这一项可以为u64,u32,或者u8
    tag: u8, // 0 = A, 1 = B, 2 = C
}

trait obj

官方定义:

A trait object is an opaque value of another type that implements a set of traits.
The set of traits is made up of an object safe base trait plus any number of auto traits.

trait obj 是 DST 类型,指向 trait obj 的指针也是个胖指针,分别指向 data 和 vtable。

Dynamically Sized Types(DST)

一般来说大多数类型,可以在编译阶段确定大小和对齐属性,Sized trait 就是保证了这种特性。非 size (?Sized)及 DST 类型。DST 类型有 slice 和 trait obj。DST 类型必须通过指针来使用。 需要注意:

  • DST 可以作为泛型参数,但是需要注意泛型参数默认是 Sized,如果是 DST 类型需要特别的指定为 ?Sized。
struct S {
    s: i32
}

impl S {
    fn new(i: i32) -> S {
        S{s:i}
    }
}

trait T {
    fn get(&self) -> i32;
}

impl T for S {
    fn get(&self) -> i32 { 
        self.s
    }
}

fn test<R: T>(t: Box<R>) -> i32 {
    t.get()
}


fn main() {
    let t: Box<T> = Box::new(S::new(1));
    let _ = test(t);
}

编译报错

error[E0277]: the size for values of type `dyn T` cannot be known at compilation time
   |
21 | fn test<R: T>(t: Box<R>) -> i32 {
   |         - required by this bound in `test`
...
28 |     let _ = test(t);
   |                  ^ doesn't have a size known at compile-time
   |
   = help: the trait `Sized` is not implemented for `dyn T`
help: consider relaxing the implicit `Sized` restriction
   |
21 | fn test<R: T + ?Sized>(t: Box<R>) -> i32 {
   |              ^^^^^^^^
fix it



fn test<R: T + ?Sized>(t: Box<R>) -> i32 {
    t.get()
}
  • trait 默认实现了 ?Sized.
  • 结构体实际上可以直接存储一个DST作为它们的最后一个成员字段,但这也使该结构体成为DST??梢圆慰糄ST 进一步了解自定义 DST。

零尺寸类型 (ZST, Zero Sized Type)

struct Nothing; // No fields = no size

// All fields have no size = no size
struct LotsOfNothing {
    foo: Nothing,
    qux: (),      // empty tuple has no size
    baz: [u8; 0], // empty array has no size
}

ZST 的一个最极端的例子是 Set 和 Map。已经有了类型 Map<Key, Value>,那么要实现 Set<Key, Value>的通常做法是简单封装一个 Map<Key, UselessJunk>。很多语言不得不给 UselessJunk 分配空间,还要存储、加载它,然后再什么都不做直接丢弃它。编译器很难判断出这些行为实际是不必要的。 但是在 Rust 里,我们可以直接认为 Set<Key> = Map<Key, ()>。Rust 静态地知道所有加载和存储操作都毫无用处,也不会真的分配空间。结果就是,这段范型代码直接就是 HashSet 的一种实现,不需要 HashMap 对值做什么多余的处理。

空类型(Empty Types)

enum Void {} // No variants = EMPTY

空类型的一个主要应用场景是在类型层面声明不可到达性。假如,一个 API 一般需要返回一个 Result,但是在特殊情况下它是绝对不会运行失败的。这种情况下将返回值设为 Result<T, Void>,API 的调用者就可以信心十足地使用 unwrap,因为不可能产生一个 Void 类型的值,所以返回值不可能是一个 Err。

数据布局

数据对齐

数据对齐对 CPU 操作及缓存都有较大的好处。Rust 中结构体的对齐属性等于它所有成员的对齐属性中最大的那个。Rust 会在必要的位置填充空白数据,以保证每一个成员都正确地对齐,同时整个类型的尺寸是对齐属性的整数倍。例如:

struct A {
    a: u8,
    b: u32,
    c: u16,
}

打印下变量地址,可以根据结果看到对齐属性为 4, 结构大小为 8 byte 。

fn main() {
    let a = A {
        a: 1,
        b: 2,
        c: 3,
    };
    println!("0x{:X} 0x{:X} 0x{:X}", 
    &a.a as *const u8 as usize, 
    &a.b as *const u32 as usize , 
    &a.c as *const u16 as usize )
}

=== 输出
0x7FFEE6769276 0x7FFEE6769270 0x7FFEE6769274

在Rust中数据对齐结果类似如下:

struct A {
    b: u32,
    c: u16,
    a: u8,
    _pad: [u8; 1],
}

说明在rust自身对struct进行优化了,使其内存分布更加紧凑了:以4bytes作为对齐,b=4bytes不需要对齐,c+b=3byte还缺少1byte,最终需要填充1byte达到对齐要求; 最终内存大小= 4bytes(b) + c(2bytes) + a(1byte) + 填充(1byte)

编译器优化

来看下面这个结构

struct Foo<T, U> {
    count: u16,
    data1: T,
    data2: U,
}

fn main() {
    let foo1 = Foo::<u16, u32> {
        count: 1,
        data1: 2,
        data2: 3,
    };

    let foo2 = Foo::<u32, u16> {
        count: 1,
        data1: 2,
        data2: 3,
    };

    println!("0x{:X} 0x{:X} 0x{:X}", &foo1.count as *const u16 as usize, &foo1.data1 as *const u16 as usize, &foo1.data2 as *const u32 as usize);
    println!("0x{:X} 0x{:X} 0x{:X}", &foo2.count as *const u16 as usize, &foo2.data1 as *const u32 as usize, &foo2.data2 as *const u16 as usize);
}

=== 输出: 大小=8bytes 对齐=4bytes
0x7FFEDFDD61C4 0x7FFEDFDD61C6 0x7FFEDFDD61C0
0x7FFEDFDD61CC 0x7FFEDFDD61C8 0x7FFEDFDD61CE

foo1字段顺序:data2(0)->4bytes, count(4)->2bytes, data1(6)->2bytes
foo2字段顺序:data1(8)->4bytes, count(c)->2bytes, data2(e)->2bytes
可以看到编译器会改变 Foo<T, U> 中成员顺序。内存优化原则要求不同的范型可以有不同的成员顺序。 如果不优化的可能会造成如下情况,造成大量内存开销:

struct Foo<u16, u32> {
    count: u16,
    data1: u16,
    data2: u32,
}

struct Foo<u32, u16> {
    count: u16,
    _pad1: u16,
    data1: u32,
    data2: u16,
    _pad2: u16,
}

repr(C)

repr(C) 目的很简单,就是为了内存布局和 C 保持一致。需要通过 FFI 交互的类型都应该有 repr(C)。而且如果我们要在数据布局方面玩一些花活的话,比如把数据重新解析成另一种类型,repr(C) 也是很有必要的。

repr(u) repr(i)

这两个可以指定无成员枚举的大小。包括:u8, u16, u32, u64, u128, usize, i8, i16, i32, i64, i128, and isize.

enum Enum {
    Variant0(u8),
    Variant1,
}

#[repr(C)]
enum EnumC {
    Variant0(u8),
    Variant1,
}

#[repr(u8)]
enum Enum8 {
    Variant0(u8),
    Variant1,
}

#[repr(u16)]
enum Enum16 {
    Variant0(u8),
    Variant1,
}

fn main() {
    assert_eq!(std::mem::size_of::<Enum>(), 2);
    // The size of the C representation is platform dependant
    assert_eq!(std::mem::size_of::<EnumC>(), 8);
    // One byte for the discriminant and one byte for the value in Enum8::Variant0
    assert_eq!(std::mem::size_of::<Enum8>(), 2);
    // Two bytes for the discriminant and one byte for the value in Enum16::Variant0
    // plus one byte of padding.
    assert_eq!(std::mem::size_of::<Enum16>(), 4);
}

repr(align(x)) repr(pack(x))

align 和 packed 修饰符可分别用于提高或降低结构和联合的对齐。packed 还可能改变字段之间的填充。 align 启用了一些技巧,比如确保数组的相邻元素之间永远不会共享同一缓存线(这可能会加速某些类型的并发代码)。 pack 不能轻易使用。除非有极端的要求,否则不应使用。

#[repr(C)]
struct A {
    a: u8,
    b: u32,
    c: u16,
}

#[repr(C, align(8))]
struct A8 {
    a: u8,
    b: u32,
    c: u16,
}

fn main() {
    let a = A {
        a: 1,
        b: 2,
        c: 3,
    };
    println!("{}", std::mem::align_of::<A>());
    println!("{}", std::mem::size_of::<A>());
    println!("0x{:X} 0x{:X} 0x{:X}", &a.a as *const u8 as usize, &a.b as *const u32 as usize, &a.c as *const u16 as usize);


    let a = A8 {
        a: 1,
        b: 2,
        c: 3,
    };
    println!("{}", std::mem::align_of::<A8>());
    println!("{}", std::mem::size_of::<A8>());
    println!("0x{:X} 0x{:X} 0x{:X}", &a.a as *const u8 as usize, &a.b as *const u32 as usize, &a.c as *const u16 as usize);
}

结果:(是按照C的内存布局来的)

4
12
0x7FF7B21401B0 0x7FF7B21401B4 0x7FF7B21401B8
8
16
0x7FF7B21402B8 0x7FF7B21402BC 0x7FF7B21402C0
#[repr(C)]
struct A {
    a: u8,
    b: u32,
    c: u16,
}

#[repr(C, packed(1))]
struct A8 {
    a: u8,
    b: u32,
    c: u16,
}

fn main() {
    let a = A {
        a: 1,
        b: 2,
        c: 3,
    };
    println!("{}", std::mem::align_of::<A>());
    println!("{}", std::mem::size_of::<A>());
    println!("0x{:X} 0x{:X} 0x{:X}", &a.a as *const u8 as usize, &a.b as *const u32 as usize, &a.c as *const u16 as usize);


    let a = A8 {
        a: 1,
        b: 2,
        c: 3,
    };
    println!("{}", std::mem::align_of::<A8>());
    println!("{}", std::mem::size_of::<A8>());
    println!("0x{:X} 0x{:X} 0x{:X}", &a.a as *const u8 as usize, &a.b as *const u32 as usize, &a.c as *const u16 as usize);
}

结果:

4
12
0x7FF7B7F931B8 0x7FF7B7F931BC 0x7FF7B7F931C0
1
7
0x7FF7B7F932C0 0x7FF7B7F932C1 0x7FF7B7F932C5

repr(transparent)

repr(transparent) 使用在只有单个 field 的 struct 或 enum 上,旨在告诉 Rust 编译器新的类型只是在 Rust 中使用,新的类型(struc 或 enum)需要被 ABI 忽略。新的类型的内存布局应该当做单个 field 处理。

The attribute can be applied to a newtype-like structs that contains a single field.
It indicates that the newtype should be represented exactly like that field's type, i.e.,
the newtype should be ignored for ABI purpopses: not only is it laid out the same in memory, it is also passed identically in function calls.
Structs and enums with this representation have the same layout and ABI as the single non-zero sized field.

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容