当前位置: 首页 > news >正文

零拷贝(Zero Copy)

目录

零拷贝(Zero Copy)

1.什么是Zero Copy?

2.物理内存和虚拟内存

3.内核空间和用户空间

4.Linux的I/O读写方式

4.1 I/O中断原理

4.2 DMA传输原理

5.传统I/O方式

5.1传统读操作

5.2传统写操作

6.零拷贝

6.1.用户态直接IO

6.2.mmap+write

6.3. sendfile

6.4. sendfile+DMA gather copy

6.5 splice

7.Linux零拷贝对比

8.零拷贝具体应用实现


零拷贝(Zero Copy)

1.什么是Zero Copy?

零拷贝技术指的是在计算机执行操作时,CPU不需要先将数据从一个内存区域复制到另一个内存区域,从而可以减少上下文以及CPU的拷贝时间。

他的作用是在数据报从网络设备到用户程序空间传递的过程,减少数据拷贝的次数,减少系统调用,实现CPU的零参与,彻底消除CPU在这方面的负载,实现零拷贝的最主要的技术就是DMA数据传输技术内存区域映射技术

  • 零拷贝就是可以减少数据在用户缓冲区和内核缓冲区之间的反复的I/O拷贝操作。

  • 零拷贝机制可以减少用户进程地址空间和内核地址空间之间因为上下文切换带来的CPU开销。

为什么线程切换会导致用户态与内核台的切换?  
因为线程的调度是在内核态运行的,而线程中的代码是在用户态运行。

2.物理内存和虚拟内存

由于操作系统的CPU和内存是共享的,因此需要一套完整的内存管理机制防止内存泄漏的问题。现代操作系统提供了一种对主存的抽象概念:既是虚拟内存,虚拟内存为每个进程提供了一个一致的,私有的地址空间,让每个进程都产生了一种自己独享主存的错觉。

3.内核空间和用户空间

操作系统的内核空间是独立于普通的程序的空间,可以访问显卡等受保护的资源也可以访问底层硬件的设备的权限。是为了防止用户直接操作内核,保证系统安全。操作系统将虚拟内存划分为两部分,一部分是内核空间,一部分是用户空间。

Linux系统中,内核模块运行在内核空间,对应的进程处于内核态;用户进程运行在用户空间,对应的进程是用户态。

4.Linux的I/O读写方式

Linux提供了轮询,I/O中断,DMA传输三中国主存之间的数据传输协议。

  • 轮询:是基于死循环对I/O端口进行不断检测。

  • I/O中断:是指的是数据到达时,磁盘主动向CPU发起中断请求,CPU自身负责数据的传输。

  • DMA传输:是指数据到达后由DMA负责数据的传输拷贝,完成后通知CPU。

4.1 I/O中断原理

在DMA出现之间,应用程序与磁盘之间的I/O操作都是磁盘发起CPU中断,每次用户进程读取磁盘时,都需要CPU中断,然后发起IO请求等待数据的读取与拷贝完成,每次的IO中断都会导致CPU的上下文切换。(不太理解)

流程:

  1. 用户进程向CPU发起read()系统调用,由用户态转换为内核态,然后一直阻塞等待数据的返回。

  2. CPU发接受到指令后发起IO请求,磁盘将数据放入磁盘控制器缓冲区中。

  3. 数据准备完成后磁盘向CPU发起IO中断信号。

  4. CPU接收到IO中断后将磁盘控制器缓冲区的数据拷贝到内核缓冲区,再将数据从内核缓冲区拷贝到用户缓冲区。

  5. 用户进程由内核态转换为用户态,解除阻塞状态,等待CPU的下一个执行时间钟。

4.2 DMA传输原理

DMA的全称叫直接内存访问(Direct Memory Access),是一种允许外围设备直接访问主存的机制。也就是说基于DMA访问方式,系统主内存于磁盘和显卡之间的数据传输可以绕开CPU的全程调度,目前大多数硬件设备包括磁盘控制器,网卡,显卡,以及声卡都支持DMA技术.

整个数据在传输操作在一个DMA控制器的控制下进行的。CPU除了在数据开始传输和结束时做一点处理外,在传输的过程中CPU可以继续进行其他工作。这样大部分时间里,CPU计算和I/O操作都属于并行操作。使得效率大大提升。

  1. 用户态发起read()系统调用,进入内核态,用户态线程阻塞。

  1. CPU发起IO请求通知DMA,DMA发起IO请求给磁盘,磁盘将数据加载到磁盘控制器缓冲,通知DMA,DMA将磁盘控制器中的数据拷贝到内核缓冲区中。DMA发出数据读完信号。

  2. CPU将数据从内核缓冲区读取到用户缓冲区,之后read()系统调用完之后回到用户态,恢复就绪准备获取时间片后执行。

5.传统I/O方式

对于传统的IO操作的数据读写流程,整个过程涉及2次CPU拷贝,2次DMA拷贝,四次上下文切换。

  • 上下文切换:用户程序发起系统调用后,CPU会将用户程序从用户态切换到内核态;系统调用结束返回后,cpu从内核态切换回用户态。

  • CPU拷贝:数据的传输依靠CPU处理,数据拷贝一直占据CPU的资源。

  • DMA拷贝:数据通知DMA磁盘控制器下达指令,让DMA控制器控制数据的传输,数据传输完毕后再把信息反馈给CPU,减轻CPU的占用率。

5.1传统读操作

传统的读操作会进行2次系统调用,1次CPU传输,1次DMA拷贝。

  1. 用户态通过read系统调用进入内核态,

  2. CPU利用DMA控制器,将数据从主存或硬盘拷贝到内核空间的读缓冲区

  3. CPU再将读内核缓冲区拷贝到用户缓冲区。

  4. 上下文切换回到用户态,read调用执行返回。

5.2传统写操作

同理。

6.零拷贝

用户态直接I/O: 应用程序直接访问硬件存储,操作系统只是辅助数据传输,这种方式依旧存在上下文切换,只不过硬件的数据不经过内核缓冲区。因此直接IO不存在内核空间到用户空间的CPU拷贝。

如下图:

减少拷贝次数:在数据传输过程中,避免数据在用户空间和内核空间的CPU拷贝,以及数据在内核空间的CPU拷贝。这时当前主流的零拷贝技术的实现思路。

写时复制技术:写时复制技术,是当多个进程读取一块数据的时候,不需要拷贝操作,当某个进程要修改数据,那么需要拷贝到自己的进程空间中。

6.1.用户态直接IO

用户通过直接IO使用用户态的库函数直接访问硬件设备。数据跨过内核传输。如果内核极大提高性能。

用户态直接IO只能适用于不需要内核缓冲区的应用程序,这写应用程序通常在进程地址空间有自己的数据缓冲机制,称为自缓存应用程序。如数据库管理系统。

其次,这种零拷贝机制会直接操作磁盘I/O,由于CPU和磁盘I/O之间的执行时间差距,会造成大量资源浪费,解决方案是配合异步IO。

6.2.mmap+write

一种零拷贝是使用mmap+write替换原来的read+write的方式,减少了一次CPU拷贝操作。mmap是Linux提供的一种内存映射文件的方式,将一个进程的虚拟内存地址映射到磁盘文件地址。

mmap+write的伪代码:
​
tmp_buf=mmap(file_fd,len);
​
write(socket,tmp_buf,len);

使用mmap的方式就是将内核缓冲区的地址与用户缓冲区的地址进行映射,从而实现内核缓冲区到用户缓冲区的内存共享。省去数据从内核缓冲区拷贝到用户缓冲区的过程。

基于mmap+write系统调用的零拷贝技术。整个拷贝过程会发生4次上下文切换,一次CPU拷贝,2次DMA拷贝。

用户进程读写数据流程如下:

  1. 用户进程通过mmap函数向内核发起系统调用,由用户态切换为内核态。

  2. 将用户缓冲区和内核缓冲区进行mmap地址映射。

  3. CPU利用DMA拷贝数据从磁盘或主存到内核的读缓冲区。

  4. 上下文切换回到用户态,mmap系统调用返回。

  5. 用户进程通过wirte向内核发起系统调用,上下文从用户态切换为内核态。

  6. CPU将读缓冲区的数据拷贝到网络缓冲区。

  7. CPU利用DMA控制器将数据从网络缓冲区拷贝到网卡,进行数据传输。

  8. 上下文从内核态切换回用户态,wirte系统调用结束返回。

优点

针对大文件可以极大的提高IO性能,但是对于小文件,内存映射反而会导致碎片空间的浪费。

6.3. sendfile

sendfile系统调用是Linux2.1引入的目的简化网络通过两个通道之间的数据传输过程。sendfile系统调用的引用减少了两次上下文切换。

伪代码如下:
​
•   sendfile(socket_fd,file_fd,len);

通过sendfile的系统调用,数据可以直接在内核空间进行IO传输,省区了用户空间和内核空间来回拷贝。与mmap不同的是,sendfile调用IO数据对于用户空间来说是完全不可见的,也就是一次完全意义上的数据传输过程。

基于sendfile系统调用的零拷贝技术,整个拷贝过程会发生2次上下文切换,一次CPU拷贝,两次DMA拷贝。

流程如下:

  1. 用户进程通过sendfile函数向内核发起系统调用,上下文切换进入内核态。

  2. CPU利用DMA将主存或磁盘数据拷贝到内核空间的读缓冲区。

  3. CPU的内核读缓冲区拷贝数据到网络缓冲区socket buffer

  4. CPU利用DMA将数据从网络缓冲区传输到网卡。

  5. 系统上下文切换用户态。之后sendfile系统调用结束返回。

相较于mmap内存映射的方式,sendfile减少了两次系统调用,但仍有一次CPU拷贝操作。

sendfile存在的问题就是用户进程不能对数据进行修改(压缩,加密),只能丹村的完成一次数据传输

6.4. sendfile+DMA gather copy

Linux 2.4 版本的内核对sendfile系统调用进行修改,为DMA拷贝引入了gather操作。

他将内核空间的读缓冲区中对应的数据描述信息(内存地址,地址偏移量)记录到相应的网络缓冲区中,

由DMA根据内存地址,地址偏移量将数据批量从读缓冲区拷贝到网卡,这样就省去了内核空间仅剩的一次CPU拷贝操作。

sendfile的伪代码如下:
​
sendfile(socket_fd,file_fd,len)

基于sendfile+DMA gather copy系统拷贝,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程如下:

  1. 用户进程发起sendfile函数系统调用向内核,上下文切换到内核态。

  2. CPU利用DMA将数据从主存或磁盘缓冲区拷贝到内核缓冲区。

  3. CPU将读缓冲区的文件描述符和文件长度拷贝到网络缓冲区

  4. 基于已经拷贝到文件描述符和文件长度,CPU利用DMA控制器的gather /scatter操作直接批量的从内核的读缓冲区拷贝到网卡进行数据传输。

  5. 上下文切换从内核态切换用户态,sendfile系统调用执行返回

这种拷贝方式同样存在用户进程不能对数据进行修改的问题,而且本身需要硬件的支持,只适用于将数据从文件拷贝到socket套接字上的传输过程。

6.5 splice

sendfile只适用于将数据从文件拷贝到socket套接字上,同时支持硬件的传输。这也限定了它的使用范围。

Linux2.6.17版本引入了splice系统调用,不仅不需要系统硬件的支持,还实现了文件描述符之间的数据零拷贝(就是C:->D:)

splice的伪代码
​
splice(fd_in,off_in,fd_out,off_out,len,flags);

splice系统调用可以在内核空间的读缓冲区和网络缓冲区之间建立管道(pipeline),从而避免二者之间的CPU拷贝操作。

基于splice系统调用的零拷贝方式,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程:

  1. 用户进程通过splice函数向内核发起系统调用,上下文从用户态切换为内核态。

  2. CPU利用DMA将数据从磁盘或主存中拷贝到内核的读缓冲区中。

  3. CPU在内核的读缓冲区与socket缓冲区建立管道(pipeline)

  4. CPU利用DMA控制器,将数据从网络缓冲区拷贝到网卡进行传输。

  5. 上下文切换从内核切换回到用户态,splice系统调用执行结束。

7.Linux零拷贝对比

无论是传统的IO拷贝方式还是引入了零拷贝,2次DMA Copy都是少不了的,因为两次DMA都是依赖硬件完成的,下面从CPU拷贝次数,DMA拷贝次数,以及系统调用几个方面总结上述io拷贝的差别:

拷贝方式CPU拷贝DMA拷贝系统调用上下文切换
传统方式read+write22read/write4
内存映射mmap+write12mmap/write4
sendfile12sendfile2
sendfile+DMA gather copy02sendfile2
splice02splice2

8.零拷贝具体应用实现

  • Java NIO零拷贝

    • 基于内存映射的(mmap) 方式 MappedByteBuffer

    • 基于sendfile方式的FileChannel

  • Netty 零拷贝

  • RocketMQ 和 Kafka 零拷贝

    • RocketMq选择了mmap+write这种零拷贝方式,适用于业务级别的小块文件持久化和传输

    • 而Kafka采用的sendfile这种零拷贝,适用于系统日志消息这种高吞吐量的大文件的数据持久化和传输。

相关文章:

  • 动态分配函数参数用二级指针的作用
  • 将 cuda kernel 编译成 ptx 和 rocm的hip asm
  • CentOS7.9部署安装OpenGauss 5.0.2企业版
  • 【源码】Spring Data JPA原理解析之Repository自定义方法添加@Query注解的执行原理
  • 木叶飞舞之【机器人ROS2】篇章_第三节、给turtlebot3安装realsense深度相机
  • 大语言模型应用与传统程序的不同
  • R可视化:另类的柱状图
  • 生信分析进阶3 - pysam操作bam文件统计unique reads和mapped reads高级技巧合辑
  • Windows Server安全配置
  • EXSI虚拟机新增磁盘并将空间扩充到已有分区
  • 【ANdroid】WEb服务搭建华为云
  • 贪心算法教程(个人总结版)
  • 开源模型应用落地-语音转文本-whisper模型-AIGC应用探索(二)
  • 最佳 Mac 数据恢复:恢复 Mac 上已删除的文件
  • MySQL各种锁
  • 2018一半小结一波
  • CODING 缺陷管理功能正式开始公测
  • el-input获取焦点 input输入框为空时高亮 el-input值非法时
  • iOS小技巧之UIImagePickerController实现头像选择
  • java8 Stream Pipelines 浅析
  • MySQL主从复制读写分离及奇怪的问题
  • Puppeteer:浏览器控制器
  • Webpack4 学习笔记 - 01:webpack的安装和简单配置
  • 爱情 北京女病人
  • 安装python包到指定虚拟环境
  • 利用DataURL技术在网页上显示图片
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • 微信开源mars源码分析1—上层samples分析
  • 智能网联汽车信息安全
  • 《TCP IP 详解卷1:协议》阅读笔记 - 第六章
  • ​卜东波研究员:高观点下的少儿计算思维
  • #知识分享#笔记#学习方法
  • (1)(1.11) SiK Radio v2(一)
  • (1)STL算法之遍历容器
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (6)STL算法之转换
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (附源码)spring boot基于小程序酒店疫情系统 毕业设计 091931
  • (附源码)计算机毕业设计ssm-Java网名推荐系统
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (十)T检验-第一部分
  • (算法)求1到1亿间的质数或素数
  • (详细文档!)javaswing图书管理系统+mysql数据库
  • (一)基于IDEA的JAVA基础12
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)程序员技术练级攻略
  • ./configure、make、make install 命令
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .Net Remoting(分离服务程序实现) - Part.3
  • .NET 中小心嵌套等待的 Task,它可能会耗尽你线程池的现有资源,出现类似死锁的情况
  • @AliasFor注解
  • @SpringBootApplication 包含的三个注解及其含义
  • @开发者,一文搞懂什么是 C# 计时器!
  • [ C++ ] 类和对象( 下 )
  • [ MSF使用实例 ] 利用永恒之蓝(MS17-010)漏洞导致windows靶机蓝屏并获取靶机权限