深入理解Linux系统零拷贝技术_教程_新闻_【生意多】-免费发布分类信息

　　例如消息中间件 Kafka 就是这个应用场景，从磁盘中读取一批消息后原封不动地写入网卡（NIC，Network interface controller）进行发送。

　　在没有任何优化技术使用的背景下，操作系统为此会进行 4 次数据拷贝，以及 4 次上下文切换，如下图所示：

　　CPU 全程负责内存内的数据拷贝还可以接受，因为效率还算可以接受，但是如果要全程负责内存与磁盘、网络的数据拷贝，这将难以接受，因为磁盘、网卡的速度远小于内存，内存又远远小于 CPU；

　　DMA 技术很容易理解，本质上，DMA 技术就是我们在主板上放一块独立的芯片。在进行内存和 I/O 设备的数据传输的时候，我们不再通过 CPU 来控制数据传输，而直接通过 DMA 控制器（DMA Controller，简称 DMAC）。这块芯片，我们可以认为它其实就是一个协处理器（Co-Processor）。

　　DMAC 最有价值的地方体现在，当我们要传输的数据特别大、速度特别快，或者传输的数据特别小、速度特别慢的时候。

　　比如说，我们用千兆网卡或者硬盘传输大量数据的时候，如果都用 CPU 来搬运的话，肯定忙不过来，所以可以选择 DMAC。而当数据传输很慢的时候，DMAC 可以等数据到齐了，再发送信号，给到 CPU 去处理，而不是让 CPU 在那里忙等待。

　　注意，这里面的“协”字。DMAC 是在“协助”CPU，完成对应的数据传输工作。在 DMAC 控制数据传输的过程中，我们还是需要 CPU 的进行控制，但是具体数据的拷贝不再由 CPU 来完成。

　　现在，DMA 代替了 CPU 负责内存与磁盘以及内存与网卡之间的数据搬运，CPU 作为 DMA 的控制者，如下图所示：

　　但是 DMA 有其局限性，DMA 仅仅能用于设备之间交换数据时进行数据拷贝，但是设备内部的数据拷贝还需要 CPU 进行，例如 CPU 需要负责内核空间数据与用户空间数据之间的拷贝（内存内部的拷贝），如下图所示：

　　零拷贝技术是一个思想［3］，指的是指计算机执行操作时，CPU 不需要先将数据从某处内存复制到另一个特定区域。

　　可见，零拷贝的特点是 CPU 不全程负责内存中的数据写入其他组件，CPU 仅仅起到管理的作用。但注意，零拷贝不是不进行拷贝，而是 CPU 不再全程负责数据拷贝时的搬运工作。如果数据本身不在内存中，那么必须先通过某种方式拷贝到内存中（这个过程 CPU 可以不参与），因为数据只有在内存中，才能被转移，才能被 CPU 直接读取计算。

　　不同的零拷贝技术适用于不同的应用场景，下面依次进行 sendfile、mmap、Direct I/O 的分析。

　　DMA 技术回顾：DMA 负责内存与其他组件之间的数据拷贝，CPU 仅需负责管理，而无需负责全程的数据拷贝；

　　mmap：仅代替 read 系统调用，将内核空间地址映射为用户空间地址，write 操作直接作用于内核空间。通过 DMA 技术以及地址映射技术，用户空间与内核空间无须数据拷贝，实现了 zero copy

　　不使用 page cache 的 Direct I/O：读写操作直接在磁盘上进行，不使用 page cache 机制，通常结合用户空间的用户缓存使用。通过 DMA 技术直接与磁盘/网卡进行数据交互，实现了 zero copy

　　snedfile 的应用场景是：用户从磁盘读取一些文件数据后不需要经过任何计算与处理就通过网络传输出去。此场景的典型应用是消息队列。

　　在传统 I/O 下，正如第一节所示，上述应用场景的一次数据传输需要四次 CPU 全权负责的拷贝与四次上下文切换，正如本文第一节所述。

　　sendfile 依赖于 DMA 技术，将四次 CPU 全程负责的拷贝与四次上下文切换减少到两次，如下图所示：

　　由于 sendfile 仅仅对应一次系统调用，而传统文件操作则需要使用 read 以及 write 两个系统调用。

　　另一方面，我们需要注意 sendfile 系统调用的局限性。如果应用程序需要对从磁盘读取的数据进行写操作，例如解密或加密，那么 sendfile 系统调用就完全没法用。这是因为用户线程根本就不能够通过 sendfile 系统调用得到传输的数据。

　　缓存文件 I/O：用户空间要读写一个文件并不直接与磁盘交互，而是中间夹了一层缓存，即 page cache；

　　“直接”在这里还有另一层语义：其他所有技术中，数据至少需要在内核空间存储一份，但是在 Direct I/O 技术中，数据直接存储在用户空间中，绕过了内核。

　　Write 操作：由于其不使用 page cache，所以其进行写文件，如果返回成功，数据就真的落盘了（不考虑磁盘自带的缓存）；

　　Read 操作：由于其不使用 page cache，每次读操作是真的从磁盘中读取，不会从文件系统的缓存中读取。

　　事实上，即使 Direct I/O 还是可能需要使用操作系统的 fsync 系统调用。为什么？

　　这是因为虽然文件的数据本身没有使用任何缓存，但是文件的元数据仍然需要缓存，包括 VFS 中的 inode cache 和 dentry cache 等。

　　在部分操作系统中，在 Direct I/O 模式下进行 write 系统调用能够确保文件数据落盘，但是文件元数据不一定落盘。如果在此类操作系统上，那么还需要执行一次 fsync 系统调用确保文件元数据也落盘。否则，可能会导致文件异常、元数据确实等情况。MySQL 的 O_DIRECT 与 O_DIRECT_NO_FSYNC 配置是一个具体案例［9］。

　　Linux 中的直接 I/O 技术省略掉缓存 I/O 技术中操作系统内核缓冲区的使用，数据直接在应用程序地址空间和磁盘之间进行传输，从而使得自缓存应用程序可以省略掉复杂的系统级别的缓存结构，而执行程序自己定义的数据读写管理，从而降低系统级别的管理对应用程序访问数据的影响。

　　与其他零拷贝技术一样，避免了内核空间到用户空间的数据拷贝，如果要传输的数据量很大，使用直接 I/O 的方式进行数据传输，而不需要操作系统内核地址空间拷贝数据操作的参与，这将会大大提高性能。

　　由于设备之间的数据传输是通过 DMA 完成的，因此用户空间的数据缓冲区内存页必须进行 pagepinning（页锁定），这是为了防止其物理页框地址被交换到磁盘或者被移动到新的地址而导致 DMA 去拷贝数据的时候在指定的地址找不到内存页从而引发缺页错误，而页锁定的开销并不比 CPU 拷贝小，所以为了避免频繁的页锁定系统调用，应用程序必须分配和注册一个持久的内存池，用于数据缓冲。

　　如果访问的数据不在应用程序缓存中，那么每次数据都会直接从磁盘进行加载，这种直接加载会非常缓慢。

　　对于某些应用程序来说，它会有它自己的数据缓存机制，比如，它会将数据缓存在应用程序地址空间，这类应用程序完全不需要使用操作系统内核中的高速缓冲存储器，这类应用程序就被称作是自缓存应用程序（ self-caching applications ）。

　　例如，应用内部维护一个缓存空间，当有读操作时，首先读取应用层的缓存数据，如果没有，那么就通过 Direct I/O 直接通过磁盘 I/O 来读取数据。缓存仍然在应用，只不过应用觉得自己实现一个缓存比操作系统的缓存更高效。

　　数据库管理系统是这类应用程序的一个代表。自缓存应用程序倾向于使用数据的逻辑表达方式，而非物理表达方式；当系统内存较低的时候，自缓存应用程序会让这种数据的逻辑缓存被换出，而并非是磁盘上实际的数据被换出。自缓存应用程序对要操作的数据的语义了如指掌，所以它可以采用更加高效的缓存替换算法。自缓存应用程序有可能会在多台主机之间共享一块内存，那么自缓存应用程序就需要提供一种能够有效地将用户地址空间的缓存数据置为无效的机制，从而确保应用程序地址空间缓存数据的一致性。

　　另一方面，目前 Linux 上的异步 IO 库，其依赖于文件使用 O_DIRECT 模式打开，它们通常一起配合使用。

　　用户应用需要实现用户空间内的缓存区，读/写操作应当尽量通过此缓存区提供。如果有性能上的考虑，那么尽量避免频繁地基于 Direct I/O 进行读/写操作。

　　Consumer 向 Kakfa 进行拉取消息，Kafka 负责从磁盘中读取一批日志消息，然后再通过网卡发送；

　　Kakfa 服务端向 Consumer 发送消息的场景下使用 sendfile 机制［7］，这种机制主要两个好处：

　　sendfile 基于 Page Cache 实现，因此如果有多个 Consumer 在同时消费一个主题的消息，那么由于消息一直在 page cache 中进行了缓存，因此只需一次磁盘 I/O，就可以服务于多个 Consumer；

　　使用 mmap 来对接收到的数据进行持久化，使用 sendfile 从持久化介质中读取数据然后对外发送是一对常用的组合。但是注意，你无法利用 sendfile 来持久化数据，利用 mmap 来实现 CPU 全程不参与数据搬运的数据拷贝。

　　MySQL 的具体实现比 Kakfa 复杂很多，这是因为支持 SQL 查询的数据库本身比消息队列对复杂很多。

　　DMA 技术的推出使得内存与其他组件，例如磁盘、网卡进行数据拷贝时，CPU 仅仅需要发出控制信号，而拷贝数据的过程则由 DMA 负责完成。

　　减少甚至避免用户空间和内核空间之间的数据拷贝：在一些场景下，用户进程在数据传输过程中并不需要对数据进行访问和处理，那么数据在 Linux 的 Page Cache 和用户进程的缓冲区之间的传输就完全可以避免，让数据拷贝完全在内核里进行，甚至可以通过更巧妙的方式避免在内核里的数据拷贝。这一类实现一般是是通过增加新的系统调用来完成的，比如 Linux 中的 mmap（），sendfile（）以及 splice（）等。

　　绕过内核的直接 I/O：允许在用户态进程绕过内核直接和硬件进行数据传输，内核在传输过程中只负责一些管理和辅助的工作。这种方式其实和第一种有点类似，也是试图避免用户空间和内核空间之间的数据传输，只是第一种方式是把数据传输过程放在内核态完成，而这种方式则是直接绕过内核和硬件通信，效果类似但原理完全不同。

　　内核缓冲区和用户缓冲区之间的传输优化：这种方式侧重于在用户进程的缓冲区和操作系统的页缓存之间的 CPU 拷贝的优化。这种方法延续了以往那种传统的通信方式，但更灵活。

　　文章出处：【微信号：LinuxHub，微信公众号：Linux爱好者】欢迎添加关注！文章转载请注明出处。

　　CPU作为电脑的心脏，它的发热量是相当惊人的，也是不可忽视的。一般CPU通过导热硅脂材料将热量传递给....

　　电子发烧友网报道（文/莫婷婷、程文智）进入9月，关于苹果秋季发布会的消息越来越多。据爆料，今年iP....

　　以前设计一个产品，先要规划好硬件架构，等硬件设计全部完成后，才会开始软件部分的开发，然后才是完整产品....

　　三菱变频器的脉冲失去了脉冲现象和故障排除技能，我想这个逻辑有一定的道理，不知道你发现没。然后你仔细阅读小编给你分享三菱变...

　　日前，服务器市场选择种类繁多，不同U的服务器一般对应不同的应用场景，但是目前1U和2U服务器在市场中....

　　我们已经了解了很多的 KEIL 调试方法，但是到底该怎么使用这些方法呢？这篇文章将介绍个人的调试经验....

　　具有高性能，可根据装置自由扩展的模块型控制器。追求工时的装置、需要高级多轴控制的大规模装置，实现0.5ms的高速运动控制周期，...

　　众所周知，GD是STM32国产替代最成功的一家公司。在2013年，GD选择大热的Cortex-M3作....

　　什么是HDMI-IN接口？HDMI-IN接口即高清多媒体接口输入，它是一种全数字化视频和声音发送接口....

　　关键词：RISC-V处理器 ,平头哥玄铁CPU，RISC-V指令集，IoT芯片，Vector，SIMD技术什么是向量计算技术？什...

　　可以随便到网上查一查，各大互联网公司笔试面试特别喜欢考一道算法题，即 LRU缓存机制，又顺手查了一下....

　　关键词：RISC-V，编译，软件模拟，调试系统，平头哥玄铁CPU、调试工具，集成开发环境、GDB，剑池CDK，IDE, 引...

　　关键词：RISC-V OS，嵌入式操作系统，YoC基础软件平台，Linux，玄铁CPU，IoT芯片，开源为了便于 CPU 评估，...

　　平常我们使用 top 命令来查看系统的性能情况，在 top 命令中可以看到很多不同类型的 CPU 使....

　　关键词：RISC-V处理器 ,平头哥玄铁CPU，RISC-V指令集，IoT芯片，中断任务【导语】本文为RISC-V知识图谱系...

　　一个基于 Linux 操作系统的服务器运行的同时，也会表征出各种各样参数信息。通常来说运维人员、系统....

　　当我们想要持久化地存储数据时，使用关系型数据库往往都是最稳妥的选择，这不仅因为今天的关系型数据库种类....

　　文档介绍：计算机控制复****提纲第1章计算机控制系统概述1.上网查阅相关自动控制产品5※第2章基本输入输出接口技术1.采用自选的C...

　　摘要：针对现有常规CA6140普遍车床的缺点提出数控改装方案和单片机系统设计，提高加工精度和扩大机床使用范围，并提高生产率...

　　计算机控制系统模拟系统二计算机控制系统模拟系统二填空题(20分)1、实现直线插补和二次曲线插补的方法很多，常见的有： &n...

　　产品简介 i.MX 8M Plus是NXP推出的一款面向于边缘智能和边缘计算的异构应用处理器，除了高....

　　GD32E5高性能微控制器，采用台积电低功耗40纳米（40nm）嵌入式闪存工艺构建，具备业界领先的处....

　　ORANIC板卡集成了四颗即将上市的PC802芯片，可提供四个25G以太网SFP连接器，从而可以通过....

　　CPU和GPU的设计区别 CPU需要很强的通用性来处理各种不同的数据类型；GPU面对的则是类型高度统....

　　CPU的中文全称为中央处理器，英文为Central processing unit，简称CPU。作为....

　　MCU又称微处理器、微控制器或单片机，通过将CPU、存储器等核心器件集成在一芯片上形成芯片级计算机，....

　　Linux内核简介Linux内核是Linux操作系统的核心，也是整个Linux功能体现。它是用C语言编写，符合POSIX标准。Linux最早...

　　hi，大家好，今天给大家分享并行程序设计中最重要的锁-RCU锁，RCU锁本质是用空间换时间，是对读写....

　　【导读】今天的文章中作者总结了高效快速部署个人博客的经验，介绍了打包方面优化对性能的提升。自从上次....

　　安谋科技举行“创芯生，赋未来” 新业务品牌战略发布会，重磅发布“双轮驱动”战略以及新业务品牌“核芯动....

　　SLAM （simultaneous localization and mapping），也称为CM....

　　本期上海研强给大家分享的是工控机在新零售中的应用，希望看完本篇文章您能对工控机有一个全新的认识！

　　S7-CPU 工作模式的原理操作模式描述了 CPU 的行为。有下列操作模式： ● STARTUP ....

　　每次回家开灯时你有没有想过，用你按的简单开关实际上能打造出复杂的 CPU 来，只不过需要的数量会比较....

　　编者按：笔者在 AArch64 中遇到一个 G1 GC 挂起，CPU 利用率高达 300%的案例。经....

　　政策和股市挂钩这已经不是什么秘密，当然也不是什么不能谈的忌讳。近端时间，稀土、碳中和、有色金属等都是....

　　如果你认为自制计算机芯片是不可能的，那你就错了。“天才少年”萨姆-泽鲁夫（Sam Zeloof）刚刚....

　　强化学习（Reinforcement Learning）是一种指导机器人在现实世界完成导航和执行....

　　凡是从事信息技术相关工作的童鞋，一定都听说过嵌入式和单片机。大家都知道，这两个名词，和硬件系统有着....

　　在python程序里，如何链接MySQL数据库？连接MYSQL需要3步 1、安装必须先安装MyS....

　　随着科学技术的发展不断提升，各行各业对于工控主板的使用也变的越来越多。市场上对于工控主板的需求也是越....

　　产品兼容20多种CPU板，包括NVIDIA Jetson， DragonBoard，所有Raspb....

　　Xilinx® Alveo™ U200加速卡助力深维科技（DeePoly）ThunderImage....

　　stm32是一款高性能、低成本、低功耗、可裁剪的嵌入式单片机。那么stm32单片机的基本组成是什么呢....

　　本期上海研强给大家分享的是为什么工控机CPU需要用到高速缓存，希望看完本篇文章您能对工控机有一个全新....

　　发布人：Yunlu Li 和 Artsiom Ablavatski 简介剪枝是 TensorFlo....

　　了解过工控机的用户应该都了解工控机的性能是非常不错的，可在一些恶劣的环境下进行工作。虽然有着不错的性....

　　计算机系统中有很多程序员习以为常但又十分神秘的存在：函数调用、系统调用、进程切换、线程切换以及中断处....

　　聪明的人类发现把简单的开关组合起来可以表达复杂的bool逻辑，在此基础之上构建了 CPU ，因此 C....

　　PlasticARM的芯片架构如下图所示。它是一种SoC，包括源自32位Arm Cortex-M0+....

　　在文章开头先抛几个问题：（1）什么时候才需要分库分表呢？我们的评判标准是什么？（2）一张表存储了....

　　忆芯科技推出了搭载自研STAR1000P主控的DRAM-Less消费级SSD方案STAR1200L，....

　　目前STM32家族中的很多系列，比如STM32G0/STM32G4/STM32L4+/STM32H7....

　　本文主要介绍内存的基本概念以及操作系统的内存管理算法。一、内存的基本概念内存是计算机系统中除了处....

　　使用云上的 MySQL 时，会遇到很多人询问 CDB 的。为了更好的了解云上的 MySQL，本文将介....

　　做好闭环步进电机速度控制，是保证电机有好的控制，能够能够呈现出好的运行效果发挥出优势功能的重点之一。....

　　好吧，也许你认为我在写一篇如何使用for循环的文章，，，，首先，我想说无论是学习C语言还是学习jav....

　　案例简介博大视野（厦门）科技有限公司是业内领先的智慧港口视觉方案提供商。公司为全球港口用户提供坚固....

　　TMS320VC5501（5501）定点数字信号处理器（DSP）基于TMS320C55xDSP生成CPU处理器内核。 C55xDSP架构通过增加并行性和全面关注降低功耗来实现高性能和低功耗。 CPU支持内部总线结构，该结构由一个程序总线，三个数据读总线，两个数据写总线以及专用于外设和DMA活动的附加总线组成。这些总线能够在一个周期内执行最多三次数据读取和两次数据写入。并行，DMA控制器可以独立于CPU活动执行数据传输。 C55xCPU提供两个乘法累加（MAC）单元，每个单元能够进行17位×17位乘法运算。单循环。额外的16位ALU支持中央40位算术/逻辑单元（ALU）。 ALU的使用受指令集控制，提供优化并行活动和功耗的能力。这些资源在C55x CPU的地址单元（AU）和数据单元（DU）中进行管理。 C55x DSP代支持可变字节宽度指令集，以提高代码密度。指令单元（IU）从内部或外部存储器执行32位程序提取，并为程序单元（PU）排队指令。程序单元解码指令，将任务指向AU和DU资源，并管理完全受保护的管道。预测分支功能可避免执行条件指令时的管道刷新。 5501外设...

• 抖音直播连微信、秒杀都不能说？官方澄清：假的	• iOS 16新版跑分出炉：性能续航全跌了
• Windows Server新版25158发布！ISO镜像免费下载	• 四川中医药高等专科学校医学影像技术能专升本吗
• 河南专科学院的汽车工程系可以专升本到好点的学	• 安徽中医药高专专升本
• 哪些专科学院可以专升本到河北师范大学	• iOS 16新版跑分出炉：性能续航全跌了
• QQ崩了：发消息出现感叹号	• Android 13 Beta 4 今日上线，Android 13 正式

VIP

推广服务

深入理解Linux系统零拷贝技术