当前位置：首页 > news >正文

【Linux基础IO】深入解析Linux基础IO缓冲区机制：提升文件操作效率的关键

news 来源：原创 2024/9/25 19:33:44

📝个人主页🌹：Eternity._
⏩收录专栏⏪：Linux “ 登神长阶 ”
🤡往期回顾🤡：暂无
🌹🌹期待您的关注 🌹🌹

在这里插入图片描述

❀Linux基础IO

📒1. 什么是缓冲区
📙2. stdio缓冲区机制
- 🌞全缓冲、行缓冲与无缓冲
- ⭐缓冲区刷新策略
📚3. 典型函数与缓冲区操作
📜4. 用户缓冲区和内核缓冲区
📝5. FILE
- 🌸实现C标准库函数
📖6. 总结

前言：在Linux操作系统的广阔世界里，IO（输入/输出）操作是系统与外部设备（如硬盘、网络等）进行数据交换的基石。然而，直接而频繁地进行IO操作往往会成为系统性能的瓶颈，因为物理设备的访问速度远不及内存的处理速度。为了缓解这一矛盾，Linux引入了一系列高效的IO缓冲机制，通过在用户空间和内核空间之间设置缓冲区，以减少对物理设备的直接访问，从而提高数据处理的效率和系统的整体性能

学习Linux基础IO缓冲区，不仅是深入理解Linux操作系统内部工作原理的必经之路，也是优化系统性能、提升应用响应速度的关键技术之一。通过掌握IO缓冲区的概念、原理、管理机制以及优化策略，我们可以更好地理解和控制Linux系统的IO行为，从而在面对大数据量处理、高并发访问等挑战时，能够游刃有余地应对

让我们一同探索Linux IO缓冲区的奥秘，开启一段充满挑战与收获的学习之旅吧！

📒1. 什么是缓冲区

缓冲区（Buffer）在计算机科学中是一个重要的概念，它指的是一块用于临时存储数据的内存区域。缓冲区的主要目的是减少数据在传输或处理过程中的延迟，提高数据处理的效率，以及保护原始数据不被直接修改或破坏

验证缓冲区的存在：

printf("hello Linux");
sleep(1);

如果我们让这段伪代码运行，它不会立刻打印，而是等到程序结束时才会输出内容

关于缓冲区我们可以借用下图来理解
在这里插入图片描述

如果我们想将东西送给在异地的朋友时，我们不太可能亲自交到他的手上，我们可以通过菜鸟驿站将东西给他，当我们将快递交给快递站的时候，我们就认为将物品送出去了，但是在远方的朋友不会立刻受到快递，并且快递站也不会只单独送你这一个快递，它会等快递到达一定数量才会开始派送，这样会提高快递站的效率，这就和我们的缓冲区差不太多，所以缓冲区不会立刻刷新，它会等缓冲区内容到达一定数量，才会刷新缓冲区

缓冲区的主要作用：提高使用者的效率

因为有缓冲区的存在，我们可以累计一部分在统一发送
通过批量处理数据，缓冲区可以减少CPU中断的次数，从而提高系统性能
在文件I/O操作中，操作系统可以将多个小的读写请求合并成较大的请求，以减少磁盘访问次数

📙2. stdio缓冲区机制

stdio缓冲区机制是C语言标准输入输出库（stdio.h）提供的一种用于提高数据读写效率的机制。缓冲区是一段内存区域，用于临时存储输入输出数据，以减少对磁盘或终端的直接读写次数，从而提高程序性能。stdio库中的函数，如printf、scanf、fread、fwrite等，都使用了缓冲区机制

🌞全缓冲、行缓冲与无缓冲

全缓冲：

在全缓冲模式下，当缓冲区被填满时，才会进行实际的I/O操作
默认情况下，对磁盘文件的读写操作采用全缓冲模式
缓冲区的大小通常是固定的，如4096字节（但可以通过setvbuf函数调整）

行缓冲：

在行缓冲模式下，当遇到换行符（\n）时，会执行I/O操作
当流涉及终端（如标准输出stdout和标准输入stdin）时，通常使用行缓冲模式
这使得输出能够按行显示，而不是等到缓冲区满时才显示

无缓冲：

在无缓冲模式下，不对字符进行缓冲存储，即每次I/O操作都直接进行
标准错误流（stderr）通常是无缓冲的，以确保错误信息能够立即显示

⭐缓冲区刷新策略

缓冲区刷新是指将缓冲区中的数据写入到目标设备（如磁盘或终端）的过程。stdio库提供了多种缓冲区刷新策略，以确保数据的及时性和完整性

以上讲的内容都是缓冲区的一般刷新策略

特殊情况：

强制刷新
当进程退出时，通常会隐式地刷新所有未刷新的缓冲区

📚3. 典型函数与缓冲区操作

在C语言中，stdio库中的典型函数与缓冲区操作密切相关。缓冲区是内存中的一块区域，用于临时存储输入输出数据，以提高程序性能

我们来看一段代码：

#include <stdio.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
#include <string.h>int main()
{printf("hello printf\n");fprintf(stdout, "hello fprintf\n");fputs("hello fputs\n", stdout);const char *msg = "system call: hello write\n";write(1, msg, strlen(msg));return 0;
}

在这里插入图片描述

毋庸置疑，程序正常输出，我们来修改一下代码，看看会出现什么现象

我们在代码中加入 fork()：

#include <stdio.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
#include <string.h>int main()
{printf("hello printf\n");fprintf(stdout, "hello fprintf\n");fputs("hello fputs\n", stdout);const char *msg = "system call: hello write\n";write(1, msg, strlen(msg));fork();                                                                                                                                                                                return 0;
}

在这里插入图片描述

让我们分析一下为什么只有一行代码的差距，却有两种不同的结果

代码分析

我们直接向显示器打印时，显示器的刷新方式是行刷新，我们在输出的字符串中都有’\n’，我们在fork之前，所有数据均被刷新，包括system call
重定向到log.txt，本质是往磁盘中写入数据，这时我们的刷新方式是全缓冲
全缓冲就意味着，我们必须将缓冲区写满才会刷新，但是我们做不到，此时，数据依然存在于缓冲区
目前我们谈论的缓冲区，只与C语言相关
C/C++提供的缓冲区，保存的一定是用户数据，属于进程在运行自己的数据，但是我们把数据交给OS时，数据就不再属于我们，而是属于OS
当进程退出时，一般会刷新缓冲区，而刷新缓冲区属于"清空"，"写入"操作，fork后，任意一个进程退出，都会刷新缓冲区，这时就会发生写时拷贝
write属于系统调用，没有使用C语言缓冲区，直接将数据写入操作系统