当前位置：首页 > news >正文

C语言写的LZ77压缩解压工具，带编译示例和详细使用说明

news 2026/7/25 12:02:17

本文还有配套的精品资源，点击获取

简介：一个纯C实现的LZ77无损压缩解压工具，核心逻辑集中在lz.c文件里，不依赖任何外部库，支持命令行压缩（./lz -c input.txt output.lz）和解压（./lz -d input.lz output.txt），也支持标准输入输出模式。采用固定大小滑动窗口查找重复字符串，用偏移量+长度对编码匹配段，未匹配字符直接保留，确保压缩解压全程无损。包里包含可直接编译运行的test.c测试用例、生成的可执行文件lz、压缩后的样例文件lz.c.z77，以及一份清晰的README.markdown文档，说明gcc编译命令、各参数作用、基本算法流程和注意事项。目录中还保留了原始开源项目lz1-master的镜像结构，方便对照学习演进过程。所有代码注释完整，变量命名直观，适合嵌入式资源受限环境移植，也适合作为数据结构与算法课程中滑动窗口、字典编码类作业的参考实现。

1. 项目概述：为什么一个“只有200行”的C文件，能讲清楚LZ77的全部灵魂？

你有没有试过翻开《数据压缩原理》教材里关于LZ77的章节？满页公式、状态机图、滑动窗口示意图，再配上“字典编码”“前瞻缓冲区”“三元组输出”这些术语，读完一遍只记得三个字：看不懂。而眼前这个项目——lz.c，一个连空行和注释都算上也不到250行的纯C源文件，却能把LZ77从理论落地到可执行、可调试、可逐行单步跟踪的真实工具。它不炫技，不堆砌抽象层，不引入任何头文件依赖（连<stdio.h>都只在需要I/O时才条件包含），所有逻辑直来直往：读一个字节、查一次窗口、决定是原样输出还是打个“偏移-长度”包。我第一次把它编译出来，在终端里敲下./lz -c test.txt test.lz && ./lz -d test.lz test_out.txt，然后用diff test.txt test_out.txt看到光标停在空白行上——那一刻不是“成功了”，而是“原来LZ77真的就这么简单”。

这个工具的核心关键词是LZ77、C语言、无损压缩、压缩算法、源码，但它的价值远不止于“能用”。它是一份可运行的教科书：当你把lz.c拖进编辑器，从第1行#include <stdio.h>开始往下读，你会亲眼看到滑动窗口如何用一个固定大小的char window[4096]数组实现；会看到匹配搜索如何用朴素的双重循环（外层遍历窗口起始位置，内层比对长度）完成，而不是调用某个黑盒函数；会看到压缩输出如何用fwrite(&offset, sizeof(int), 1, out)和fwrite(&length, sizeof(int), 1, out)把两个整数原样写进二进制流，解压时再原样读回——没有位操作封装，没有字节序转换宏，一切裸露在阳光下。它专为嵌入式环境设计，所以窗口大小设为4096（2^12），既保证常见重复模式能被覆盖，又避免在8-bit MCU上吃掉过多RAM；它面向教学，所以所有变量名如window_start、match_len、lookahead_pos都直指语义，不玩缩写游戏；它拒绝第三方库，意味着你把它复制进任何裸机工程，只要提供基础fread/fwrite接口，就能直接编译链接。这不是一个“玩具实现”，它是LZ77算法最精炼的C语言转译——就像把一首交响乐谱，用一把小提琴独奏出来，音符少了，但主旋律、节奏骨架、情感张力，一丝未减。

2. 算法核心拆解：滑动窗口不是概念，是内存里一块实实在在的数组

2.1 LZ77的本质：用“地址+长度”代替“内容本身”

LZ77的魔力，说穿了就一句话：如果一段数据在前面出现过，我们就不再存它，而是存“它上次出现在哪里，一共多长”。这听起来像废话，但正是这句话，构成了现代无损压缩的基石。lz.c把这个思想翻译成了最朴素的C代码。我们来看关键结构：

#define WINDOW_SIZE 4096 #define MAX_MATCH_LEN 256 typedef struct { char window[WINDOW_SIZE]; // 滑动窗口本体：一块固定大小的内存 int window_start; // 当前窗口在输入流中的起始位置（字节偏移） int lookahead_pos; // “前瞻缓冲区”起始位置（即当前要处理的字节） int window_size; // 实际有效窗口大小（可能小于WINDOW_SIZE，开头不足时） } LZ77Context;

这里没有花哨的哈希表，没有红黑树索引，window[]就是一个普通字符数组。window_start告诉你：“此刻，这个数组里存的是从输入文件第window_start字节开始的4096个字节”。lookahead_pos则是你的“手指”，指着下一个待处理的字节。整个算法就是让这个“手指”在输入流上一格一格往前挪，每挪一格，就回头在window[]里疯狂找：“有没有哪一段，跟我手指现在指着的这一串字节一模一样？” 找到了，就输出一个(offset, length)对；没找到，就原样输出这个字节。这就是全部。

提示：offset不是绝对地址，而是相对于lookahead_pos的负向偏移。比如lookahead_pos=1000，窗口里window[500]开始有一段匹配，那么offset = 1000 - 500 = 500。这意味着“往前找500个字节的地方，有我要的东西”。这个设计让解压端只需维护一个滑动窗口，无需全局索引。

2.2 匹配搜索：为什么不用哈希？因为教学场景要“看见过程”

很多工业级实现（如zlib）会用哈希链或后缀数组加速匹配，但lz.c坚持用O(n²)的暴力搜索。这不是性能妥协，而是教学必需。我们看核心匹配函数片段：

int find_longest_match(LZ77Context *ctx, const char *input, int pos, int *best_offset, int *best_len) { int max_len = 0; int best_off = 0; // 遍历窗口中每一个可能的起始位置 i for (int i = 0; i < ctx->window_size; i++) { int len = 0; // 从位置i开始，逐字节比对，直到不匹配或超出最大长度 while (len < MAX_MATCH_LEN && (pos + len < input_len) && ctx->window[i + len] == input[pos + len]) { len++; } if (len > max_len) { max_len = len; best_off = ctx->window_size - i; // 计算offset：窗口尾部到i的距离 } } *best_offset = best_off; *best_len = max_len; return max_len; }

这段代码的价值，在于它把“查找最长匹配”这个抽象动作，彻底具象化为两层for循环和一个while比对。你可以轻松在GDB里打断点，观察i如何变化，len如何增长，best_off如何被更新。你会发现，当输入是"abababab"时，算法会在pos=4处发现window[0]开始的"abab"完美匹配，于是输出(4, 4)——意思是“往前4个字节，抄4个字节”。这种“所见即所得”的透明度，是任何封装好的哈希查找函数都无法提供的。它强迫你思考：为什么MAX_MATCH_LEN设为256？因为超过这个长度，用单字节表示长度就不够了（unsigned char最大255），而lz.c选择用int存长度，就是为了绕过这个限制，保持逻辑纯粹。

2.3 压缩输出格式：二进制流里的“明文协议”

lz.c的输出不是文本，而是严格的二进制格式，但它定义得异常清晰，堪称“自解释协议”：

字段	类型	含义	示例
`is_literal`	`unsigned char`(1字节)	标志位：1=字面量，0=匹配对	`0x01`表示接下来是一个字节
`literal_byte`	`unsigned char`(1字节)	字面量字节值	`0x61`(‘a’)
`is_literal`	`unsigned char`(1字节)	标志位：0=匹配对	`0x00`
`offset`	`int`(4字节)	匹配偏移量	`0x000001F4`(500)
`length`	`int`(4字节)	匹配长度	`0x00000004`(4)

这个格式没有魔数头，没有校验和，没有版本号。它极度轻量，但也极度脆弱——解压端必须严格按此顺序读取。lz.c的解压函数decompress()就是这个协议的忠实解析器：先读1字节标志，如果是1，就读1字节字面量；如果是0，就读4字节offset和4字节length，然后从窗口里对应位置拷贝数据。这种“协议即代码”的设计，让你一眼看懂压缩文件的内部结构。你可以用xxd test.lz命令打开压缩文件，对照着代码里的fwrite调用，一行行验证：那里写的0x00，果然就是is_literal=0；后面紧跟着的4个0x00，就是offset=0……这种可验证性，是学习底层数据格式的黄金标准。

3. 实操全流程：从零编译到深度调试，手把手带你跑通每一行

3.1 编译与基础使用：三步走，零障碍启动

整个项目的生命线，就系在README里那句gcc lz.c -o lz上。但这短短一行背后，藏着几个必须亲手验证的关键点。我建议你按以下顺序操作，每一步都亲手敲，不要跳过：

第一步：确认环境与最小依赖
确保你的Linux/macOS终端已安装GCC（Windows用户请用WSL或MinGW）。lz.c只依赖<stdio.h>和<stdlib.h>，所以不需要额外安装任何库。创建一个干净目录，把lz.c和test.c放进去。先别急着编译，用grep -n "#include" lz.c检查头文件——你会发现只有两行：#include <stdio.h>和#include <stdlib.h>。这就是它“零依赖”的铁证。

第二步：编译并验证符号表
执行gcc -Wall -Wextra lz.c -o lz。-Wall -Wextra开启所有警告，这是学习源码的黄金习惯。编译成功后，立刻用nm lz | grep "T "查看导出的函数符号（T代表text段，即函数）。你应该只看到main和几个内部函数如compress、decompress，没有任何外部库符号（如printf、malloc）。这证明它确实没偷偷链接libc的高级功能。再用file lz确认是64位ELF可执行文件（或32位，取决于你的系统）。

第三步：跑通最简测试流
创建测试文件：echo "hello world hello world" > test.txt。执行压缩：./lz -c test.txt test.lz。此时test.lz应该比test.txt小（ls -l对比）。再解压：./lz -d test.lz test_out.txt。最后验证无损：diff test.txt test_out.txt。如果终端没输出，恭喜，你已经完成了LZ77的首次握手。注意观察test.lz的大小——它很可能只比test.txt小几个字节，因为短文本的重复模式太少，LZ77的优势还没爆发。别急，我们马上用更“肥”的数据压它。

注意：lz.c默认使用WINDOW_SIZE=4096，这意味着它最多只能向前查找4096字节内的重复。如果你的测试文件只有10字节，那它永远找不到匹配，压缩率就是0%。这是故意为之的教学设计：让你明白窗口大小不是越大越好，而是要与数据特征匹配。

3.2 进阶实操：用test.c深入算法心脏

项目自带的test.c不是摆设，它是进入算法内核的手术刀。打开它，你会看到：

#include "lz.h" // 注意：这里引用的是lz.h，不是lz.c int main() { char input[] = "abababab"; char output[1024]; int out_len = compress(input, strlen(input), output); printf("Compressed %d bytes to %d bytes\n", strlen(input), out_len); return 0; }

这里有个关键细节：test.c通过#include "lz.h"调用，而lz.h里只声明了compress()和decompress()函数原型。这意味着lz.c被设计为一个可复用的库模块，而不仅仅是命令行工具。要编译test.c，你需要先生成lz.o：gcc -c lz.c -o lz.o，再链接：gcc test.c lz.o -o test。运行./test，你会看到输出Compressed 8 bytes to X bytes。X是多少？动手算："abababab"中，"abab"在位置0和4重复，所以压缩后应为[literal 'a','b'] + [match offset=4, len=4]。根据输出格式，'a','b'占2字节（各1字节标志+1字节值），match占9字节（1字节标志+4+4），总计11字节。实际运行结果是否吻合？这就是你第一次亲手验证算法逻辑的机会。

3.3 调试实战：用GDB单步追踪“abababab”的压缩路径

想真正吃透，必须走进CPU的视角。我们以"abababab"为例，用GDB调试：

gcc -g -O0 lz.c -o lz # -g加调试信息，-O0禁用优化，确保行号准确 gdb ./lz (gdb) break main (gdb) run -c test.txt /dev/null (gdb) step # 进入compress函数

在compress()函数里，重点关注while (lookahead_pos < input_len)循环。设置断点在find_longest_match()调用前，然后step进入。观察pos变量：当pos=0时，窗口为空（或只有初始填充），find_longest_match返回len=0，于是输出字面量'a'。当pos=1，同理输出'b'。关键在pos=4：此时窗口里已有"abab"，find_longest_match会遍历窗口，发现i=0（即窗口开头）开始的"abab"完全匹配，于是best_len=4，best_off=4。此时fwrite会写出0x00（标志）、0x00000004（offset）、0x00000004（length）。每一步，你都能用print命令查看变量值，用x/xb &offset查看内存布局。这种“显微镜级”的观察，是任何文档都无法替代的学习体验。

4. 工程细节深挖：那些藏在注释和命名里的二十年经验

4.1 窗口管理：为什么`window_start`和`window_size`要分开维护？

初看LZ77Context结构体，你会疑惑：既然window[]大小固定为4096，为什么还要window_start和window_size两个变量？答案藏在边界处理里。假设输入文件只有100字节，当lookahead_pos=50时，窗口里应该存的是input[0..49]（50字节），window_start=0，window_size=50。当lookahead_pos=100（文件结尾），窗口里存的是input[50..99]（50字节），window_start=50，window_size=50。但如果lookahead_pos=2000，而文件总长才100字节，这时window_start会变成2000-4096=-2096，显然越界。lz.c的处理是：当window_start < 0，就用0填充窗口前部，并将window_size设为lookahead_pos（即当前已读字节数）。这个逻辑在update_window()函数里实现，它确保窗口永远只包含“历史上真实存在过的数据”，不会用随机内存垃圾去匹配。这种对边界条件的敬畏，是嵌入式开发者的本能——在资源受限的MCU上，越界访问不是段错误，而是不可预测的硬件锁死。

4.2 内存安全：`memcpy`的两次“温柔”使用

lz.c里有两处memcpy调用，它们体现了C语言内存操作的精髓：

填充窗口：memcpy(ctx->window, input + ctx->window_start, ctx->window_size);
这里input + ctx->window_start是源地址，ctx->window是目标。memcpy要求源和目标内存不重叠。在这个场景下，input是原始文件缓冲区，ctx->window是独立数组，绝对不重叠，所以memcpy安全高效。
解压时拷贝匹配段：memcpy(output + out_pos, ctx->window + window_pos, length);
这里output + out_pos是目标，ctx->window + window_pos是源。同样不重叠。但注意：out_pos是当前输出位置，length是匹配长度，memcpy会严格按字节拷贝，不多不少。这种“精确控制”的能力，是strcpy等字符串函数无法提供的——因为LZ77匹配的可能是包含\0的二进制数据。

实操心得：我在移植到STM32时，曾把memcpy换成memmove，以为更“保险”。结果发现memmove内部有重叠判断开销，在Cortex-M3上慢了15%。后来才明白：lz.c的设计者早已确保所有memcpy场景都不重叠，用memcpy是经过权衡的最优解。这提醒我们：不要盲目替换标准库函数，要先读懂它的使用前提。

4.3 错误处理：为什么`lz.c`几乎不检查`fread`/`fwrite`返回值？

翻遍lz.c，你会发现fread和fwrite调用后，几乎没有if (ret != expected)的错误检查。这不是疏忽，而是针对目标场景的刻意设计。在嵌入式环境或教学演示中，输入文件必然完整，磁盘空间必然充足。加入繁复的错误处理，只会让核心算法逻辑淹没在if-else海洋里。真正的健壮性，体现在test.c的单元测试里——它用内存缓冲区而非文件句柄，可以精确控制输入输出，模拟各种边界情况。而命令行工具lz，则把错误处理交给shell：./lz -c nonexistent.txt out.lz会因fopen失败而退出，shell的$?会返回非零值，用户自然知道出错了。这是一种“分层防御”思想：底层模块专注核心逻辑，上层应用负责容错。这比在每个fwrite后加perror更符合Unix哲学。

5. 常见问题与避坑指南：那些只有踩过才知道的“坑”

5.1 问题速查表：高频故障与秒级定位法

现象	可能原因	快速定位法	解决方案
`./lz -c in.txt out.lz`后`out.lz`为空	`in.txt`为空文件，或`fopen`失败	`strace ./lz -c in.txt out.lz 2>&1 \\| grep open`，看是否`open("in.txt", O_RDONLY)`失败	检查文件路径、权限，确保`in.txt`存在且可读
解压后文件内容错乱（如`hello world`变成`hello worl?`）	`offset`计算错误，导致从窗口错误位置拷贝	在`decompress()`中`memcpy`前加`printf("copy from %d, len %d\n", window_pos, length)`	检查`find_longest_match`返回的`offset`是否被正确转换为`window_pos`（应为`ctx->window_size - offset`）
压缩率极低（`out.lz`比`in.txt`还大）	输入数据随机性强，无重复；或`WINDOW_SIZE`太小	用`hexdump -C test.lz \\| head`看输出是否全是`01 xx`（字面量标志）	换用有规律的数据测试（如`yes "hello" \\| head -n 1000 > test.txt`），或临时增大`WINDOW_SIZE`
`gcc lz.c -o lz`报`undefined reference to 'main'`	你试图编译`lz.c`却不链接`main`函数	`grep "int main" lz.c`确认`main`存在；检查是否误删了`main`函数	`lz.c`必须包含`main`，它是完整可执行程序，不是库文件
在Windows上编译失败，提示`fopen`参数错误	Windows的`fopen`对二进制模式要求严格	将`fopen(filename, "r")`改为`fopen(filename, "rb")`，`"w"`改为`"wb"`	`lz.c`原始版本已处理，但若你修改过I/O部分，务必补上`b`标志

5.2 独家避坑技巧：来自十年嵌入式移植的老兵经验

技巧一：窗口大小不是越大越好，而是要“刚刚好”
我在给一款国产RISC-V MCU移植时，曾把WINDOW_SIZE从4096改成65536，以为能提升压缩率。结果编译失败：.bss段超出了芯片RAM上限。后来发现，对于传感器日志这类数据（重复模式多在几百字节内），WINDOW_SIZE=2048反而更优——它节省了50% RAM，压缩率只下降2%，但系统稳定性大幅提升。lz.c的4096，是作者在通用性与资源消耗间找到的黄金平衡点。

技巧二：MAX_MATCH_LEN决定你的“贪婪度”
lz.c设MAX_MATCH_LEN=256，意味着它最多匹配256字节。但如果你处理的是高清图片的重复扫描线，可能需要1024。修改时切记：length变量类型是int，没问题；但解压端的memcpy长度参数必须能容纳，否则memcpy(dst, src, 1024)会截断。我在做视频帧压缩时，曾因忘记同步修改decompress()里的长度检查，导致解压崩溃。教训是：任何参数修改，必须同时审视压缩和解压两端的边界条件。

技巧三：标准输入输出模式的隐藏陷阱
lz.c支持./lz -c < input.txt > output.lz。但要注意：stdin和stdout是流式设备，fstat(stdin, &st)会失败，所以lz.c用fread循环读取，直到feof()。这意味着，如果你用cat input.txt \| ./lz -c > out.lz，cat结束时stdin关闭，fread返回0，循环自然退出。但如果你在交互式终端运行./lz -c，它会一直等待输入，直到你按Ctrl+D（EOF）。这个行为差异，新手常误以为是程序卡死。

6. 拓展与演进：从`lz.c`出发，你能走多远？

lz.c不是终点，而是一个精心设计的起点。它的目录结构里藏着演进线索：lz1-master是原始开源镜像，lz-2.c是作者的二次改进版，lz.c.z77是它自己压缩出来的样本。这种“用自己压缩自己”的递归式设计，本身就是对算法鲁棒性的终极检验。如果你想继续深入，这里有三条清晰路径：

路径一：性能优化——给朴素算法装上涡轮
lz.c的O(n²)搜索是教学友好，但生产环境需要速度。你可以尝试：
- 为窗口添加哈希表索引：用unsigned short hash = (window[i] << 8) | window[i+1]作为键，存储所有双字节起始位置的链表。搜索时先查哈希，再在链表里精确比对。这能将平均复杂度降到O(n)。
- 引入“懒惰匹配”：不总是取最长匹配，而是当找到一个长度≥3的匹配时就立即输出，跳过后续搜索。这牺牲一点压缩率，换取显著速度提升。

路径二：格式扩展——打造你的专属压缩协议
lz.c的二进制格式简单，但缺乏元数据。你可以：
- 在文件头部添加魔数（如0x4C 0x5A 0x37 0x37即”LZ77”）和版本号，让解压端能识别格式。
- 增加CRC32校验和字段，放在文件末尾，解压时验证数据完整性。
- 支持可变长度编码：用1字节表示短匹配（len≤15），2字节表示长匹配，进一步压缩元数据开销。

路径三：生态集成——让它活在现代工具链里
lz.c的终极价值，在于可嵌入性。你可以：
- 将其封装为Python C扩展模块，用PyArg_ParseTuple接收Python字节对象，用PyBytes_FromStringAndSize返回压缩结果，让Python脚本能调用这个C级性能的压缩器。
- 移植到WebAssembly：用Emscripten编译lz.c为.wasm，在浏览器里实现客户端无损压缩，保护用户隐私（数据不出浏览器）。

我个人在实际使用中发现，lz.c最迷人的地方，是它用最克制的代码，完成了最本质的抽象。当你把lz.c的200行代码打印出来，贴在墙上，每天看一眼，你会逐渐理解：所谓“算法”，不过是人类对数据规律的一种诚实描述；所谓“工程”，不过是把这种描述，用最可靠的方式刻进硅基芯片。它不承诺颠覆世界，但它保证，只要你愿意一行行读下去，LZ77的每一个字节，都会在你脑中清晰成像。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/962179/