当前位置: 首页 > news >正文

为什么同内容的两个目录,ls和du显示的大小不一样?

前言:在进行目录迁移时,很容易遇到一个有趣的现象:明明是内容完全一致的两个目录,用ls/ll查看目录本身的大小时,数值并不相同;但用du -sh统计目录下文件的总大小,结果却完全一致。这背后藏着“目录元数据”的设计逻辑——今天从原理、历史到比喻,把这个知识点讲透。

先理清两个核心概念

要解释这个现象,得先区分两个关键概念:

  • 目录的“元数据大小”:目录不是“装文件的容器”,而是一份文件索引清单(专业称“元数据”),它只记录“当前目录下有哪些文件/子目录”,不存储文件内容。
    系统会用“磁盘块(默认4096字节)”来存放这份清单,目录显示的大小=占用的磁盘块数 × 4096字节。
  • 目录的“实际文件大小”du -sh统计的是目录下所有文件的内容总大小,和目录本身的“清单”大小毫无关系。

拓展:目录元数据的原理与历史

1. 元数据的底层原理:它到底存了啥?

目录的元数据,本质是一张文件名→inode号的映射表——每一条目录项,都会存两个核心信息:

  • 文件名:你看到的文件/子目录名称;
  • inode号:文件的“系统身份证号”(系统会通过inode号,找到文件的实际存储位置、大小、权限等关键信息)。

简单说:目录的作用是“帮你通过文件名找到inode号,再通过inode号定位到文件内容”,而这份“映射表”就存在磁盘块里——每块磁盘(默认4096字节)能存多少条目录项,是固定的。

当你频繁在目录里增删文件时,“映射表”会产生“碎片”:比如删除文件后,原来的目录项位置不会立即回收,新文件可能存在新的磁盘块里,久而久之,目录就会占用更多磁盘块(相当于笔记本写了很多页,却有不少空白行)。

2. 元数据的历史:从“简陋清单”到“智能目录”

早期的文件系统(比如DOS时代的FAT),目录元数据的设计很简陋:

  • 每个目录项是固定32字节,强制存文件名(8字符)+扩展名(3字符),最多只能存有限的文件;
  • 增删文件后,目录项的“碎片”无法自动整理,旧目录很容易占用更多磁盘空间。

后来UNIX的UFS、Linux的EXT系列文件系统,逐步优化了目录元数据:

  • EXT2:把目录做成“线性列表”,支持更长的文件名,磁盘块按需分配,但删改多了仍会有碎片;
  • EXT3:增加了日志功能,减少元数据损坏的概率,但目录存储逻辑没变;
  • EXT4:引入“哈希目录(HTree)”,处理上千个文件的大目录时更高效,还能减少碎片——但如果目录经历了频繁增删,依然会残留磁盘块占用(这就是旧目录元数据更大的根源)。

用“笔记本”比喻,秒懂差异

把目录想象成“记录文件清单的笔记本”,就能直观理解元数据的差异:

  • 磁盘块(4096字节)= 笔记本的单页纸大小(每页能写固定数量的“文件名+inode号”)。

对应迁移场景里的两个目录:

  • 新目录是“整洁的新笔记本”
    刚迁移的目录,“映射表”排版规整,只用3页纸就写全了所有目录项,所以它的“厚度”是:3页 × 4096字节 = 12288

  • 旧目录是“用旧的笔记本”
    旧目录经历过多次增删,“映射表”有很多碎片,写这份清单用了8页纸,所以它的“厚度”是:8页 × 4096字节 = 32768

实际命令验证:和比喻完全对应

迁移后执行以下命令,就能看到和原理匹配的结果(可搭配实际截图查看):

1. 查看目录的“笔记本厚度”(元数据大小)

执行命令:

ll -d 迁移后的新目录 原旧目录

输出示例:

drwxrwxr-x 4 用户 用户 12288 1月 14 00:00 迁移后的新目录/ drwxrwxr-x 4 用户 用户 32768 1月 14 00:00 原旧目录/

2. 查看文件的“实际内容总大小”

执行命令:

du-sh 迁移后的新目录 原旧目录

输出示例:

9.4G 迁移后的新目录 9.4G 原旧目录

不管“笔记本”多厚,里面记录的文件内容是完全一致的,所以du统计的总大小完全相同。

总结

  • ls/ll显示的是目录元数据的大小(相当于“笔记本的厚度”),由目录项占用的磁盘块数决定;
  • du -sh显示的是文件内容的总大小(相当于“笔记本里记录的文件实际体积”),与目录元数据无关。

以后遇到同内容目录大小显示不一致的情况,不用疑惑——这只是“文件索引清单”的排版碎片导致的,文件内容并没有差异~

http://www.jsqmd.com/news/244857/

相关文章:

  • 【Java线程安全实战】11 深入线程池的5种创建方式:FixedThreadPool vs CachedThreadPool vs ScheduledThreadPool
  • Python_uniapp-心理健康测评服务微信小程序的设计与实现
  • 【Spring AI Alibaba】⑦ 为什么 Spring AI Alibaba 选择用提示词而非代码?揭秘框架设计背后的工程智慧
  • Python_uniapp-心理咨询服务平台微信小程序的设计与实现
  • 基于霜冰优化算法改进DBSCAN聚类附Matlab代码
  • Python_uniapp-新冠疫苗预约小程序
  • 对比学习搞定乡村儿科影像诊断
  • Spring Boot 封神之路:从基础到架构,一篇吃透所有核心知识点
  • 【奖励到账】CSDN AI 社区镜像创作激励活动第二批奖励正式发放!
  • AI原生应用领域实体识别的分布式计算实现
  • 语音识别IC分类,语音识别芯片的工作原理
  • Halcon 开运算 获取网格线中的横线和竖线
  • Python_uniapp-校园二手交易平台小程序 卖家
  • 【精品资料鉴赏】咨询顾问咨询公司管理咨询方法论业务流程优化再造咨询顾问能力培训提升【建议收藏】
  • python基于flask框架的企业办公OA系统设计与开发
  • CMamke使用小结
  • 线控转向失效下的容错差动转向控制探索
  • python基于flask框架的企业员工绩效工资管理系统设计与实现
  • 架构设计 5 大核心要素
  • python基于flask框架的数学课程测试考试系统
  • DeepSeek R1技术全书:86页详解大模型训练管线,附完整复现指南
  • ADALM2000 观察导航信号以及传感器特性
  • python基于flask框架的旅社旅游团报名管理系统的设计与实现
  • Qt源码EQ曲线升级版:代码精良,注释详尽
  • python基于flask框架的校园兼职系统的设计与实现
  • python基于flask框架的美食商城交流平台的设计与实现
  • TimesFM:Meta推出的下一代时序预测大模型技术解析
  • DeepSeek V4即将发布:AI不是泡沫,是普通人进阶的梯子!建议收藏
  • python基于flask框架的校园篮球联赛信息管理系统设计与实现
  • 2026大模型的趋势是什么?ChatGPT vs Gemini:两大AI巨头的不同发展路径与技术展望