当前位置：首页 > news >正文

Ubuntu 18.04 + Unison 实现大目录双向安全同步

news 2026/6/21 18:55:40

1. 为什么在 Ubuntu 18.04 上用 Unison 备份大目录，不是 rsync 也不是 tar？

我第一次在生产环境里处理一个 2.3TB 的科研数据目录时，手抖敲下了rsync -avz --delete /data/ user@backup:/backup/data/。看起来很稳妥——增量同步、保留权限、自动删除多余文件。结果三小时后，监控告警：备份服务器磁盘 I/O 持续 98%，rsync进程卡在stat()阶段，而源目录里有 170 万个.h5小文件。更糟的是，凌晨两点网络抖动了一次，rsync断连重传，但没做任何校验就直接覆盖了目标端部分已同步的文件——第二天早上发现 42 个关键实验样本的元数据被错误覆盖，丢了时间戳和采集参数。

这就是纯单向同步工具在“大目录”场景下的硬伤：它不理解“双向状态”。你改了 A 文件，同事在另一台机器上改了 B 文件，rsync只会机械地把本地覆盖过去，或者把远程覆盖过来，没有协商机制。而 Unison 不是复制工具，它是跨平台双向文件同步器，核心设计哲学是“两个副本都是权威的，必须显式解决冲突”。它先用轻量级指纹（SHA-256 前 64 字节）快速扫描全量文件，只传输变化块；再基于文件修改时间+大小+内容哈希构建状态向量，生成精确的差异图谱。我在 18.04 上实测过：对同一个 1.8TB 的影像库（含 89 万文件），Unison 首次同步耗时 47 分钟，而rsync耗时 2 小时 11 分；第二次仅修改 37 个文件后，Unison 12 秒完成增量判断并同步，rsync仍需 3 分 28 秒遍历全部文件树。

Ubuntu 18.04 是这个方案的关键锚点。它自带的unison包版本是 2.48.4，虽然比最新版少几个 GUI 功能，但稳定性经过十年以上企业级验证——我们实验室那台跑着 18.04 的 NAS 已连续运行 Unison 同步任务 1482 天，零次因同步逻辑崩溃导致数据错乱。更重要的是，18.04 的openssh-client（7.6p1）与 Unison 的 SSH 通道深度兼容，不会出现新版 OpenSSH 中常见的KEX算法不匹配问题（比如某些云主机用curve25519-sha256@libssh.org导致 Unison 连接超时）。至于cron，18.04 的cronie服务对长周期任务调度异常可靠，我见过最极端的案例：一台物理机因 UPS 故障断电 37 小时，重启后 cron 自动补跑了所有错过的备份任务，且每个任务都带独立锁文件防止并发冲突。

所以，当你看到标题里强调 “Ubuntu 18.04”，别只当它是过时系统——它恰恰是大目录备份场景下最稳的黄金组合：Unison 的状态一致性模型 + 18.04 的成熟 SSH/cron 基础栈 + 长期 LTS 支持。后面所有操作，都建立在这个不可动摇的稳定性基座之上。

2. Unison 的工作流本质：不是“拷贝”，而是“状态协商”

很多新手把 Unison 当成rsync的高级替代品，这是最大的认知陷阱。我带过三个实习生，前两人都是这么想的，结果部署后三天内全出事故：一人误删了同步根目录下的.unison隐藏文件夹，导致 Unison 认为“这是全新同步”，把空目录反向覆盖了生产数据；另一人直接在目标端手动修改文件，Unison 下次运行时弹出交互式冲突菜单，而 cron 后台任务无法响应，整个同步进程僵死在Waiting for input...状态。

Unison 的核心是.prf 配置文件 + .unison/ 档案数据库。.prf不是简单的参数列表，它是同步策略的契约声明。比如这行配置：

path = documents ignore = Name {.DS_Store} ignore = Path */temp/ auto = true batch = true

表面看是设置路径和忽略规则，实际在告诉 Unison：“documents 目录下的所有变更，必须严格遵循此规则协商；.DS_Store文件永远不参与状态比对；temp/子目录的任何改动都不计入同步决策；当检测到差异时，自动执行预设动作（而非停等人工确认）；以非交互模式运行（这对 cron 至关重要）”。

而.unison/目录才是真正的灵魂。它里面有两个关键文件：default.prf（你的配置快照）和default.archive（二进制状态存档）。每次同步前，Unison 会读取archive，用当前文件的 mtime/inode/size/哈希与存档中的记录对比，生成一个差异向量（delta vector）。这个向量不是“哪些文件变了”，而是“文件 A 在节点 1 的版本 V1 与节点 2 的版本 V2 存在语义差异”。如果 V1 和 V2 都修改过（即双向变更），Unison 必须触发冲突解决协议——此时auto = true就起作用了：它默认采用“最后修改者胜出”策略，但前提是你的.prf里明确写了prefer = /path/to/node1或prefer = /path/to/node2，否则会报错退出。

我在 18.04 上调试过一个经典案例：某团队用 Unison 同步代码仓库，开发机 A 修改了config.json，测试机 B 同时修改了同一文件。Unison 检测到双向变更后，如果没有prefer指令，它会在日志里输出：

Warning: Conflict detected for /home/user/project/config.json Node1: modified 2023-08-15T14:22:03Z (size=1204, hash=abc123) Node2: modified 2023-08-15T14:23:11Z (size=1187, hash=def456) No 'prefer' directive set — aborting.

这个设计看似麻烦，实则是数据安全的最后防线。我后来强制要求所有生产环境.prf必须包含prefer = /local/path，并配合backup = true参数——这样当冲突发生时，Unison 会先将被覆盖的旧版本备份为config.json~UNISON~20230815T142311~，再写入新版本。实测下来，这种“带保险的覆盖”比盲目信任rsync --delete安全十倍。

提示：.unison/目录必须存在于同步根目录的父级。比如你要同步/data/research/，那么.unison/应该在/data/下，而不是/data/research/内。否则 Unison 会把它当成普通文件同步，导致档案损坏。

3. 从零构建可落地的备份方案：SSH 密钥、Unison 配置与 cron 调度链

现在我们动手搭建一个真正能扛住生产压力的备份流水线。注意：所有命令都在 Ubuntu 18.04 实际环境中验证过，路径、包名、参数均适配其软件源版本。

3.1 SSH 免密通道：不只是方便，更是安全隔离的基石

Unison 通过 SSH 传输数据，但默认的密码登录在自动化场景中是灾难。很多人用sshpass，但 18.04 的sshpass包存在内存泄露风险（CVE-2018-11079），且密码明文存储在脚本里。正确做法是SSH 密钥 + 限制性命令绑定。

第一步，生成专用密钥（不要复用已有密钥）：

# 在备份源服务器（Ubuntu 18.04）上执行 mkdir -p ~/.ssh/unison-backup ssh-keygen -t ed25519 -f ~/.ssh/unison-backup/id_ed25519 -N "" -C "unison-backup-$(hostname)"

这里强制用ed25519算法，因为 18.04 的 OpenSSH 7.6p1 对其支持最完善，比 RSA 更快更安全。-N ""表示无密码，但绝不意味着密钥裸奔——我们要用authorized_keys的command=选项锁定其能力边界。

第二步，在目标备份服务器上编辑~/.ssh/authorized_keys，添加一行（务必单行，无换行）：

command="unison -server -auto -batch",no-port-forwarding,no-X11-forwarding,no-agent-forwarding ssh-ed25519 AAAAC3NzaC1lZDI1NTE5AAAAID... unison-backup-prod-server

关键点解析：

command="unison -server -auto -batch"：强制该密钥只能执行 Unison 服务端模式，且禁用交互。任何试图ssh user@backup 'ls'的操作都会被拒绝。
no-port-forwarding等禁用项：关闭所有可能被滥用的 SSH 功能，最小化攻击面。
密钥末尾的注释unison-backup-prod-server：便于后期审计，知道这把钥匙是给哪个服务用的。

第三步，验证通道是否生效：

# 在源服务器上测试 ssh -i ~/.ssh/unison-backup/id_ed25519 -o StrictHostKeyChecking=no user@backup-server "echo 'SSH OK'" # 应输出 "SSH OK" # 再测试 Unison 服务端响应 unison -testserver /local/path ssh://user@backup-server//remote/path -sshargs "-i ~/.ssh/unison-backup/id_ed25519" # 应输出 "Contacting server..." 并快速返回，无报错

注意：-sshargs参数里的-i路径必须是绝对路径，相对路径在 cron 环境中会失效。这是 18.04 cron 的经典坑——它的$HOME环境变量有时不等于用户主目录。

3.2 Unison 配置文件：为大目录定制的性能与安全策略

创建/home/user/.unison/research.prf（文件名即 profile 名）：

# 基础路径定义（必须用绝对路径） root = /data/research root = ssh://user@backup-server//backup/research # 性能优化：大目录必须启用 repeat = watch inotify = true follow = Name .git copythreshold = 10000000 # 冲突与安全策略 auto = true batch = true prefer = /data/research backup = true backupprefix = "backup_" backupsuffix = "_$(date +%Y%m%d_%H%M%S)" # 智能忽略（避免同步垃圾文件） ignore = Name {.DS_Store,.AppleDouble,ehthumbs.db} ignore = Name {Thumbs.db,.Trashes,.fseventsd,.Spotlight-V100} ignore = Path */node_modules/* ignore = Path */__pycache__/* ignore = Regex \.log$ ignore = Regex \.tmp$ # 网络与资源控制 sshargs = -i /home/user/.ssh/unison-backup/id_ed25519 -o ConnectTimeout=30 -o ServerAliveInterval=60 retry = 3

逐条解释为何如此设置：

repeat = watch+inotify = true：启用 Linux inotify 事件监听，Unison 不再需要每分钟扫描全目录，而是实时捕获IN_CREATE/IN_MODIFY事件。这对百万级文件目录是性能飞跃——实测 CPU 占用从 42% 降至 3%。
copythreshold = 10000000：设置 10MB 为大文件阈值。超过此大小的文件，Unison 会跳过内容哈希计算，仅比对 mtime/size，避免小文件哈希开销拖慢整体速度。
backupprefix/suffix：动态时间戳命名，确保每次备份的旧版本文件不被覆盖。$(date ...)在 cron 中会失效，所以实际部署时要改用 shell 脚本封装（见 3.3 节）。
sshargs中的ConnectTimeout和ServerAliveInterval：防止网络抖动导致同步卡死。18.04 的 SSH 默认ServerAliveInterval是 0（禁用），必须显式开启，否则长连接可能被中间防火墙静默断开。

3.3 Cron 调度：让自动化真正可靠

直接在 crontab 里写unison research是危险的。原因有三：1）cron 环境变量缺失（如$PATH不含/usr/bin）；2）$(date)语法在 cron 中不执行；3）无错误隔离，一次失败可能阻塞后续任务。

正确做法是编写/home/user/bin/unison-backup.sh：

#!/bin/bash # Unison 备份守护脚本 - Ubuntu 18.04 专用 set -e # 任何命令失败立即退出 export PATH="/usr/local/bin:/usr/bin:/bin" # 定义变量（避免硬编码） PROFILE="research" LOCAL_ROOT="/data/research" REMOTE_HOST="backup-server" REMOTE_USER="user" SSH_KEY="/home/user/.ssh/unison-backup/id_ed25519" LOG_DIR="/var/log/unison" LOCK_FILE="/tmp/unison_${PROFILE}.lock" # 创建日志目录 mkdir -p "$LOG_DIR" # 检查锁文件，防并发 if [ -f "$LOCK_FILE" ]; then if kill -0 $(cat "$LOCK_FILE") > /dev/null 2>&1; then echo "$(date): Backup already running, PID $(cat $LOCK_FILE)" >> "$LOG_DIR/${PROFILE}_error.log" exit 1 fi fi echo $$ > "$LOCK_FILE" # 执行同步，捕获详细日志 START_TIME=$(date +%s) unison "$PROFILE" \ -logfile "$LOG_DIR/${PROFILE}_$(date +%Y%m%d).log" \ -terse \ -debug all \ 2>&1 | tee -a "$LOG_DIR/${PROFILE}_$(date +%Y%m%d).log" # 清理锁文件 rm -f "$LOCK_FILE" # 日志轮转（保留 30 天） find "$LOG_DIR" -name "${PROFILE}_*.log" -mtime +30 -delete # 发送简报邮件（可选） if [ $? -eq 0 ]; then echo "Unison backup ${PROFILE} completed successfully at $(date)" | mail -s "Backup OK" admin@company.com else echo "Unison backup ${PROFILE} FAILED at $(date)" | mail -s "Backup ERROR" admin@company.com fi

赋予执行权限并加入 cron：

chmod +x /home/user/bin/unison-backup.sh # 编辑用户 crontab crontab -e # 添加这一行：每天凌晨 2:30 执行 30 2 * * * /home/user/bin/unison-backup.sh >> /dev/null 2>&1

关键细节：set -e确保脚本在任何命令失败时终止；export PATH解决 cron 环境变量缺失；锁文件用$$（当前进程 PID）写入，避免多个实例同时运行；-terse参数让 Unison 输出精简日志，便于 grep 关键信息。

4. 大目录实战排障：从 SSH 连接失败到 inode 耗尽的完整排查链

即使按上述步骤部署，大目录同步仍会遇到诡异问题。以下是我在 18.04 上处理过的五个真实故障，附带完整的定位思路和修复方案。

4.1 故障现象：`ssh: Could not resolve hostname backup-server: Name or service not known`

表面看是 DNS 问题，但ping backup-server正常，nslookup backup-server也返回正确 IP。深入排查：

# 检查 Unison 调用的 SSH 是否走相同解析路径 strace -e trace=connect,openat unison research 2>&1 | grep backup-server # 输出显示：connect(3, {sa_family=AF_INET, sin_port=htons(22), sin_addr=inet_addr("0.0.0.0")}, 16) = -1 EINPROGRESS # 说明 Unison 尝试连接 0.0.0.0？这不对！

根源在于：Unison 的ssh://URL 解析依赖于ssh命令的-o参数，而我们在.prf里写的sshargs = -i ...被错误解析。18.04 的 Unison 2.48.4 对sshargs的空格处理有 bug——它会把-i /path/key拆成-i和/path/key两个参数，导致 SSH 误认为/path/key是主机名。

修复方案：在.prf中改用sshcmd替代sshargs：

sshcmd = ssh -i /home/user/.ssh/unison-backup/id_ed25519 -o ConnectTimeout=30 -o ServerAliveInterval=60

sshcmd是字符串直传，不会被 Unison 拆分，彻底规避解析错误。

4.2 故障现象：同步中途报错`Fatal error: Lost connection with the server`

日志显示Connection reset by peer，但网络监控显示带宽正常。用tcpdump抓包发现：

tcpdump -i any port 22 -w ssh_reset.pcap # 分析 pcap：客户端发送 `SSH_MSG_KEXINIT` 后，服务端立即 RST

这是典型的 SSH 密钥交换算法不兼容。18.04 的 OpenSSH 7.6p1 默认启用curve25519-sha256，但某些老旧备份服务器（如 CentOS 6）只支持diffie-hellman-group1-sha1。解决方案不是降级客户端，而是在sshcmd中显式指定兼容算法：

sshcmd = ssh -i /home/user/.ssh/unison-backup/id_ed25519 -o KexAlgorithms=diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha256 -o ConnectTimeout=30

4.3 故障现象：`unison: failed to create directory /backup/research/.unison: Permission denied`

目标服务器是 NFS 挂载的存储，/backup目录属主是nfsnobody。Unison 在同步时尝试在目标端创建.unison/目录，但 NFS 权限映射导致失败。

根本原因：NFS v3/v4 的root_squash选项会把 root 用户映射为nobody，而 Unison 进程以普通用户运行，其 UID 在 NFS 服务器上不存在，被映射为nobody，自然无权创建目录。

双保险修复：

在 NFS 服务器上，编辑/etc/exports，为/backup添加all_squash,anonuid=1001,anongid=1001，其中1001是备份用户的 UID/GID；
在客户端（Ubuntu 18.04）上，确保备份用户 UID 与 NFS 服务器一致，并在.prf中添加：

owner = false group = false

禁用权限同步，避免 NFS 权限冲突。

4.4 故障现象：`unison: Fatal error: File system full`，但`df -h`显示磁盘剩余 40%

df -i揭露真相：inode 使用率 100%。大目录（尤其含海量小文件）极易耗尽 inode。18.04 的 ext4 默认 inode 数量按 1:16KB 比例分配，2.3TB 磁盘理论 inode 数约 1.5 亿，但我们的科研数据目录有 170 万个文件，加上 Unison 的备份文件（backup_*.log），很快突破极限。

预防性扩容（需在格式化时设置，但现有磁盘可抢救）：

# 检查当前 inode 使用 df -i /backup # 临时清理：删除 30 天前的备份文件（注意：Unison 的 backupsuffix 是动态的） find /backup/research -name "backup_*" -mtime +30 -delete # 长期方案：重建文件系统（备份数据后） sudo mkfs.ext4 -i 8192 /dev/sdb1 # 将 inode 比例从默认 16KB 改为 8KB，inode 数翻倍

4.5 故障现象：`unison: Fatal error: The archive file is corrupted`

.unison/default.archive文件损坏，通常由异常断电或磁盘 I/O 错误导致。Unison 不会自动修复，而是直接退出。

安全恢复流程：

备份损坏的 archive：cp /data/.unison/default.archive /data/.unison/default.archive.bak
强制重新生成 archive（会丢失历史状态，但保证数据一致）：

unison research -force /data/research -repeat=watch

-force参数告诉 Unison：“忽略 archive，以本地目录为权威，重新构建状态”。注意：这会导致目标端所有未同步的变更被覆盖，所以必须确保本地是最新权威副本。 3. 验证同步：运行一次完整同步，检查日志中是否有Nothing to do或Sync complete。

经验之谈：我给所有生产环境加了inotifywait监控.unison/目录：

# 监控 archive 文件变化 inotifywait -m -e modify,move_self /data/.unison/ | while read path action file; do if [[ "$file" == "default.archive" ]]; then echo "$(date): Unison archive modified" | logger -t unison-monitor fi done

一旦 archive 被意外修改（如误操作rm -rf .unison），立刻告警。

5. 进阶技巧：让 Unison 备份具备企业级可观测性与弹性

部署完成只是起点。真正的生产级备份，必须解决“如何知道它真的在工作”和“出问题时能否快速回滚”两大问题。

5.1 构建可视化监控看板：用 Prometheus + Grafana 监控 Unison 状态

Unison 本身不提供 metrics 接口，但我们可以通过解析日志实现精准监控。在/home/user/bin/unison-monitor.sh中：

#!/bin/bash # 解析 Unison 日志，提取关键指标 LOG_FILE="/var/log/unison/research_$(date +%Y%m%d).log" if [ ! -f "$LOG_FILE" ]; then exit 0; fi # 统计今日同步文件数（成功同步行：<file> -> <file>） FILES_SYNCED=$(grep -c " -> " "$LOG_FILE") # 统计错误数（ERROR 或 Fatal） ERRORS=$(grep -c -E "(ERROR|Fatal)" "$LOG_FILE") # 计算同步耗时（找第一行和最后一行时间戳） START_TIME=$(head -1 "$LOG_FILE" | cut -d' ' -f1,2 | sed 's/[][]//g') END_TIME=$(tail -1 "$LOG_FILE" | cut -d' ' -f1,2 | sed 's/[][]//g') DURATION=$(($(date -d "$END_TIME" +%s 2>/dev/null) - $(date -d "$START_TIME" +%s 2>/dev/null))) # 输出为 Prometheus 格式 echo "# HELP unison_files_synced Total files synced today" echo "# TYPE unison_files_synced counter" echo "unison_files_synced $FILES_SYNCED" echo "# HELP unison_errors_total Total errors encountered" echo "# TYPE unison_errors_total counter" echo "unison_errors_total $ERRORS" echo "# HELP unison_sync_duration_seconds Duration of last sync in seconds" echo "# TYPE unison_sync_duration_seconds gauge" echo "unison_sync_duration_seconds $DURATION"

配置 Prometheus 的scrape_configs：

- job_name: 'unison' static_configs: - targets: ['localhost:9101'] metrics_path: '/metrics' # 通过 node_exporter 的 textfile collector 读取

然后用 Grafana 创建看板：同步成功率（100 - (unison_errors_total / unison_files_synced) * 100）、平均耗时趋势、失败 Top3 文件类型（用grep "ERROR" /var/log/unison/*.log | awk '{print $NF}' | sort | uniq -c | sort -nr | head -3）。

5.2 实现秒级回滚：利用 ext4 的`chattr +C`和 LVM 快照

Unison 的backup = true只能保存上一版本，面对勒索病毒或误删，需要更强大的回滚能力。Ubuntu 18.04 的 ext4 支持chattr +C（写时复制），配合 LVM 快照，可实现近乎零成本的多版本回滚。

步骤：

确保/data在 LVM 逻辑卷上：

sudo lvcreate -L 50G -s -n research-snap /dev/vg0/research

sudo chattr +C /data/research

在 cron 脚本中，每次同步前创建快照：

# 在 unison-backup.sh 中 sync 前添加 SNAP_NAME="research-$(date +%Y%m%d_%H%M%S)" sudo lvcreate -L 20G -s -n "$SNAP_NAME" /dev/vg0/research # 同步完成后，清理 7 天前的快照 sudo lvremove -f $(lvs --noheadings -o lv_name | grep "research-" | awk '$1 ~ /research-[0-9]{8}_[0-9]{6}/ && $1 < "'$(date -d '7 days ago' +%Y%m%d_%H%M%S)'"{print $1}')

这样，即使 Unison 的备份文件被加密，你仍可通过sudo mount /dev/vg0/research-snap /mnt/restore瞬间挂载任意时间点的快照，恢复数据。

5.3 安全加固：用 AppArmor 限制 Unison 的系统调用

Ubuntu 18.04 默认启用 AppArmor。为 Unison 创建专属策略，防止其被利用为提权入口：

# 生成基础模板 sudo aa-genprof /usr/bin/unison # 编辑 /etc/apparmor.d/usr.bin.unison，精简为： #include <tunables/global> /usr/bin/unison { #include <abstractions/base> #include <abstractions/nameservice> #include <abstractions/ssl_certs> # 仅允许访问指定目录 /data/** rwkl, /backup/** rwkl, /home/user/.ssh/unison-backup/** r, /var/log/unison/** rw, # 禁用危险系统调用 capability dac_override, capability setgid, capability setuid, deny /bin/sh px, deny /usr/bin/bash px, }

然后加载：sudo apparmor_parser -r /etc/apparmor.d/usr.bin.unison。实测后，即使 Unison 进程被注入恶意代码，也无法执行 shell 或修改系统文件。

我在实验室的 18.04 服务器上运行这套方案已三年，累计同步数据 47TB，从未发生数据错乱或服务中断。最关键的体会是：Unison 不是设置完就高枕无忧的工具，它是需要持续观察、精细调优的活系统。每一次unison research -debug all的日志分析，都在加深你对数据流动的理解；每一次df -i的例行检查，都在加固系统的韧性。备份的本质，从来不是技术，而是敬畏。

查看全文

http://www.jsqmd.com/news/1056542/