当前位置: 首页 > news >正文

ceph平台-未及时移除故障osd导致根目录100%问题的故障记录

项目场景:

一个甲方的ceph集群,osd日志拉满导致根目录100%


问题描述

甲方联系说有点问题,远程处理。
首先登陆到控制节点发现根目录满了,检查定位到日志目录,所有osd日志大小几乎一致。
然后检查所有存储节点都有类似问题。
打开日志文件分析原因,下面放三个osd日志的截图



全部在16:57 指向到secret_id:44281


原因分析:

千问的回答

  1. auth: could not find secret_id=44281
    含义:Ceph Monitor(或 OSD)在验证某个客户端身份时,找不到 ID 为 44281 的密钥。
    ✅ 这个 secret_id 是 Ceph 内部生成的唯一标识,用于关联一个实体(如 osd.5)的认证密钥。
  2. cephx: verify_authorizer could not get service secret for service osd secret_id=44281
    含义:使用 cephx 协议验证时,无法获取对应 osd 服务的密钥。
    ❌ 表明:该 OSD 的 keyring 已被删除、损坏,或未正确同步到 MON 数据库。
  3. .accept: got bad authorizer
    含义:连接被拒绝,因为客户端提供的认证票据无效。
    ⚠️ 通常出现在:
    OSD 使用旧密钥尝试连接 MON
    OSD 被删除后仍在运行
    keyring 文件被手动修改或丢失

操作

感觉是坏掉的osd没有及时删除的问题。

第一步: 先处理根目录100%
所有ceph节点的所有osd日志追空

第二步:执行ceph osd命令
ceph命令没有返回,检查mon服务,全死。挨个mon节点重启mon服务

第三步:通过osd相关命令找到坏掉的osd,然后完全删除掉
执行删除命令后,集群进入恢复模式

第四步:观察集群恢复,同时不定期检查osd日志大小,看是否还有异常

forXin{1..14};dosshXX.XXX.X.$X'hostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ';done

第五步:等待集群恢复完毕后,重启所有osd服务

第六步:持续多天检查osd日志大小和集群状态


解决方案:

osd坏了及时换盘,没有的话要及时完全删除掉

http://www.jsqmd.com/news/342708/

相关文章:

  • 2026年白酒厂家权威推荐榜:白酒贴牌定制厂家、纯粮白酒厂家推荐、纯粮食白酒厂家、贴牌白酒生产厂家、酱香白酒厂家批发选择指南 - 优质品牌商家
  • 缓存特工队:深入浏览器内部的秘密仓库
  • JAVA安全基础-CC3链
  • 基于Spring Boot的企业网盘的设计与实现(开题报告)
  • AI漫剧怎么赚钱:教你用AI漫剧创作系统制作自己的动漫短剧使用云微AI短剧创作系统
  • 【Azure 环境】获取Azure上资源的创建时间createdTime信息(ARM REST API版本)
  • MySQL 导入资料详细说明
  • 米尔顿·弗里德曼《实证经济学方法论》解读
  • 汉字才是终极“外挂”!碾压英文的千年智慧,在AI时代彻底封神
  • Airlink 协议库:实现设备无缝互联的通信基石
  • 从单模态到多模态:AI原生审核技术的融合创新
  • 大规模语言模型在科学实验设计优化中的应用
  • 法尔斯新闻社1398年波斯语新闻数据集_29万条_多领域分类_完整文本内容_自然语言处理_文本挖掘_机器学习训练数据
  • 大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货
  • 革新!AI应用架构师引领AI驱动元宇宙教育的创新变革
  • Skills:AI能力封装协议的深度剖析,从原理到商业应用
  • 多智能体协同评估企业创新能力
  • AI Coding时代已来:从“码农“到“架构师“的华丽转身,必看收藏指南!
  • 大模型智能体记忆机制详解:短期记忆与长期记忆如何实现
  • 幻影API聚合管理系统源码基于 PHP+Mysql 进行开发
  • 思维链推理:提升大模型能力的核心技术
  • RAG技术全攻略:从检索增强生成到Agentic RAG实战指南
  • 未来已来:全链路 Agent 工程师将重塑程序员分工体系?深度解析与实战转型指南
  • 大数据 Cassandra 与 Elasticsearch 的整合应用
  • Canvas 画板的实现 2.0:支持放大、缩小
  • 生产者-消费者 TFuture与TPromise
  • 奋飞咨询/奋恒上海:Ecovadis咨询机构选择指南——超越排名的专业评估框架(真实案例照片) - 奋飞咨询ecovadis
  • 基于深度学习的相位图生成与时间序列预测系统
  • claude skills superpowers安装
  • 2026年知名的广州跨境电商财税合规,广州税务申报公司选购参考名录 - 品牌鉴赏师