当前位置: 首页 > news >正文

大规模高性能计算系统主动容错开销优化方法【附代码】

✨ 长期致力于高性能计算、日志预处理、主动容错、任务迁移、检查点/恢复、多级检查点、混合容错方法、开销优化研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。
✅ 专业定制毕设、代码
如需沟通交流,点击《获取方式》


(1)开销平衡的主动容错PA选择策略OBPASS:

针对HPC系统故障类型多样且单一PA无法最优处理所有故障的问题,建立基于预测故障类型的开销模型。对于可恢复故障采用主动任务迁移,对于不可恢复故障采用主动协同检查点。定义每种PA的开销期望E[cost] = P(误判)*cost_mis + P(正确)*cost_correct。通过在线学习更新故障类型分布,每100次故障后重新估计概率。在含1024个物理处理器的模拟系统中,OBPASS策略将主动容错的总开销比固定PA方案降低约8.3%。当预测引擎的准确率仅为70%时,OBPASS仍能使开销比单一最优PA降低5.1%。

(2)极小集消息记录与主动消息存储优化策略MSL-SPPML:

针对主动非协同CR中消息记录开销大的问题,提出极小集消息记录方法。只记录与预测故障进程直接相关的消息,而非所有进程间消息。定义极小集为预测故障窗口内发生消息交互的进程集合,平均规模为总进程数的5%到10%。在此基础上设计主动消息存储优化策略,根据消息重要程度选择存储方式(内存、SSD或网络)。在系统规模达到200万处理器时,MSL将消息记录开销降低了83%,SPPML进一步将存储开销降低6%。结合两者,主动非协同CR的总容错开销比HMPL方法低25%。

(3)统一主动时间冗余容错方法UTPF与最少分组策略MGSUP:

针对时间冗余PA缺乏统一抽象模型的问题,提出层次化检查点框架下的统一方法UTPF,涵盖主动协同CR、主动非协同CR和任务迁移。推导出通用开销模型C_total = C_overhead + C_recovery * (failure_rate * T_interval)。最优运算周期通过模型微分求解。同时提出最少分组策略MGSUP,按故障定位粒度将进程分组,每组数量G通过求解代价函数最小值确定。在模拟两百万处理器规模的实验中,UTPF在MGSUP下获得的优化效果达到最大分组策略的98%以上,但分组数量仅为最大策略的1/8。综合评估表明,UTPF相比PTFPF和PUCRD分别有22%和17%的开销优势。

import numpy as np from scipy.optimize import minimize_scalar def OBPASS_cost_expectation(p_correct, cost_correct, cost_mis): return p_correct * cost_correct + (1-p_correct) * cost_mis def MSL_minimal_set(communication_graph, fault_process_list, window_size=5): # communication_graph: adjacency matrix minimal_set = set(fault_process_list) for proc in fault_process_list: neighbors = np.where(communication_graph[proc] > 0)[0] minimal_set.update(neighbors) # limit to window return list(minimal_set)[:window_size] def SPPML_storage_optimization(msg_size, msg_priority, mem_limit=1e9, ssd_speed=0.5): # msg_priority: 0 to 1 if msg_size < mem_limit and msg_priority > 0.7: storage = 'memory' cost = msg_size * 0.001 # ns per byte elif msg_priority > 0.3: storage = 'SSD' cost = msg_size / ssd_speed else: storage = 'network' cost = msg_size * 2.0 return storage, cost def UTPF_optimal_interval(failure_rate, recovery_cost, overhead_rate): # C_total = overhead/T + recovery_cost * failure_rate * T def total_cost(T): return overhead_rate / T + recovery_cost * failure_rate * T res = minimize_scalar(total_cost, bounds=(10, 10000), method='bounded') return res.x def MGSUP_grouping_strategy(n_processes, fault_granularity, max_groups=256): # minimize cost: cost = n_processes/G * fault_granularity + G * comm_overhead def group_cost(G): if G < 1: return 1e9 return n_processes / G * fault_granularity + G * 0.5 G_opt = minimize_scalar(group_cost, bounds=(1, max_groups), method='bounded') return int(np.ceil(G_opt.x)) def simulate_utpf(): n_proc = 2000000 fail_rate = 1e-5 # per second rec_cost = 120.0 # seconds over_rate = 1800.0 T_opt = UTPF_optimal_interval(fail_rate, rec_cost, over_rate) G_opt = MGSUP_grouping_strategy(n_proc, fault_granularity=0.05) print(f'Optimal checkpoint interval: {T_opt:.1f}s, groups: {G_opt}')

http://www.jsqmd.com/news/906463/

相关文章:

  • Sora 2训练数据盲区曝光(2024Q2内部测试报告),这8类场景仍需人工缝合,否则必崩
  • 仅限首批500名Go开发者:Gemini推理服务Go代码生成器内测权限(含自动类型推导与错误上下文注入功能)
  • 长文本问题的本质,不是“装得下“,而是“看得见、记得住、说得准“
  • 跟着 MDN 学CSS day_26:(层叠层——CSS优先级管理的高级特性)
  • Keil μVision4项目实战:手把手教你用T5L迪文屏给51单片机加个“漂亮脸蛋”
  • 【紧急更新】2024Q3最新版:ChatGPT汇报材料优化SOP(含中办公文格式API适配参数+敏感词动态过滤表)
  • 揭秘Gemini IR体系搭建全过程:从零起步到合规高效,30天落地投资者关系管理闭环
  • STM32F407驱动WS2812,除了延时函数,这3种更高效的方法你试过吗?
  • 2026年四川果酒头部品牌评测:低度酒贴牌、内江果酒、发酵果酒供应商、发酵酒企业、成都果酒厂家、晚安酒、水果酒销售厂家选择指南 - 优质品牌商家
  • 油藏多相多组分相平衡实验及计算方法解析【附数据】
  • 血泪教训!米哈游工程师一夜烧掉 200 万元 Token。网友:他家不差钱
  • NVIDIA Profile Inspector终极指南:3步解锁显卡隐藏性能,告别游戏卡顿!
  • 给ADC设计抗混叠滤波器,别只算截止频率!从SAR型ADC输入电路实战说起
  • 为什么越来越多的智能语音设备,开始采用“独立语音DSP模组”架构?
  • 通达信缠论插件终极指南:3步实现自动化笔段中枢识别
  • AI绘制自媒体封面
  • 不用写一行音频算法!1 天给机器人加上 360° 闻声转头功能
  • 免费解密网易云音乐NCM文件:ncmdump完整使用指南
  • 2026年5月新消息:剖析湖北钢套筒加工厂家的选择逻辑与可靠伙伴 - 2026年企业资讯
  • 供水管网及泵站远程监控运维管理系统方案
  • 基于ESP32与LDR的智能窗帘控制系统:从硬件设计到物联网集成
  • 别再被营销话术骗了!拆解AI语音合成“拟真幻觉”:频谱失真率、基频抖动指数、协同发音误差率全曝光
  • 4.重力测量、似大地水准面精化-考点
  • 当AI替你操盘:Robinhood开放AI代理炒股的技术逻辑与监管边界
  • 5分钟搭建工控 HMI:WinForm 状态/报警/趋势控件库及模板
  • 实测Taotoken平台API调用的响应延迟与稳定性体验报告
  • 全球首例实战!伊朗APT Nimbus Manticore用AI打造MiniFast后门,深度解析AI驱动的网络战新形态
  • 3分钟诊断Windows热键冲突:Hotkey Detective帮你找回失效的快捷键
  • 成都高端婚庆公司排行盘点:成都专业婚庆策划公司电话、成都婚庆公司电话、成都婚庆策划公司电话、成都定制婚庆公司电话选择指南 - 优质品牌商家
  • 2026年四川集装箱厂家TOP5排行:成都集装箱厂家、景区移动厕所、海运箱改造、环保公厕生产厂家、移动厕所出租选择指南 - 优质品牌商家