当前位置：首页 > news >正文

DeepSeek总结的一种带宽高效的压缩基数排序FractalSortCPU

news 2026/5/16 19:59:56

来源：https://github.com/mikdangana/fractalsort_cpu

FractalSortCPU

一种带宽高效的压缩基数排序，在各大平台上均优于最先进的排序算法。

在 16GB 数据集规模下，FractalSortCPU 实现了 0.92 的带宽效率——相比之下，Bonsai 为 0.34，Timsort 为 0.25，PARADIS 为 0.11，HRS/SampleSort 为 0.05。这意味着根据基线不同，带宽利用率提高了 2-18 倍，与先前规模最大的 CPU 结果相比，提升了 6 倍。

论文:FractalSortCPU: 基于 CPU 的带宽高效压缩基数排序 (arXiv:2605.10390v2, 2026 年 5 月)

主要结果

平台	先前最佳工作	FractalSortCPU	提升
CPU	HRS, SampleSort, PARADIS	FractalSortCPU	最高 6 倍
GPU	设备级基数排序	FractalSortCPU	最高 3 倍
FPGA	定制加速器	FractalSortCPU	最高 2.5 倍

已在 16 位精度、512MB 至 32GB 的数据集上得到验证。

关于项目

FractalSort 算法最初为 FPGA/硬件加速器设计，此为 FractalSort 的 CPU 适配版本，旨在将其引入 CPU 以提高可访问性并便于更广泛的实验。它使用直方图合并树索引进行排序和查询/检索，通过将键分解为基于 MSB 的容器，并包含紧凑条目和每批排序运行，实现了比基数排序更低的 DRAM 带宽。

架构

FractalSort 将每个 p 位键分解为两个部分：

key (p bits): ├─ top (ln-lb) bits → bin_id (MSB, 决定属于哪个容器) └─ bottom entry_bits → entry (lb + (p-ln) bits, 每个键存储)

其中ln = ceil(log2(n))，lb控制容器大小，entry_bits = lb + (p - ln)。

对于小精度 (p <= 20)，使用直接直方图模式——不使用容器或分散，只是一个具有O(n + 2^p)重建的计数直方图。

阶段

处理：单次直接分散。对于每个键，从 MSB 提取bin_id，从剩余位提取entry。将entry写入sbatch_mem中该容器对应的区域。键按批次处理，每批为每个容器生成一个排序后的运行。
排序：对每批中每个容器内的entry进行基数排序（对于小型容器也可用插入排序）。排序后的运行被连接起来——不需要全局索引数组。
获取项：在容器计数上通过线段树查找找到目标容器（O(log n_bins)）。通过二分搜索在排序后的运行中进行 K 路选择，以找到目标排名位置的entry。将键重建为(bin_id << entry_bits) | entry。
全部重建：对所有容器中的排序后运行进行 K 路合并，以生成完整的排序输出。

最优`lb`选择

lb参数控制容器数量和条目大小之间的权衡。

规则	容器数	使用场景
`lb = e - 10`	1024	当`e <= 20`时的默认值
`lb = e - 6`	64	当`e > 20`时的默认值，容器数更少

要求

Python 3.8+
NumPy
Numba

pipinstallnumpy numba

使用方法

排序和访问

fromfractalsort_cpuimportfractalsortimportnumpyasnp# 生成随机的 32 位键keys=np.random.randint(0,2**32,size=1_000_000,dtype=np.uint32)# 排序 (首次调用包含 JIT 编译)result=fractalsort(keys,p=32,lb=12)# 按位置访问排序后的键smallest=result[0]largest=result[-1]median=result[len(result)//2]# 重建所有排序后的键sorted_keys=result.reconstruct_all()assertnp.array_equal(sorted_keys,np.sort(keys))

参数

result=fractalsort(keys,# uint32 类型的键数组p=32,# 键的精度（位数）lb=None,# log2(容器大小), 默认值: e-10 (当 e<=20) 或 e-6 (当 e>20)n_batches=4,# 处理批次 (用于流式处理))

结果对象

result.get_item(position)# 点查询: O(log bins + k*log(bin_size))result[i]# 通过 __getitem__ 实现相同功能result[10:20]# 切片访问len(result)# 键的总数result.reconstruct_all()# 按排序顺序返回所有键

内部数组（供高级使用）

result.sbatch_mem# 条目数组 (每个容器的区域，排序后的运行)result.bin_counts# 每个容器的条目数result.bin_cumulative# 每个容器的累积起始位置result.batch_boundaries# [n_bins, n_batches+1] 每个容器的每批运行边界result.n_batches# 批次数量result.ln# 树深度result.lb# log2(容器大小)result.entry_bits# 每个条目的位数result.n_bins# 容器数量result.seg_tree# 用于 O(log n_bins) 容器查找的线段树

测试

python test_fractalsort.py[e][lb]

示例:

python test_fractalsort.py# e=18, 自动 lbpython test_fractalsort.py20# e=20, 自动 lbpython test_fractalsort.py2012# e=20, lb=12

性能

吞吐量 (单核, Numba JIT, p=32)

数据集	n	FractalSort (百万键/秒)	基数排序 (百万键/秒)	加速比
1 MB	262K	124	57	2.2 倍
16 MB	4.2M	76	59	1.3 倍
64 MB	16.8M	98	67	1.5 倍
256 MB	67.1M	122	71	1.7 倍
4 GB	1.07B	78	43	1.8 倍

在这个单核 Python/Numba 配置中，FractalSortCPU 在所有数据集大小上均更快。其带宽效率优势在更大规模下进一步增长——有关高达 32GB 的完整多平台基准测试，请参阅论文。

复现基准测试

pipinstallnumpy numba python bench_frmw_io.py

许可证

MIT——详见 LICENSE 文件。

查看全文

http://www.jsqmd.com/news/830185/

3个技巧让你的技术文档阅读体验提升300%：Markdown Viewer深度指南

如何高效配置Cool Request插件：Spring Boot接口调试的终极实践指南

平台用量看板如何帮助开发者清晰掌握各模型消耗明细

杰理之拔卡死机【篇】

用OpenCV3和C++搞定单目相机测距：从棋盘格标定到solvePnP实战避坑

小米手表表盘设计神器Mi-Create：3步打造你的专属智能穿戴界面

Python流程控制：break与continue语句的区别与应用

阿里财报：AI商业化兑现，投入回报初显，窗口期内能否构建规模飞轮？

DIY无线跳舞毯：基于蓝牙HID协议打造低成本体感游戏控制器

我给我的家政CRM配了两个PostgreSQL，聊聊双库架构的真实账本

5个Whisky替代方案终极指南：当你的macOS Windows应用管理器停止更新后该怎么办？

防水RJ45连接器选型实战：IP67/IP68等级、全牙结构、屏蔽接地与工业户外部署全解析

如何实现抖音弹幕实时抓取：基于系统代理的技术突破指南

手把手教你模拟登录豆瓣并爬取个人书影音数据：从Cookie解析到反爬攻防实战

如何用自然语言控制你的电脑：UI-TARS-desktop终极AI桌面助手指南

面向医疗对话系统的症状推理与问诊策略，从“你哪里不舒服”到精准推断：医疗对话系统中的症状推理与动态问诊策略

云尖信息分布式存储解决方案：释放AI算力潜能，构筑高效数据底座

【技术解析】从总线到片上网络：互联网络的核心原理与设计权衡

KMS智能激活脚本：Windows和Office的一站式解决方案

算法设计三大经典策略：贪心 / 分治 / 动态规划详解与实战

Hermes Agent框架接入Taotoken自定义供应商的配置要点详解

谷歌 AI 战略多维度推进：Gemini 更新、智能代理与创意 AI 齐头并进

开源AI代码助手本地化部署：从Cursor10x看私有化编程助手实践

专业的PLM系统生产厂家

基于深度学习的苹果产量预测的系统设计与实现

【WinForm UI控件系列】ComboTreeView下拉树选择控件

知乎API开发指南：5分钟掌握Python数据采集的完整解决方案

Ragent AI：从 0 到 1 打造企业级 Agentic RAG 智能体

通过curl快速调试stm32项目的大模型api请求与响应格式

新手也能搞定！用Simulink搭建晶闸管直流调速系统（附完整模型文件）