决定 GPU 显存命运的那行 C++ 代码:写时复制(CoW)如何拯救大模型推理吞吐?
先看一段代码:这是 Linux 内核,还是 GPU 推理引擎?
我们从一段控制流开始。先别管它出自哪里,你只看逻辑:
# 往最后一个块里追加一个新元素last_block=block_table[-1]iflast_block.ref_count==1:# 没人跟我共享这块,直接原地写append_in_place(last_block)我们从一段控制流开始。先别管它出自哪里,你只看逻辑:
# 往最后一个块里追加一个新元素last_block=block_table[-1]iflast_block.ref_count==1:# 没人跟我共享这块,直接原地写append_in_place(last_block)