当前位置：首页 > news >正文

MPC7400处理器异常处理、MMU与流水线架构深度解析

news 2026/6/24 20:11:51

1. MPC7400异常处理机制深度解析

在嵌入式系统和实时计算领域，异常处理不仅仅是处理器的一个功能模块，更是系统稳定性的基石。MPC7400作为一款经典的PowerPC架构RISC微处理器，其异常模型设计体现了对可靠性和确定性的极致追求。与一些通用处理器不同，MPC7400的异常处理机制紧密贴合其嵌入式应用场景，尤其是在处理多媒体和数字信号处理（DSP）这类对时序和确定性要求极高的任务时，其设计哲学显得尤为重要。

异常（Exception）在MPC7400的语境中，是一个广义概念，它涵盖了从外部硬件中断（如外部中断、系统管理中断）到内部执行错误（如对齐错误、程序异常）乃至架构定义的特定事件（如系统调用、跟踪异常）。处理器通过一套精密的硬件状态机来响应这些事件，其核心在于如何在不破坏当前执行上下文的前提下，快速、准确地切换到处理程序，并在处理后安全返回。MPC7400的异常模型是精确的（Precise），这意味着当异常发生时，处理器能确保异常指令之前的所有指令都已完成，而其后的指令都未被执行，程序状态是完全可确定的。这对于调试和实时系统的错误恢复至关重要。

1.1 异常向量表与优先级机制

MPC7400采用向量化的异常处理方式。当异常发生时，处理器硬件会自动将程序计数器（PC）跳转到一个固定的内存地址，这个地址称为异常向量偏移量（Vector Offset）。这些向量地址在内存中是按固定间隔（通常是0x100字节）排列的，构成了异常向量表。

根据你提供的资料，MPC7400的部分关键异常向量如下：

系统复位（System Reset）：向量偏移0x00100。这是最高优先级的异常，由硬件复位信号（HRESET/SRESET）或上电触发。它用于系统的初始启动。
机器检查（Machine Check）：向量偏移0x00200。由严重的硬件错误触发，如总线错误（TEA信号）、机器检查引脚（MCP）断言或L2缓存奇偶校验错误。注意：此异常仅在MSR[ME]（Machine Check Enable）位为1时才会被触发。在编写高可靠性系统软件时，必须妥善处理此异常，因为它往往意味着不可恢复的硬件故障。
数据存储中断（DSI）：向量偏移0x00300。这是内存管理相关的最常见异常。当加载（Load）或存储（Store）指令访问内存时，如果发生TLB未命中（即页表项无效）或访问权限违规（如试图写入只读页），便会触发DSI。一个关键细节： MPC7400对lwarx（加载字并保留）和stwcx.（条件存储字）指令有特殊处理。如果这些原子操作指令的目标地址被标记为“直写”（Write-Through）或数据缓存被启用且锁定，执行它们也会导致DSI异常。这要求操作系统在实现锁或信号量时，必须确保相关内存区域的缓存策略是“回写”（Write-Back）且非锁定的。
指令存储中断（ISI）：向量偏移0x00400。当处理器尝试从指令缓存或内存中取指，但发生页错误或保护违规时触发。
外部中断（External Interrupt）：向量偏移0x00500。由外部中断引脚INT的断言触发，但前提是MSR[EE]（External Interrupt Enable）位必须为1。这是设备驱动和实时任务调度的主要入口点。
对齐异常（Alignment）：向量偏移0x00600。当访问未按自然边界对齐的内存时触发。例如，访问一个非字（4字节）对齐的浮点加载/存储操作数、在小端模式下尝试多字/字符串加载存储操作，或对标记为“直写”或“缓存禁止”的内存执行dcbz（数据缓存块清零）指令。

异常是有优先级的。当多个异常条件同时发生时，处理器会根据固定的优先级顺序来处理。通常，复位和机器检查拥有最高优先级，其次是外部中断、DSI/ISI等。这种硬件定义的优先级确保了最紧急的事件能得到最先响应。

1.2 AltiVec技术相关的异常处理

MPC7400集成了强大的AltiVec向量处理单元，这带来了三类特定的异常，它们是与标量指令异常模型并行的扩展：

AltiVec不可用异常（Vector Offset:0x00F20）：这是AltiVec的“门卫”异常。当MSR[VA]（Vector Available）位为0时，任何尝试执行非流式（non-stream）AltiVec指令的操作都会触发此异常。这里有个非常重要的实践细节：流式指令（dst,dstst,dss）不会触发此异常。这意味着操作系统可以在禁用AltiVec（MSR[VA]=0）的情况下，仍然允许DMA引擎等使用流式指令进行大数据块搬移，而不会引起上下文切换开销。此外，VRSAVE寄存器不受此异常保护，软件需自行管理其保存与恢复。
DSI异常（与AltiVec相关）：向量加载或存储操作遇到页错误、保护违规，或试图访问标记为T=1（程序I/O空间）的地址时，会触发标准的DSI异常。这意味着AltiVec的内存访问与标量加载/存储共享同一套MMU和地址转换逻辑，简化了操作系统的内存管理。
AltiVec辅助中断（Vector Offset:0x01600）：这是一个相对特殊的异常，主要用于Java数值模式（Java mode）下的非规格化浮点数（denormalized numbers）处理。当向量浮点指令检测到输入或输出为非规格化数时，在特定模式下会触发此中断，以便软件进行模拟或处理。

实操心得：在移植或开发支持AltiVec的操作系统时，必须正确初始化MSR[VA]位，并妥善设置AltiVec不可用异常的处理程序。通常，处理程序需要保存当前任务的浮点/向量上下文，然后设置MSR[VA]=1并重新执行触发异常的指令。同时，要利用好VRSAVE寄存器来优化上下文切换性能——它用位图记录了哪些向量寄存器被任务使用过，这样在切换时只需保存/恢复用到的寄存器，而不是全部32个。

1.3 异常处理流程与现场保存

当异常发生时，MPC7400硬件会自动执行以下原子操作：

保存机器状态：将异常发生时的指令地址（即下一条本该执行的指令地址）保存到SRR0（Save/Restore Register 0），将MSR的内容保存到SRR1。
更新MSR：根据异常类型，硬件会清除MSR中的某些位（如EE、PR），以进入特定的处理器状态（通常是特权态，并禁用外部中断）。
跳转至向量：将程序计数器（PC）设置为对应的异常向量偏移量，开始执行异常处理程序。

异常处理程序（通常由操作系统内核提供）的责任是：

保存上下文：将通用寄存器（GPR）、浮点寄存器（FPR）、向量寄存器（VR，如果用到）等压入内核栈。
分析原因：通过读取相关寄存器（如DSISR用于DSI异常、DAR用于数据地址）来确定异常的具体原因。
执行处理：例如，DSI处理程序需要进行页表查询（Table Walk），将缺失的页表项加载到TLB中。
恢复上下文并返回：使用rfi（Return From Interrupt）指令从异常返回。rfi会从SRR1恢复MSR，并从SRR0恢复PC，从而返回到被中断的程序流。

注意：在处理机器检查等严重异常时，可能无法安全恢复。此时，处理程序可能需要记录错误信息并触发系统重启。此外，异常处理程序本身必须非常精简且避免可能引发嵌套异常的操作（如访问可能缺页的内存），否则会导致系统崩溃。

2. MPC7400内存管理单元（MMU）架构与实现

内存管理是现代操作系统的核心，它通过虚拟内存机制为每个进程提供独立的、连续的地址空间视图，并实施访问保护。MPC7400的MMU实现完全遵循PowerPC 32位内存管理架构，并针对高性能进行了优化，特别是为了高效支持AltiVec技术所需的大数据量、连续内存访问模式。

2.1 PowerPC 32位内存管理模型概览

MPC7400的MMU主要完成两项核心工作：地址转换和访问保护。它支持一个4GB的虚拟地址空间，采用页式内存管理，页大小固定为4KB，段大小为256MB。地址转换过程可以概括为：将程序产生的32位有效地址（Effective Address, EA），通过段寄存器（Segment Register）和页表（Page Table）的查找，转换为32位的物理地址（Physical Address）。

其地址转换流程包含两级映射：

段映射：利用16个段寄存器（SR0-SR15）中的段标识（VSID）和有效地址的高4位（段索引），将80位的虚拟段标识（Virtual Segment ID）转换为52位的虚拟页号（Virtual Page Number, VPN）的一部分。这一步是PowerPC架构的特色，它减少了在上下文切换时刷新TLB的需要。
页映射：通过哈希页表（Hashed Page Table）将52位的VPN转换为20位的物理页帧号（Real Page Number, RPN）。最终，RPN与有效地址的低12位页内偏移组合，形成32位物理地址。

2.2 块地址转换（BAT）机制

除了标准的页式映射，PowerPC架构还提供了块地址转换（Block Address Translation, BAT）机制。这是一种更粗粒度的映射方式，旨在提升对大型、连续内存区域（如帧缓冲区、内核代码区）的访问性能。MPC7400实现了独立的指令BAT（IBAT）和数据BAT（DBAT）数组，各4个条目。

每个BAT条目可以定义一块从128KB到256MB大小不等的内存区域，并将其直接映射到物理地址。BAT转换的优先级高于页表转换。当有效地址落入某个BAT定义的块内时，MMU将直接使用BAT中存储的物理基地址，绕过复杂的页表查找过程。这在嵌入式实时系统中尤其有用，可以将关键的内核代码、中断向量表或实时数据缓冲区通过BAT进行固定映射，确保其访问具有确定性的低延迟，且不会被TLB未命中打断。

配置示例：假设我们需要将物理地址0x80000000开始的1MB区域（例如，一片SRAM）映射到虚拟地址0xC0000000，并设置为可缓存、可读写。

lis r0, 0xC000 # 加载虚拟地址高16位 (BEPI) ori r0, r0, 0x0002 # 设置块大小为1MB (BL=0b0010)， 并设置Vs、Vp位 lis r3, 0x8000 # 加载物理地址高16位 (BRPN) ori r3, r3, 0x003a # 设置WIMG缓存属性（例如，0x3a代表可缓存、写回等） mtspr DBAT0U, r0 # 设置DBAT0上寄存器 mtspr DBAT0L, r3 # 设置DBAT0下寄存器 isync # 同步指令流，确保BAT生效

通过上述代码，对0xC0000000-0xC00FFFFF区域的访问将直接、快速地映射到物理地址0x80000000-0x800FFFFF。

2.3 哈希页表与TLB管理

对于BAT未覆盖的常规内存区域，MMU使用哈希页表进行转换。哈希页表是操作系统在物理内存中维护的一个数据结构。当TLB中找不到对应的转换条目（即TLB未命中）时，硬件或软件（取决于实现）会发起一次“页表遍历”（Table Walk），在哈希页表中查找正确的页表项（PTE）。

MPC7400的页表结构是“哈希”的，这意味着它使用虚拟页号（VPN）的一部分作为哈希键，在页表中快速定位一个页表项组（PTEG）。每个PTEG包含8个PTE（每个PTE 8字节）。如果发生哈希冲突（即多个VPN映射到同一个PTEG），则需要线性搜索该PTEG内的8个PTE。

MPC7400的MMU实现了一个关键优化：独立的指令MMU和数据MMU。这意味着它拥有独立的指令TLB（I-TLB）和数据TLB（D-TLB）。这种分离允许指令取指和数据访问并行地进行地址转换，减少了资源冲突，提升了超标量流水线的效率。尽管有独立的MMU，但段寄存器（SR）在硬件上只有一份，mfsr和mtsr指令的访问是通过数据MMU来完成的。

TLB未命中处理流程：

当加载、存储或取指发生TLB未命中时，MPC7400会触发一个异常（DSI或ISI）。
异常处理程序（通常是操作系统内核的页错误处理程序）被调用。
处理程序读取导致异常的地址（从DAR寄存器）和原因（从DSISR寄存器）。
软件使用该地址，通过哈希算法在内存中的页表里查找对应的PTE。
找到PTE后，软件将其内容（物理页帧号、保护位等）写入到对应的TLB条目中。MPC7400提供了tlbie（TLB Invalidate Entry）和tlbld/tlbli（TLB Load）等指令来管理TLB。
处理程序返回，被中断的指令重新执行，此时TLB命中，访问得以继续。

2.4 内存访问保护与属性

MMU不仅负责地址转换，还负责实施内存保护。每个页表项（PTE）或BAT条目中都包含保护位，如读写权限（PP位）。当程序尝试进行越权访问（如向只读页写入数据）时，MMU会触发一个DSI异常。

此外，内存区域还可以被赋予缓存属性，通过页表项或BAT条目中的WIMG位来控制：

W (Write-Through)：直写。写操作同时更新缓存和主存。
I (Caching Inhibited)：缓存禁止。该区域不缓存，所有访问直接到达总线。
M (Memory Coherence)：内存一致性。用于多处理器系统中维护缓存一致性。
G (Guarded)：保护。对该区域的访问不能被预取，且必须按程序顺序执行。

例如，将内存映射的I/O设备区域设置为“缓存禁止”和“保护”是标准做法，以确保对设备的读写操作是即时且有序的，避免缓存带来的数据不一致性和预取导致的副作用。

3. MPC7400指令流水线与执行单元剖析

MPC7400是一款典型的超标量（Superscalar）、深度流水线（Pipelined）的RISC处理器。理解其流水线结构是进行性能调优和编写高效代码的关键。它的设计目标是在每个时钟周期内启动并完成尽可能多的指令，通过指令级并行（ILP）来提升吞吐量。

3.1 四级主流水线结构

MPC7400的指令执行被划分为四个主要的流水线阶段，所有指令都必须经历这些阶段：

取指阶段（Fetch）：
- 工作：从指令缓存（I-Cache）或通过总线从内存中预取指令流。每个时钟周期最多可以取4条指令。
- 关键组件：分支处理单元（BPU）在此阶段就开始工作，对分支指令进行静态预测和解码。对于不更新计数寄存器（CTR）或链接寄存器（LR）的简单分支，BPU可以在此阶段直接将其从指令流中移除（“折叠”），从而减少后续流水线阶段的无效工作，提升效率。
分发阶段（Dispatch）：
- 工作：对取指阶段送来的指令进行解码，并判断哪些指令可以在当前周期被分派到空闲的执行单元。这是指令调度的核心环节。
- 关键机制：
  - 重命名缓冲区（Rename Buffers）：为了解决指令间的数据冒险（写后读RAW、写后写WAW），MPC7400为GPR、FPR和VR提供了重命名缓冲区。当一条指令的目标寄存器是R3时，它实际上被分配到一个物理的重命名寄存器。后续需要读取R3的指令，会从这个重命名寄存器中获取数据。这允许指令乱序执行，只要逻辑关系允许。
  - 分发队列：指令在分发前被放入队列。MPC7400每个周期最多可以从队列底部派发两条指令到整数单元（IU）、浮点单元（FPU）、加载存储单元（LSU）等。此外，在同一个周期还可以派发一条分支指令，从而实现每个周期最多派发三条指令的峰值。
  - 完成队列（Completion Queue）： MPC7400有一个8条目的完成队列（CQ）。指令被分派时，会在CQ中占一个位置。指令必须按照程序顺序从CQ中“退休”（Retire），以维持精确异常模型。8个条目的CQ比其前代MPC750的6条目更大，为更多的执行单元和更深的流水线提供了缓冲，减少了因CQ满而导致的指令分发阻塞。
执行阶段（Execute）：
- 工作：指令在各自对应的执行单元中执行实际计算。这是耗时差异最大的阶段，不同指令的延迟（Latency）和吞吐量（Throughput）各不相同。
- 执行单元阵列： MPC7400拥有8个独立的执行单元，是其高性能的源泉：
  - 整数单元（IU1, IU2）：两个，处理定点算术、逻辑运算。
  - 浮点单元（FPU）：一个，处理标量单/双精度浮点运算。其内部还有三级流水（乘、加、舍入转换），允许最多三条浮点指令在其中并发执行。
  - 分支处理单元（BPU）：处理分支指令。
  - 加载/存储单元（LSU）：处理所有内存访问指令。其内部有两级流水：第一级计算有效地址并进行MMU转换，第二级访问数据缓存。
  - 系统寄存器单元（SRU）：处理读写特殊功能寄存器（SPR）的指令。
  - 向量排列单元（VPU）： AltiVec特有，处理向量的排列、合并、移位等操作。
  - 向量算术逻辑单元（VALU）： AltiVec特有，内部又分为简单整数单元、复杂整数单元和向量浮点单元，处理向量的所有算术和逻辑计算。
- 执行完成：指令执行完毕后，将结果写入到之前分配的重命名寄存器，并通知完成阶段该指令已就绪。
完成/写回阶段（Complete/Write-Back）：
- 工作：这是指令“退休”的地方。完成逻辑按程序顺序（即指令在CQ中的顺序）检查指令。如果一条指令执行完毕且没有引起异常，它就被标记为可完成。
- 操作：每个周期最多可以完成两条指令。完成操作包括：将结果从重命名寄存器提交到架构寄存器（如GPR、FPR），更新架构状态（如CTR、LR）。如果一条指令在完成时被检测到引发了异常（例如，在执行阶段发现的除零错误），则完成逻辑会取消该指令之后的所有后续指令，丢弃它们在重命名寄存器中的结果，并从相应的异常向量重新开始取指。

3.2 超标量并行与冒险处理

MPC7400实现超标量并行的能力依赖于其多执行单元和复杂的调度逻辑。编译器（或程序员）可以通过合理安排指令顺序来最大化并行度：

避免数据冒险：尽量让有依赖关系的指令间隔开，间隔的周期数应等于产生数据的指令的延迟。例如，一条双精度浮点乘加指令（fmadd）的延迟可能是5个周期，那么使用其结果的下一条指令最好在5条无关指令之后。
利用不同单元：混合使用整数、浮点、加载/存储和向量指令，因为它们使用不同的执行单元，可以同时进行。例如，在等待一个内存加载结果的同时，可以执行一些整数或浮点计算。
注意分支：分支会打断顺序的指令流。使用BPU支持的bcctr、bclr指令进行函数调用和返回，或利用循环计数器（CTR）进行高效的循环分支（bdnz等）。

实操心得：性能监控： MPC7400内置了性能监控计数器（PMC）。开发者可以通过配置MMCR0/1寄存器来监控特定事件，如L1缓存命中/未命中次数、分支误预测次数、指令分发/完成数量等。这是进行底层性能剖析和瓶颈定位的宝贵工具。例如，如果你发现PMC显示L1 D-Cache未命中率异常高，就应该检查数据访问模式是否具有良好的空间局部性，或者考虑使用数据预取（dcbt）指令。

3.3 存储子系统优化：缺失处理与合并

MPC7400的存储子系统（MSS）针对性能进行了显著优化，特别是为了应对AltiVec技术带来的高带宽数据流需求。你提供的资料中提到了几个关键改进：

缺失折叠（Load Miss Folding）：在MPC750中，如果一次加载（Load A）未命中缓存，后续对同一缓存块的加载（Load B）必须等待A的“关键字”（最先请求的数据）返回，期间缓存访问被阻塞。MPC7400引入了重载缓冲区（Reload Buffer）和加载折叠队列（LFQ）。当Load A未命中时，会在重载缓冲区中分配一个条目。后续对同一缓存块的Load B可以被“折叠”进LFQ排队。当数据从总线返回时，A和B可以同时或相继获得数据，且在此期间缓存对其他地址的访问不被阻塞。这大大提升了存在数据依赖的连续内存访问性能。
存储合并（Store Miss Merging）：类似地，对于存储未命中，MPC7400可以将多个对同一缓存块的存储操作合并到重载缓冲区的同一个条目中。如果合并的存储操作最终写满了整个缓存块（例如，通过两次连续的128位AltiVec存储），那么系统就无需从总线加载该块的旧数据，而是直接广播一个“地址唯一”的KILL事务来使其他处理器缓存中的该块数据失效，然后写入新数据。这节省了总线带宽。
重载时分配（Allocate on Reload）： MPC750采用“缺失时分配”策略，一旦发生缓存未命中，立即在缓存中选定一个牺牲块（Victim Block）并将其置为无效。如果后续指令正好需要访问这个刚被无效的牺牲块，就会产生一次不必要的“冲突缺失”。MPC7400改为“重载时分配”，即等到数据真正从总线返回时，才在缓存中分配空间并选择牺牲块。这给了缓存更多的时间来“观察”访问模式，从而做出更优的替换决策，减少了缓存抖动（Thrashing）。

这些优化使得MPC7400在处理向量化、流式数据访问时，能更高效地利用缓存和总线资源，这也是其相较于MPC750在多媒体应用上表现更出色的重要原因。

4. 常见问题与实战调试技巧

在实际开发和调试基于MPC7400的系统时，尤其是涉及底层驱动、操作系统移植或高性能计算库开发，会遇到一些典型问题。以下是一些常见问题的排查思路和实战技巧。

4.1 异常处理相关疑难排查

问题1：系统在启用AltiVec后随机崩溃。

排查思路：
1. 检查MSR[VA]位：确保在任务切换时正确保存和恢复MSR寄存器，特别是VA位。如果一个任务使用了AltiVec，而切换到另一个未启用AltiVec的任务时VA位被错误清零，再切回来时可能引发上下文错误。
2. 检查VRSAVE寄存器：在上下文切换时，是否根据VRSAVE的值，仅保存和恢复被任务实际使用过的向量寄存器？错误地保存/恢复全部32个VR会极大增加切换开销，但更严重的是，如果VRSAVE管理不当，可能导致一个任务污染了另一个任务的向量寄存器状态。
3. 检查对齐： AltiVec向量加载/存储指令通常要求128位（16字节）对齐。虽然某些指令支持非对齐访问，但性能会急剧下降，且在某些配置下可能引发对齐异常。确保数据缓冲区是16字节对齐的。
4. 检查内存属性：确保AltiVec代码和数据所在的内存区域具有正确的缓存属性（通常是可缓存的）。对“缓存禁止”或“保护”区域进行向量加载/存储可能导致不可预知的行为。

问题2：DSI异常频繁发生，尤其是在多线程环境下。

排查思路：
1. 分析DSISR和DAR寄存器：在DSI异常处理程序中，第一时间读取并记录DSISR（原因）和DAR（故障地址）寄存器。DSISR会告诉你具体原因：是页无效（Page Fault）、保护违规（Protection Violation）还是访问I/O空间（T=1）。
2. 检查TLB一致性：在多处理器（SMP）系统中，如果一个处理器修改了页表并执行了tlbie使其本地TLB失效，但其他处理器的TLB可能还保留着旧的映射。需要使用广播式的TLB失效指令（tlbsync配合tlbie）来维护全局TLB一致性。MPC7400支持的MPX总线协议提供了更好的缓存一致性支持，但软件仍需正确使用相关指令。
3. 检查原子操作：如前所述，对标记为“直写”或缓存锁定的区域执行lwarx/stwcx.会引发DSI。确保用于原子操作（如自旋锁）的内存区域是“回写”缓存策略且未锁定。

4.2 内存管理与性能调优

问题：应用程序，特别是使用AltiVec的代码，性能未达到预期。

排查与调优技巧：
1. 使用BAT映射关键区域：将频繁访问的只读数据（如查找表、常量数组）或关键代码段通过IBAT/DBAT进行固定映射，完全消除TLB未命中和页表查找的开销。
2. 优化数据结构对齐：确保数组和结构体的起始地址至少是16字节对齐，以匹配AltiVec向量的自然对齐。使用编译器属性（如GCC的__attribute__((aligned(16)))）来强制对齐。
3. 利用数据预取：在访问大规模数组前，使用数据缓存块预取指令dcbt或dcbtst，提前将数据拉入缓存。对于顺序访问模式，可以计算好步长进行软件流水预取。
4. 监控性能计数器：编写一个简单的内核模块或利用仿真器的性能分析功能，监控L1 D-Cache和I-Cache的未命中率、分支误预测率等。过高的未命中率是性能瓶颈的明确信号。
5. 检查缓存行冲突：如果数组成员的间隔恰好是L1缓存大小的倍数（或半倍），可能会发生严重的缓存行冲突（Cache Line Thrashing）。尝试调整数据结构的布局或分配策略（例如，使用不同的内存池起始地址）。

4.3 指令流水线与代码优化

问题：手写汇编或高度优化的C代码性能波动大。

排查与优化建议：
1. 理解指令延迟与吞吐量：查阅MPC7400用户手册中的指令时序表。明确每条指令的执行延迟（从输入操作数就绪到结果可用的周期数）和吞吐量（每个周期能发射多少条同类指令）。例如，一个浮点乘加（fmadd）的延迟可能是5周期，吞吐量是每周期1条。安排指令时，要让依赖链有足够的间隔。
2. 避免流水线停顿：常见的停顿包括：
  - 加载-使用停顿：加载指令的结果需要等待。尽量在加载指令后安排一些不依赖该结果的独立指令。
  - 分支误预测停顿：对于难以预测的分支，考虑使用条件移动（isel）或其他无分支编程技巧。
  - 执行单元冲突：两个连续的指令都需要同一个执行单元（如两个连续的浮点除法）。尝试用其他类型的指令将其隔开。
3. 循环展开：对于紧凑的循环，适当展开可以减少分支开销，并为编译器/处理器提供更多的指令来进行调度，以填充延迟槽。但要注意不要过度展开导致I-Cache压力过大。
4. 使用AltiVec进行向量化：这是提升计算密集型任务性能的最有效途径。将标量循环转换为使用AltiVec向量指令，理论上可获得4倍（32位单精度浮点）或更多（8位/16位整数）的加速。注意处理剩余元素（Loop Remainder）。