指令集体系结构学习笔记

Aurorp1g2025-11-012026-03-19

ISA 学习笔记

一、基础架构与指令系统

1.1 指令编码

字段	位宽	RISC-V 示例	说明
opcode	7 b	0110011	主操作码，决定格式
rd	5 b	x0–x31	目的寄存器
funct3	3 b	000=ADD	子操作码
rs1	5 b	源寄存器 1
rs2	5 b	源寄存器 2
funct7	7 b	0000000=ADD	二级子操作码

定长 32 b，四字节对齐 → PC+4
立即数分阶段拼合：I/S/B/U/J 格式

1.2 寻址模式（RISC-V 基整数）

模式	汇编模板	EA 计算	用途
寄存器	add rd, rs1, rs2	—	ALU 操作
立即数	addi rd, rs1, imm	—	常数、偏移
基址+偏移	lw rd, imm(rs1)	EA = rs1 + imm	全局/局部变量
PC 相对	beq rs1, rs2, label	EA = PC + imm×2	分支跳转
绝对（AUIPC）	auipc rd, imm	rd = PC + imm<<12	长跳转高 20 位

1.3 寄存器与调用约定（LP64D）

寄存器	作用	保存者
x0	零寄存器	—
x1 ra	返回地址	caller
x2 sp	栈指针	callee
x3 gp	全局指针	—
x4 tp	线程指针	—
x5–x7 x28–x31	t0–t6 临时	caller
x8 x9 x18–x27	s0–s11 保存	callee
x10–x17	a0–a7 参数/返回值	caller

栈对齐 16 B
前 8 浮点参数 fa0–fa7，寄存器 f0–f31

1.4 参考参数速查

参数	RV32	RV64	单位
x 寄存器	32×32	32×64	b
虚拟地址	32	39/48/57	b
PC 对齐	4	4	B
最大指令	32	48	B
中断线	16	16	线

二、系统架构与特权机制

2.1 特权级与 CSR（控制与状态寄存器）

级别	编码	可见性	典型 CSR
M	11	全	mstatus, mtvec, mepc
S	01	内核	sstatus, stvec, sepc
U	00	用户	ustatus, uepc

CSR 地址 12 b：{8’b0, 4’bregion}
读写指令：CSRRW、CSRRS、CSRRC + 立即数变体

2.2 中断委托

mideleg：1 位/异常，置 1 转 S 态
medeleg 示例值：0xB222 → 把 ECALL_U、Inst/Page/Fault 等下放到 S
进入 S 后，scause 最高位 = 1 表示中断

2.3 异常处理流程（精确）

停止当前流水线
保存 pc → mepc/sepc
写 cause 寄存器（mcause/scause）
跳转到 mtvec/stvec（BASE+4×cause）
执行 handler
mret/sret 返回

2.4 异常现场恢复

mret 前需恢复：
  pc = mepc
  mstatus.MPIE → MIE
  mstatus.MPP → 当前特权
  可选：浮点状态 frm/fflags

硬件自动原子完成

2.5 中断延迟预算（最小）

1
2
3

同步异常 → 进入 M：4 cycle
M 态查表 → 跳转：3 cycle
总共：7 cycle ≈ 7 ns @1 GHz

嵌套加速：硬件自动保存 mstatus/mpie/mepc

三、内存管理

3.1 虚拟内存（SV39）

39 b 虚拟地址 → 56 b 物理地址
三级页表：VPN[2:0] + 9 b 索引
页大小 4 KiB = 2^12
PTE 格式（64 b）：
1
V R W X U G A D RSW PPN[43:10]
TLB 未命中 → 硬件遍历（可软件补充）

3.2 页表遍历延迟（实测模拟）

参数	数值
L1 TLB hit	1 cycle
L2 TLB hit	10 cycle
页表遍历（4-level）	200 cycle

2 MiB 大页：TLB 覆盖 1 GiB 仅需 512 项 → miss ↓ 8×

3.3 地址空间标识（ASID）

Sv39：16 b ASID → 65536 进程
Sv48：同样 16 b（satp.ASID）
TLB 刷新：仅当 ASID 切换或执行 SFENCE.VMA

3.4 地址空间布局（Sv39 Linux）

1
2
3

0x0000_0000_0000 - 0x003F_FFFF_FFFF   user
0xFFFF_FF80_0000 - 0xFFFF_FFFF_FFFF   kernel
中间 256 TiB 空洞

用户/内核各 512 GiB

3.5 数据对齐检查（用户态）

1
2
3

硬件产生：
  地址 % size ≠ 0 → 触发 Load/Store Address Misaligned
例外：C.LWSP 允许 sp 非 4 对齐（扩展）

软件修复：内核 emulate 后返回

四、缓存系统与一致性

4.1 缓存设计量化（64 KiB L1D 示例）

架构：64 B 行，8 路组相联 → 128 组
索引位：log2(128) = 7 b
块偏移：log2(64) = 6 b
标签位：物理地址 - (7+6) = 51 b（RV64 57 b 物理）
命中率：SPECint 95 % → MissRate = 5 %
AMAT = 4 + 0.05×12 = 4.6 c（含 L2 命中）

4.2 缓存一致性（RVWMO）

内存模型：允许写缓冲、非多副本
同步原语：load-reserved (lr.w) + store-conditional (sc.w)
原子指令：amoswap, amoadd, amoor, amoand, amoxor

4.3 访存一致性模型（RVWMO 规则摘）

Rule 1: 同一 hart 内存顺序保持 program order
Rule 2: AMO 对同一地址全局全序
Rule 3: fence RW,RW 强制前后不能重排
Rule 4: acquire 加载禁止后续提前；release 存储禁止前面滞后

实现：加载队列 48 项，存储缓冲 32 项，保序位向量

4.4 多核缓存一致性（MESI 简化）

状态：M E S I
消息：BusRd, BusRdX, BusUpgr, Flush
转换示例：
  I → (本地读) → BusRd → S
  S → (本地写) → BusUpgr → M

目录法：位向量 16 核 → 16 b/line

4.5 缓存锁定（cache lockdown）

方式：索引 + way 掩码 → 锁定至 Way[3:0]
接口：CSR mcachectl 0x7CA
最大锁定：1 way/组 → 12.5 % 容量（8-way）

4.6 指令预取（stride）算法

1 2	if ( miss_addr[n] - miss_addr[n-1] == constant ) prefetch_addr = miss_addr[n] + stride

表项：32 项，stride 7 b 带符号
覆盖：矩阵访问 80 % 行 miss

4.7 指令存储能量优化（banked I-cache）

4 bank × 64 b → 选通 1 bank，其余 clock-gate
动态功耗 ↓ 35 %，面积 +8 %（mux + 控制）

五、扩展指令集

5.1 常见扩展

扩展	说明	新增状态
M	乘除法	mul, mulh, div, rem
A	原子	lr/sc, amo*
F/D	单/双浮点	f0–f31, fcsr
C	16 b 压缩	指令对齐 2 B
V	向量	v0–v31, vl, vtype
B	位操作	clz, ctz, xperm*
H	虚拟化	VS 模式, hgatp

5.2 位操作扩展（ZB*）指令

指令	功能	延迟
`clz rd, rs`	前导零	1
`ctz rd, rs`	尾随零	1
`pcnt rd, rs`	人口数	2
`bext rd, rs1, rs2`	位提取	2

实现：树形 6 级 → 128 AND+33 popcount

5.3 指令压缩（RVC）编码速查

16b 格式	映射 32b	压缩率
C.ADD rd, rs	add rd, rd, rs	50 %
C.LWSP rd, offset	lw rd, offset(x2)	50 %
C.J offset	jal x0, offset	50 %

平均静态压缩：25-30 %

5.4 向量 ISA（RVV v1.0）

向量长度寄存器 vl（≤VLMAX）
向量寄存器组 v0-v31，宽度 LMUL=1-8
屏蔽寄存器 v0.t 按位控制

内存访问单位-步幅（unit-strided）：

1 2	vle32.v v4, (a0) # 加载 32-bit 元素 vse32.v v4, (a1)

乘加峰值：FLOPS = 2 × #lane × f_max

5.5 向量长度计算（RVV）

1
2
3

VLMAX = (VLEN * LMUL) / SEW
例：VLEN=256, LMUL=4, SEW=32
VLMAX = 256*4/32 = 32 元素

寄存器分组：v0-3 组成 1×256 b 超寄存器
峰值带宽：32 B/clk × 2 FMA = 64 B FLOP/clk

5.6 向量掩码执行模型

1
2
3

v0.t = 0101
vadd.vv v1, v2, v3, v0.t   # 仅第 0,2 元素活跃
结果：v1 = {x, x+a, x, x+b}

掩码关闭元素仍消耗发射带宽 → 有效利用率 = popcount(v0)/vl

5.7 向量长度寄存器（vl）限制

1
2
3

vl ≤ VLMAX
VLMAX = (LMUL * VLEN) / SEW
写vl：vsetvl/vsetvli 自动约束

读取：vl 为只读，CSR 0xC20

5.8 向量归约（vredsum）伪代码

vsetvli t0, a0, e32, m1
vmv.v.i v0, 0            # 清零累加器
loop:
  vsetvl  t1, a0, e32, m8
  vle32.v v8, (a1)
  vredsum.vs v0, v8, v0  # 每段归约到 v0[0]
  sub     a0, a0, t1
  add     a1, a1, t1*4
  bnez    a0, loop

最终标量和：mv x10, v0[0]

5.9 向量归约峰值公式

1 2	FLOP = 2 × VLEN × LMUL × ops/element 例：256-bit, LMUL=8, fma → 2×256×8/32 = 128 FLOP/cycle

换算：1 GHz → 128 GFLOP/s

5.10 向量浮点异常聚合（vxsat）

1
2
3

vxsat bit 0: 定点饱和
vxsat bit 1: 浮点无效
写后需软件读-清

位置：CSR 0x009

六、流水线与性能优化

6.1 流水线冒险与优化（5 级经典）

阶段	功能	冒险类型	化解手段
IF	取指	控制	BTB + 2-bit 饱和计数、RAS
ID	译码/读寄存器	数据	前向转发（EX→EX、MEM→EX）
EX	执行/计算地址	数据	编译器插入 nop、调度延迟槽
MEM	访存	存储-加载	动态调度、存储集预测
WB	写回	结构	分离指令/数据 SRAM

分支惩罚 = (预测错误率 × 错误恢复周期)
RISC-V 取消延迟槽，硬件负责冲刷

6.2 超标量 & 动态调度

发射宽度：每周期同时解码 N 条（典型 4-6）
保留站：源操作数缓存，避免 RAW
ROB：维护精确异常与顺序提交
重命名寄存器：物理寄存器 >> ISA 寄存器（×2-3）

6.3 指令发射策略对比（1-wide vs 4-wide）

策略	每周期发射	重排缓冲	寄存器堆口	峰值 IPC	面积代价
顺序	1	0	2R+1W	1.0	1.0×
乱序2	2	64	4R+2W	1.8	1.7×
乱序4	4	128	8R+4W	2.9	3.0×

边际收益：>4-wide 时 IPC 提升 <5 %/width

6.4 乱序窗口大小权衡

窗口	重排缓冲	物理寄存器	性能提升	面积代价
64	64	96	+0 %	baseline
128	128	160	+5 %	+18 %
256	256	288	+8 %	+45 %

选值：128 项为能效拐点

6.5 分支预测器对比

类型	存储	准确率	硬件开销
2-bit 饱和计数	4 K×2 b	93 %	1 kB
gshare (13-bit 历史)	8 K×2 b	96 %	2 kB
TAGE 6 表	48 K×2-4 b	97.5 %	8 kB + 压缩标签

恢复惩罚：前端 15 级 → 预测错误代价 14-16 c

6.6 分支预测器训练（启动）

1
2
3

冷启动：BTB 清零，GHR=0
首次遇见：静态预测向后跳转 T，向前 NT
训练阈值：2-bit 饱和 0→1→2→3

1 K 条目饱和后准确率 96 %

6.7 分支偏移范围

指令	立即数位	缩放	范围
BEQ/BNE	12 b	<<1	±4 KiB
JAL	20 b	<<1	±1 MiB
JALR	12 b	0	±2 KiB（I-type）

链接器松弛：>1 MiB 调用 → auipc+jalr 序列

6.8 返回地址栈（RAS）

深度：16 项，匹配常见调用链
压栈：JAL 且 rd=x1/ra
出栈：JALR 且 rs1=x1, rd=x0
预测准确率：>98 % for SPEC CPU

6.9 取指队列（IFQ）深度计算

目标：掩盖 I-cache 缺失 8 周期
带宽需求：宽 4 指令/周期 → 32 B/周期
深度 = 缺失周期 × 带宽 = 8 × 4 = 32 项
实现：双端口 SRAM 32×32 B，两读一写

6.10 指令融合（Fusion）规则 — 双发射示例

序列	融合后 μop	条件	收益
`add rd, rs1, rs2` + `sub rd2, rd, rs3`	无 — 无融合	无	0 %
`cmp rs1, rs2` + `beq label`	1 μop（compare-branch）	无中间中断	节省 1 发射槽
`li t0, imm` + `add rd, t0, rs`	1 μop（addi.w rd, rs, imm）	imm∈I-type	节省 1 译码能级

融合窗口：2 指令/周期，深度 1
硬件：预解码标记 + 发射队列匹配

6.11 指令融合检测（硬件）

预解码标记：
  opcode=OP, funct3=ADD, rd≠0, rs1≠0, rs2≠0
  opcode=BRANCH, funct3=EQ, rs1=rd, rs2=x0
匹配窗口：相邻 2 指令

面积：0.8 kGE，关键路径 +30 ps

七、性能计数与调试

7.1 性能计数（硬件事件）

mhpmevent3–31：选择事件
mhpmcounter3–31：64 b 计数
常用事件：IPC, cache-miss, branch-mispredict, stall

7.2 性能计数器事件编码（RISC-V）

编号	事件	描述
0x01	CY	时钟周期
0x02	TM	时间（恒定时基）
0x08	IR	退休指令
0x100	L1I_MISSES	I-cache refill
0x101	L1D_MISSES	D-cache refill
0x202	ITLB_MISSES	ITLB refill
0x203	DTLB_MISSES	DTLB refill

自定义事件 ≥0x4000

7.3 硬件性能计数器（HPM）微架构

单元数：4 × 32 b 可编程 + 1 × 64 b 固定 cycle
事件选择：128 输入多路器 → 2 级 8:1
溢出中断：≥0xFFFF_FFFF 触发 mcounter-overflow
特权过滤：mcountinhibit 按特权掩码

7.4 性能计数采样（perf record）

1 2	perf record -e r20 -c 100000 -p PID # r20 = 0x20 L1D-miss, 每 100 K 事件采样

采样精度：±2 %，开销 <3 %

7.5 性能调试模板（RISC-V Linux）

1
2
3

perf stat -e instructions,cycles,cache-misses ./a.out
perf record -g ./a.out
perf annotate --stdio

事件编码：0x08=BRANCH-MISS, 0x11=LD-STALL

7.6 性能采样记录（Linux perf）

1 2	perf stat -e r08,r10,r20,cycles ./app # r08 = br_miss, r10 = l1d_miss, r20 = itlb_miss

原始事件编码：rXX = (umask<<8)|event

7.7 硬件性能断点（trigger module）

匹配：PC、数据地址、数据值（mask 可配）
动作：停机、单步、trace 开启、中断核心
资源：4 触发器 × 64 位匹配器

7.8 调试模块（RISC-V Debug Spec 1.0）

JTAG 4 线，TAP 指令 5 b
抽象命令：access register 32/64 b
程序缓冲：16×32 b 指令
触发器：≥8 个，支持 =, ≠, ≥, 地址/数据匹配

7.9 硅后调试（eFUSE 触发）

触发条件：PC[39:0] == 匹配值
动作：时钟停、扫描链 dump、GPIO 报警
面积：2 kGE / 触发器

7.10 硅后调试触发（交叉触发）

1
2
3

ETM <-> STM <-> GPIO
矩阵 8×8，任意输入 → 任意输出
延迟：2 cycle

用于多核同步停时钟

7.11 指令 trace 压缩（TurboTrace）

算法：差分 PC + LZW → 平均 0.4 B/指令
存储：32 KiB 循环缓冲 → 可存 64 K 指令
带宽：2 B/指令原始 → 压缩后 0.8 B/指令，接口 8 b 并行，需 0.1 × f 时钟

7.12 指令 TRACE 格式（Efficient Trace）

1
2
3

Header(8) + 差异 PC(1-5) + 可选指令数(0-1)
平均带宽：0.15 bit/指令
封装：8-bit 并行，时钟 = 1/4 core clk

存储 1 M 指令 ≈ 19 kB

八、工具链与编程实践

8.1 工具链

汇编：llvm-mc / riscv64-unknown-elf-as
反汇编：llvm-objdump -d
模拟：Spike —isa=rv64gcv
调试：openocd + gdb (target riscv)

8.2 编译器内在函数（RVV 示例）

#include <riscv_vector.h>
size_t vl = vsetvl_e32m2(n);        // 设置向量长度
vint32m2_t va = vle32_v_i32m2(ptrA, vl);
vint32m2_t vb = vle32_v_i32m2(ptrB, vl);
vint32m2_t vc = vadd_vv_i32m2(va, vb, vl);
vse32_v_i32m2(ptrC, vc, vl);

生成单条 vadd.vv 无循环展开

8.3 向量加载分段（strip-mining）代码

for (i = 0; i < n; ) {
    size_t vl = vsetvl_e32m8(n - i);        // 动态vl
    vint32m8_t vx = vle32_v_i32m8(&x[i], vl);
    vint32m8_t vy = vle32_v_i32m8(&y[i], vl);
    vx = vadd_vv_i32m8(vx, vy, vl);
    vse32_v_i32m8(&x[i], vx, vl);
    i += vl;
}

编译器自动展开，循环开销 ≈ 2 指令/段

8.4 指令调度算法（编译器后端）

构建 DAG（依赖图）
列表调度（优先级 = 深度 + latency)
寄存器分配：图着色 → 溢出插入
软件流水线：Kernel 周期 II = max(RecMII, ResMII)

8.5 寄存器分配算法（线性扫描伪码）

for i in range(len(LIR)):
    if LIR[i].is_expired():
        free_reg(LIR[i].reg)
    for op in LIR[i].uses:
        if not is_allocated(op):
            reg = allocate_free()
            if no_free:
                spill(oldest_active())
                reg = allocate_free()
            assign(op, reg)

复杂度 O(n)，溢出率 <5 % 当物理寄存器 ≥1.5×架构寄存器

九、微架构设计与实现

9.1 物理寄存器堆（PRF）参数

架构寄存器 32 × 64 b
物理深度 128，读取口 8R/4W
功耗：读口 45 mW @1 GHz, 28 nm
面积：6T-SRAM 0.18 μm²/bit → 128×64×6T = 49 k μm²

9.2 快速乘法实现（Booth-4，64×64）

部分积：33 行 → 压缩至 2 行 by (4,2) counter
延迟：12 FO4 = 180 ps @28 nm
面积：12 kGE

9.3 浮点乘加（fmadd.d）数据路径

阶段 1-2：乘法 53×53 Booth → 106 b 积
阶段 3  ：对齐移位 106 b（±55 b）
阶段 4  ：3:2 CSA 压缩 → 2 行 161 b
阶段 5  ：超前进位加法
阶段 6  ：规格化 & 舍入（IEEE 754）

延迟 6 cycle，全流水 1/cycle 吞吐量

9.4 浮点异常聚合（fcsr）

bit 0  NV 无效操作
bit 1  DZ 除零
bit 2  OF 上溢
bit 3  UF 下溢
bit 4  NX 不精确

异常时置位，不中断；软件查询或设 fcsr=0 清

9.5 同时多线程（SMT2）资源复制

结构	数量	共享/复制
物理寄存器	256	复制 128×2
重排缓冲	128	静态分区 64×2
加载队列	48	动态共享
I-cache	32 KiB	共享

吞吐提升：+35 % 面积 +18 %

9.6 片上网络（NoC）路由

2D Mesh 4×4，XY 路由，无死锁
包格式：head(64) + payload(512) + tail(64) = 640 b
链路 128 b @1 GHz → 16 Gb/s/link
延迟：1 跳 = 2 cycle + 链路 1 cycle = 3 cycle
功耗：0.76 pJ/bit (28 nm)

9.7 微码与复杂指令拆解（x86 对比）

CISC 指令 → 拆分成 ≤4 μop
μop-cache：32-K 项，6 μop/行，命中节省 1-2 流水级
对比 RISC：无微码，ADD/MUL 直接单指令

9.8 微码 ROM 格式（x86 风格参考）

1 2	addr[μPC] micro_op[70] next[12] br cond 70b 包含：opcode, dst, src1, src2, imm, flags

典型容量：2 K 项 × 70 b → 17.5 kB
功耗：读取 0.45 pJ/bit @28 nm

十、功耗、面积与时序

10.1 功耗分解（5 级 RV64GC，28 nm，1 GHz）

模块	比例	绝对/mW
时钟树	25 %	50
寄存器堆	15 %	30
I-cache	12 %	24
D-cache	18 %	36
执行单元	10 %	20
其他	20 %	40
总计	100 %	200 mW @100 % 活动

10.2 功耗墙（Dennard 终结）

1
2
3

P ∝ V²·f
V ∝ f^(0.5..0.7) → P ∝ f^(2.5..2.7)
10 % 频率 ↑ → ≈30 % 功耗 ↑

暗硅：28 nm 时代，仅 50 % 面积可同时全速运行

10.3 热设计功耗（TDP）估算

TDP = P_dyn + P_leak
P_dyn = α·C·V²·f = 0.7·10 nF·(0.9 V)²·1 GHz ≈ 5.1 W
P_leak = I_0·e^(qV/nkT)·A = 0.4 W (28 nm)
→ TDP ≈ 5.5 W

10.4 指令缓存能量/访问

1
2
3

32 KB, 4-way, 64 B line, 32 nm
E = 0.23 pJ/bit-access
总线宽 256 b → 0.23×256 ≈ 59 pJ/access

对比：寄存器堆 0.45 pJ/access

10.5 功耗断点测量流程

设置性能计数器：event=0x01（周期）
读取平台电流采样（1 kS/s）
同步时间戳：PTP 1588 <1 μs
计算：P = VDD × I，归一化到 1 GHz

10.6 功耗估算脚本（PrimeTime PX）

read_db top_mapped.db
read_vcd foo.vcd -strip_path tb/dut
set_power_analysis -analysis_mode time_based
report_power -hierarchy > power.rpt

精度：±5 % vs 硅测量

10.7 时钟门控检查（CLP）

1 2	时钟门控覆盖率 = 门控寄存器 / 总寄存器目标：≥95 %

工具：Synopsys Power-Aware CLP

10.8 面积预算（28 nm，不含 SRAM）

单元	kGE	描述
解码 + 控制	25	2 级解码 PLA
整数 ALU	8	64 b 加法 + 逻辑

1 kGE ≈ 0.9 k μm² → 总 30 kGE ≈ 0.027 mm²

10.9 片上 SRAM 面积模型

Area = (rows × cols × 6T) + 外围
例：512×128×6T = 393 kT
外围 ≈ 30 % → 总 512 kT
1 kT ≈ 1.2 μm² (28 nm) → 0.61 mm²

10.10 片上 SRAM 位单元参数（28 nm）

面积 6T = 0.127 μm²
读电流 Icell = 18 μA
保持电压 Vhold = 0.45 V
访问时间 Trc = 320 ps

ECC 开销：位宽 +14 %，面积 +18 %

10.11 参考开源 core 面积对比

Core	工艺	面积/mm²	不含RAM
SweRV EL2	28 nm	0.14	0.09
CVA6 64b	28 nm	0.27	0.18
Rocket	28 nm	0.23	0.15
PicoRV32	28 nm	0.01	0.01

目标新设计 ≤ 0.15 mm²（与 Rocket 同级）

10.12 关键路径方程（时序）

T_c ≥ t_pcq + t_decode + t_rf_rd + t_ex + t_setup + t_skew
例：28 nm FO4 ≈ 15 ps
pcq=3 FO4, decode=4, rf=5, ex=6, setup=2, skew=2
T_c ≥ 22 FO4 = 330 ps → f_max ≈ 3 GHz

10.13 关键路径拆解（post-layout）

1 2	路径：SRAM 读 → 位线灵敏 → 数据 Mux → 传输门 → FF 建立延迟：SRAM 350 ps + Mux 120 ps + Wire 80 ps + FF 50 ps = 600 ps

约束：≤ 500 ps → 需插入 2 级流水线寄存器

10.14 关键信号延迟（28 nm，典型）

1
2
3

金属 4  0.14 ps/μm
金属 8  0.08 ps/μm
全局时钟  8 mm 长线  120 ps

5 mm 核心对角线：≈ 400 ps（含缓冲）

10.15 后端接口时序（AXI4-Lite 从机）

通道	握手信号	最大等待	备注
AW	ready	16 cycle	地址写
W	ready	16 cycle	数据写
B	valid	8 cycle	写响应
AR	ready	16 cycle	地址读
R	valid	8 cycle	读数据

约束：组合路径 ≤2 cycle，满足 250 MHz

10.16 动态频率调整（DVFS 表）

档位	Vdd /V	f /GHz	功耗/mW	性能/%)
0	0.80	0.8	80	80
1	0.90	1.0	150	100
2	1.00	1.2	240	120

转换延迟：30 μs + PLL lock 20 μs

十一、安全与可靠性

11.1 安全扩展

扩展	机制	RISC-V 实现
PMP	物理区保护	16 项，地址掩码
ePMP	锁定 M 态入口	防止 U/S 刷配置
Shadow Stack	控制流完整性	Zicfiss 扩展，sspush/sspop
BTI	分支目标识别	Zicfilp，landing-pad 标记

11.2 安全启动（ROM → SPL → Loader）

ROM (64 KiB) → hash(SHA-256) → 验签(RSA-3072)
↓
SPL (SRAM 128 KiB) → 测量 bootloader
↓
bootloader → 测量 OS → 递送 attestation

测量值扩展 PCR：PCR_new = SHA256(PCR_old || 度量)

11.3 可靠性指标

故障类型	FIT 率	缓解
SRAM 软错	100-200 FIT/Mb	SECDED ECC

FIT = 1e9 小时运行一次故障
目标：≤10 FIT/CPU → 需 ECC 覆盖 >95 % 存储位

十二、验证与设计流程

12.1 验证覆盖率目标

指令覆盖率：100 % opcode
分支覆盖：≥90 % 条件
异常覆盖：所有 16 种 cause
随机指令生成：RISCV-DV 1 B 指令/夜
断言：>5 k 条 SystemVerilog assert

12.2 门级仿真速度

1 2	Xcelium：单核 500 cycle/s (5 M 门) 并行 8 线程 → 3 kcycle/s

回归 10 kcycle 需 3.3 h

12.3 设计检查清单

[ ] GPR 零寄存器硬连线？
[ ] PC 相对范围 ±1 MiB (B-type) 足够？
[ ] 所有立即数符号扩展统一？
[ ] CSR 地址保留 00xx-FFxx？
[ ] 中断向量对齐 ≥4 B？
[ ] AMO 对齐检查 4/8 B？
[ ] 压缩子集 16-b 对齐 2 B？

12.4 设计流程里程碑

[ ] RTL freeze
[ ] 综合 - 0 次
[ ] 形式验证 - clean
[ ] 布局布线 - 1 次
[ ] 时钟树 - 2 次
[ ] 信号完整性 - 0 违例
[ ] 功耗签收 - 达标
[ ] 测试向量 - 95 % 覆盖
[ ] GDS II 交付

12.5 设计签核清单

[ ] 综合后面积 ≤ 0.15 mm²
[ ] 时序：≤ -50 ps WNS, ≤ 0.05 TNS
[ ] 功耗：≤ 150 mW @1 GHz, 25 °C, Vdd=0.9 V
[ ] 功能覆盖率：>95 % 断言
[ ] 门级仿真 1 M 周期无 X
[ ] 形式验证：RTL = 综合网表

12.6 设计收敛指标（最终）

频率：≥1.0 GHz，WNS ≥+20 ps
功耗：≤150 mW @1 GHz, 25 °C, 70 % 活动
面积：≤0.15 mm² 核心（不含 SRAM）
测试：>98 % 故障覆盖（stuck-at）
文档：100 % 寄存器与接口已描述

十三、文档与总结

13.1 文档交付清单

功能规格书
寄存器手册（CSR 全表）
指令延迟表
中断/异常矩阵
配置参数（Verilog + JSON）
编程指南（汇编 & C 内在函数）
验证报告
功耗/面积签核报告
测试向量与覆盖率
用户 FAQ

13.2 参考缩写汇总

AMAT   Average Memory Access Time
BTB    Branch Target Buffer
CPI    Cycles Per Instruction
DTLB   Data TLB
ECALL  Environment Call
FIFO   First-In-First-Out
GDB    GNU Debugger
HPM    Hardware Performance Monitor
I$     Instruction Cache
JTAG   Joint Test Action Group
LR/SC  Load-Reserved/Store-Conditional
MESI   Modified-Exclusive-Shared-Invalid
NoC    Network-on-Chip
PMP    Physical Memory Protection
PCR    Platform Configuration Register
RAS    Return Address Stack
ROB    Re-Order Buffer
RTL    Register Transfer Level
SECDED Single Error Correct Double Error Detect
SIMD   Single Instruction Multiple Data
TLB    Translation Lookaside Buffer
TDP    Thermal Design Power
WNS    Worst Negative Slack

13.3 关键公式

CPI = Σ (p_i × CPI_i)
Speed-up = (CPI_old × IC_old) / (CPI_new × IC_new)
AMAT = HitTime + MissRate × MissPenalty

13.4 总结公式速记

CPI  = 1 + 结构失速 + 数据失速 + 控制失速
AMAT = Hit + MissRate × MissPenalty
功耗 = Cdyn × V² × f + Ileak × V
面积 = Σ(kGE) × 0.9 k μm²

13.5 关键方程速查（最终）

CPI = Base + Mem + Branch + Struct
AMAT = L1_hit + L1_missRate × (L2_hit + L2_missRate × DRAM)
P  = C·V²·f + I_leak·V
Throughput_ipc = min(Decode_width, Issue_width, Retire_width)
MTBF = 1 / (Σ FIT)