基于 FPGA 的处理器多周期时分复用功能级模拟

基于FPGA的处理器多周期时分复用功能级模拟 • 清华大学计算机系高性能计算所张悠慧 2010.10

研究背景 • 核的增加和

Cache #0 Cache #1 …… Cache #15 Cache Controller Memory SRAM SDRAM IDE 主要思路 Interleaved Pipeline 16xCPU NIOSII Processor #0_MMU NIOSII Processor #1_Cplx NIOSII Processor #2_PCI-E

16Clk 1Clk 发射16条指令来自模拟的16个处理器主要思路完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段每个流水段上依次经过16个核的指令

验证评估 • 通过设计时的考虑和一些实现上的优化手段，以及后期的布线参数约束。最终实现的模拟器的能够在200Mhz的工作频率下稳定地运行测试程序，即折合16核系统的全系统模拟频率12.25Mhz (200Mhz / 16)。 • 目前已知最快的软硬件混合的多核模拟器之一PROTOFLEX的模拟频率为90Mhz (16核)。但需要注意的是，虽然都是基于RISC架构的指令集，但Sparc架构还是较MIPS来的复杂，因此该对比仅作为参考。

BEE3-LX155T-2C Xilinx Virtex-5 XC5VLX110T 集成了四片Xilinx LX155T FPGA芯片、64GB DDR2内存、8个10G以太网接口、4个PCI-E接口的大规模开发平台。预计可以模拟几百核至近千核的多核多芯片系统（采用时分复用模式），包括其互连、存储层次等结构。

预期成果 • FPGA模拟器的可综合RTL代码以及相关工程文件 • 相关开发文档以及使用手册 • 关键技术说明文档或者技术论文 • 相应的测试用OS、编译器以及测试代码（采用第三方开源软件） • 验收方法 • 展示FPGA演示系统 • 功能检查、运行频率检查（根据量化指标） • 文档、代码检查 • 帮助进行系统迁移、安装。

基本目标 • 规模：64核规模，80结点互连网络规模( 支持虚通道) • 频率： 80Mhz • 良好目标 • 规模：128核规模，256结点互连网络规模 • 挑战目标 • 规模：128核规模 + 256结点互连网络规模（需要跨片实现）

项目进度 • 阶段一（三个月） • 确定细化技术方案，给出细致指标； • 完成初步的内核模拟代码，以及RTL功能仿真； • 完成互连模拟的RTL代码（支持跨片设计）。 • 阶段二（七到九个月） • 代码综合、上板调试 • 完成原型系统 • 集成软件部分 • 阶段三（二到三个月） • 调整优化 • 系统展示

16Clk 1Clk 发射16条指令来自模拟的16个处理器完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段每个流水段上依次经过16个核的指令

未来工作

面向IA64的处理器体系结构模拟、故障注入与跟踪（设计阶段）面向IA64的处理器体系结构模拟、故障注入与跟踪（设计阶段） • IA64处理器的微体系结构模拟 • 提供内核、存储层次、互连网络等多层次的故障注入接口 • 内部模拟实现了多种主流容错技术，可以直接配置运行 • 提供容错技术开发接口，以开发新的容错功能模块

基于 FPGA 的处理器多周期时分复用功能级模拟