120 likes | 305 Views
基于 FPGA 的处理器多周期时分复用功能级模拟. 清华大学计算机系高性能计算所 张悠慧 2010.10. 研究背景. 核的增加和. Cache #0. Cache #1. ……. Cache #15. Cache Controller. Memory. SRAM. SDRAM. IDE. 主要思路. Interleaved Pipeline 16xCPU. NIOSII Processor #0_MMU. NIOSII Processor #1_Cplx. NIOSII Processor #2_PCI-E. 16Clk. 1Clk.
E N D
基于FPGA的处理器多周期时分复用功能级模拟 • 清华大学计算机系高性能计算所 张悠慧 2010.10
研究背景 • 核的增加和
Cache #0 Cache #1 …… Cache #15 Cache Controller Memory SRAM SDRAM IDE 主要思路 Interleaved Pipeline 16xCPU NIOSII Processor #0_MMU NIOSII Processor #1_Cplx NIOSII Processor #2_PCI-E
16Clk 1Clk 发射16条指令 来自模拟的16个处理器 主要思路 完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段 每个流水段上依次经过16个核的指令
验证评估 • 通过设计时的考虑和一些实现上的优化手段,以及后期的布线参数约束。最终实现的模拟器的能够在200Mhz的工作频率下稳定地运行测试程序,即折合16核系统的全系统模拟频率12.25Mhz (200Mhz / 16)。 • 目前已知最快的软硬件混合的多核模拟器之一PROTOFLEX的模拟频率为90Mhz (16核)。但需要注意的是,虽然都是基于RISC架构的指令集,但Sparc架构还是较MIPS来的复杂,因此该对比仅作为参考。
BEE3-LX155T-2C Xilinx Virtex-5 XC5VLX110T 集成了四片Xilinx LX155T FPGA芯片、64GB DDR2内存、8个10G以太网接口、4个PCI-E接口的大规模开发平台。 预计可以模拟几百核至近千核的多核多芯片系统(采用时分复用模式),包括其互连、存储层次等结构。
预期成果 • FPGA模拟器的可综合RTL代码以及相关工程文件 • 相关开发文档以及使用手册 • 关键技术说明文档或者技术论文 • 相应的测试用OS、编译器以及测试代码(采用第三方开源软件) • 验收方法 • 展示FPGA演示系统 • 功能检查、运行频率检查(根据量化指标) • 文档、代码检查 • 帮助进行系统迁移、安装。
基本目标 • 规模:64核规模,80结点互连网络规模( 支持虚通道) • 频率: 80Mhz • 良好目标 • 规模:128核规模,256结点互连网络规模 • 挑战目标 • 规模:128核规模 + 256结点互连网络规模(需要跨片实现)
项目进度 • 阶段一 (三个月) • 确定细化技术方案,给出细致指标; • 完成初步的内核模拟代码,以及RTL功能仿真; • 完成互连模拟的RTL代码(支持跨片设计)。 • 阶段二 (七到九个月) • 代码综合、上板调试 • 完成原型系统 • 集成软件部分 • 阶段三(二到三个月) • 调整优化 • 系统展示
16Clk 1Clk 发射16条指令 来自模拟的16个处理器 完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段 每个流水段上依次经过16个核的指令
面向IA64的处理器体系结构模拟、故障注入与跟踪(设计阶段)面向IA64的处理器体系结构模拟、故障注入与跟踪(设计阶段) • IA64处理器的微体系结构模拟 • 提供内核、存储层次、互连网络等多层次的故障注入接口 • 内部模拟实现了多种主流容错技术,可以直接配置运行 • 提供容错技术开发接口,以开发新的容错功能模块