1 / 12

基于 FPGA 的处理器多周期时分复用功能级模拟

基于 FPGA 的处理器多周期时分复用功能级模拟. 清华大学计算机系高性能计算所 张悠慧 2010.10. 研究背景. 核的增加和. Cache #0. Cache #1. ……. Cache #15. Cache Controller. Memory. SRAM. SDRAM. IDE. 主要思路. Interleaved Pipeline 16xCPU. NIOSII Processor #0_MMU. NIOSII Processor #1_Cplx. NIOSII Processor #2_PCI-E. 16Clk. 1Clk.

Download Presentation

基于 FPGA 的处理器多周期时分复用功能级模拟

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于FPGA的处理器多周期时分复用功能级模拟 • 清华大学计算机系高性能计算所 张悠慧 2010.10

  2. 研究背景 • 核的增加和

  3. Cache #0 Cache #1 …… Cache #15 Cache Controller Memory SRAM SDRAM IDE 主要思路 Interleaved Pipeline 16xCPU NIOSII Processor #0_MMU NIOSII Processor #1_Cplx NIOSII Processor #2_PCI-E

  4. 16Clk 1Clk 发射16条指令 来自模拟的16个处理器 主要思路 完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段 每个流水段上依次经过16个核的指令

  5. 验证评估 • 通过设计时的考虑和一些实现上的优化手段,以及后期的布线参数约束。最终实现的模拟器的能够在200Mhz的工作频率下稳定地运行测试程序,即折合16核系统的全系统模拟频率12.25Mhz (200Mhz / 16)。 • 目前已知最快的软硬件混合的多核模拟器之一PROTOFLEX的模拟频率为90Mhz (16核)。但需要注意的是,虽然都是基于RISC架构的指令集,但Sparc架构还是较MIPS来的复杂,因此该对比仅作为参考。

  6. BEE3-LX155T-2C Xilinx Virtex-5 XC5VLX110T 集成了四片Xilinx LX155T FPGA芯片、64GB DDR2内存、8个10G以太网接口、4个PCI-E接口的大规模开发平台。 预计可以模拟几百核至近千核的多核多芯片系统(采用时分复用模式),包括其互连、存储层次等结构。

  7. 预期成果 • FPGA模拟器的可综合RTL代码以及相关工程文件 • 相关开发文档以及使用手册 • 关键技术说明文档或者技术论文 • 相应的测试用OS、编译器以及测试代码(采用第三方开源软件) • 验收方法 • 展示FPGA演示系统 • 功能检查、运行频率检查(根据量化指标) • 文档、代码检查 • 帮助进行系统迁移、安装。

  8. 基本目标 • 规模:64核规模,80结点互连网络规模( 支持虚通道) • 频率: 80Mhz • 良好目标 • 规模:128核规模,256结点互连网络规模 • 挑战目标 • 规模:128核规模 + 256结点互连网络规模(需要跨片实现)

  9. 项目进度 • 阶段一 (三个月) • 确定细化技术方案,给出细致指标; • 完成初步的内核模拟代码,以及RTL功能仿真; • 完成互连模拟的RTL代码(支持跨片设计)。 • 阶段二 (七到九个月) • 代码综合、上板调试 • 完成原型系统 • 集成软件部分 • 阶段三(二到三个月) • 调整优化 • 系统展示

  10. 16Clk 1Clk 发射16条指令 来自模拟的16个处理器 完成16条指令的执行 Interleaved Pipeline 16xCPU 每条指令依次经过16个流水段 每个流水段上依次经过16个核的指令

  11. 未来工作

  12. 面向IA64的处理器体系结构模拟、故障注入与跟踪(设计阶段)面向IA64的处理器体系结构模拟、故障注入与跟踪(设计阶段) • IA64处理器的微体系结构模拟 • 提供内核、存储层次、互连网络等多层次的故障注入接口 • 内部模拟实现了多种主流容错技术,可以直接配置运行 • 提供容错技术开发接口,以开发新的容错功能模块

More Related