指导老师：张悠慧

基于FPGA的 可定制处理器片上通讯仿真与优化清华大学计算机系高性能计算所钱自强 2011.4.11 指导老师：张悠慧

主要内容 • 研究目标 • 为何要使用定制化处理器内核 • 当前超级计算面临的发展瓶颈 • 原因分析 • 定制化处理器现状 • Tensilica Xtensa,LEON3,MicroBlaze • 如何优化定制化处理器的通讯协议 • 通讯成为定制化超级计算的瓶颈问题 • 研究内容与方法 • 基础工作 • 时间规划

目标 • 面向基于可定制处理器的超级计算，提供片上通讯的仿真与优化平台 • 基于MPI形式的显式消息通讯的高效实现方案的探索 • 基于ShareMemory形式的Cache一致性协议的多核模拟平台 • 多FPGA跨板协同模拟方案的探索

为何要用定制化处理器 • 依照现有技术可以达到10-20PFlops的性能；但对于更高的目标，如100PFlops，我们需要一个技术上的巨大变革。 • Cray公司CEO, Peter Ungaro. 2009/07/30

2020 — EFlops 高性能计算现状 From The TOP500 Project: Looking Back over 15 Years of Supercomputing Experience. By Hans Werner Meuer, 2008.

发展瓶颈 • 功耗已成为超级计算进一步发展的瓶颈处理器功耗与面积的增长要快于性能的提升。 Intel’s Own Assessment 用于超级计算机的动力耗费已经接近其研发成本 ($ 72亿 vs. 92亿)。 From Is HPC Going Green? Looking at how we can change the power equation. By Horst D. Simon, ISC 2008. In addition if we say optimistically that today 1 core at 12 Gflops dissipates 25 watts including cooling, we currently need over 2 MW to operate a petaflops machine, 22.5 MW for a 10 petaflops machine and 2.25 GW for an exascale one, which corresponds to 1.4 EPR nuclear plants at 1.6 GW. From Trends for high-performance scientific computing. By WILLIAM J. CAMP. Intel. 2009.

Power5 (Server) • 389mm^2 • 120W@1900MHz • Intel Core2 sc (laptop) • 130mm^2 • 15W@1000MHz • ARM Cortex A8 (automobiles) • 5mm^2 • 0.8W@800MHz • Tensilica DP (cell phones / printers) • 0.8mm^2 • 0.09W@600MHz • Tensilica Xtensa (Cisco router) • 0.32mm^2 for 3! • 0.05W@600MHz • 通用处理器的性耗比低 Xtensa x 3 TensilicaDP ARM Intel Core2 Power 5 每个core的性能是最大core的 1/10，但是可以放100X的 core在同一个芯片里消耗的功耗仍然只有原来的1/20

原因分析 • 基于通用处理器的高性能计算机系统的现有问题 • 1. 存在资源浪费严重的问题 • 据伯克利劳伦斯国家实验室的研究，300余条X86指令中，大致只有80余条是被科学计算所需要的 • 2.不同类型应用对于处理器微体系结构的需求不同(A NERSC/CRD study that examined the dual-core AMD processor used in the Cray XT3&4 , )

定制化处理器的研究现状

处理器定制 • 针对气象预报进行指令的优化和扩展 • 应用相关的内存与互连接口优化 • 互连拓扑结构定制 • 核间快速通信接口扩展技术 • 支持MPI并行编程模式的处理器内核间快速通信接口与片上DMA机制

基础工作 • TensilicaXtensa可定制处理器 • 案例：Green Flash • 相比通用处理器，每瓦特浮点计算效率提高了400倍 • 运行峰值性能达到200PFlops，功耗低于4M瓦特，远低于传统结构下200M瓦特的预估功耗

TensilicaXtensa特点 • 可配置性 • 通过下拉菜单和复选框等方便的选择所需的部件，包括DSP等 • 可扩展性 • 设计者可以添加自己的指令、寄存器、寄存器文件以及其它Tensilica提供的特性 • 自动生成RTL及Tool Chain

LEON3 • LEON3基于FPGA的处理器内核模拟 • LEON3是一种基于SPARC V8的32位处理器 • 在Xilinx XUP V5上进行了模拟 • 可以进行单核和多核配置（1-16）

MicroBlaze • MicroBlaze一个被Xilinx公司优化过的可以嵌入在FPGA中的RISC软核工具软件 • MicroBlaze 拥有超过 70 种配置选项 • 支持从超小型嵌入式微控制器到运行 Linux 的高性能嵌入式计算机的各种配置

定制化处理器的通讯问题

通讯成为定制化超级计算的瓶颈问题 • 通讯开销在超级计算中占了很大比重

通讯成为定制化超级计算的瓶颈问题 • 定制化处理器对由于资源开销小，往往会在一个节点内大量部署，此时减节点内的通讯开销有着明显的意义

研究方法与手段 • 基于ShareMemory形式的Cache一致性协议的多核模拟平台

研究方法与手段 • 基于MPI形式的显式消息通讯的高效实现方案的探索

研究方法与手段 • 多FPGA跨板协同模拟方案的探索

时间安排

Thank you!

指导老师：张悠慧

指导老师：张悠慧

Presentation Transcript