590 likes | 933 Vues
CAE-CFD应用高性能集群实例分析. CAE HPC 技术简介 CAE 产品及 HPC 性能分析. 目录. 两种内存构架的硬件系统 共享内存, SMP Server 分布内存, Cluster Server 两种并行算法 共享内存并行算法 -SMP(OpenMP) 分布内存并行算法 -DMP(PVM, MPI). CAE HPC 技术简介. 共享内存并行算法 只能在 SMP Server 上运行 多个 CPU 或计算内核共享一个内存寻址空间 优势: <8 路并行效率高 并行代码相对简单 安装调试简单 劣势: >8 路内存带宽瓶颈 可扩展性较差.
E N D
CAE HPC技术简介 CAE产品及HPC性能分析 目录
两种内存构架的硬件系统 共享内存,SMP Server 分布内存,Cluster Server 两种并行算法 共享内存并行算法-SMP(OpenMP) 分布内存并行算法-DMP(PVM, MPI) CAE HPC技术简介
共享内存并行算法 只能在SMP Server上运行 多个CPU或计算内核共享一个内存寻址空间 优势: <8路并行效率高 并行代码相对简单 安装调试简单 劣势: >8路内存带宽瓶颈 可扩展性较差 CAE HPC技术简介
分布内存并行算法 能在SMP Server或Cluster Server上运行 每个计算进程独享一段连续的内存空间 Cluster中的每台计算机内部可以是SMP构架 优势: 优秀的可扩展性 劣势: 并行代码相对复杂 安装运行相对复杂 CAE HPC技术简介
互联 (Interconnect) - 计算节点之间的数据交换的硬件和通讯协议 常见的互联种类 以太网 (百兆/千兆/万兆) Myrinet (Myricom, Inc.) Infiniband (Voltaire, Silverstorm, Cisco, etc.) QsNet (Quadrics Ltd.) MPI (Message Passing Interface) - 计算进程间的数据交换的软件中间件 常见的MPI软件 MPICH(2) LAM MPI HP MPI MS MPI CAE HPC技术简介
评价互联的性能指标 带宽:单位时间能够传输的数据量,通常以每秒多少比特来表示 千兆以太网的理论带宽:1G bit/s Myrinet, Infiniband, QsNet等:10Gb~几百Gb/s 延迟:一个信息包从一个节点传输到另一个节点所需要的时间 千兆以太网:几十到几百微秒 Myrinet, Infiniband, QsNet等高速互联:几微妙 扩展性:集群可以扩展的CPU或节点数量 低CPU占用:互联占用CPU资源的比率 CAE HPC技术简介
全面支持最新的32/64位双核处理器和操作系统 Windows 32&64-bit / Linux / Unix IA-32, Intel EM64T & Itanium2(IA-64), AMD64, RISC 与众多软、硬件厂商有着广泛的合作 Microsoft / HP / SGI / IBM / Sun / Intel / AMD 多种平台代码优化,提高并行效率 Windows CCS 2003, MS-MPI SGI ProPack 3/4, MPT HP, HP-MPI HPC简介及性能分析
对FEA求解器不断进行优化和创新 19xx年xx月,第一个SMP版本(V4.3) 2000年11月,第一个DMP—DDS 2003年11月,DPCG, DJCG 2004年05月,1.11亿自由度 2004年06月,支持x64; 2004年11月,DSPARSE, DANSYS 2005年08月,高速互联(如Voltaire) 2005年11月,SC05展示支持WCCS 2006年11月,DLANPCG(v11) …… HPC简介及性能分析
HPC简介及性能分析 • 2004年5月,ANSYS在纳斯达克股市发布求解一亿自由度的有限元问题。
SC05, 西雅图, ANSYS在WCCS上的演示: 操作系统: Windows Compute Cluster Server 2003 应用软件: ANSYS 11.0 开发版 硬件系统: 四台双路Intel Xeon服务器+一台双路工作站 互联: Infiniband (Voltaire ) 模型:24M自由度汽车悬挂 HPC简介及性能分析
ANSYS求解器的HPC特性: 大内存 高性能IO 高性能互联 HPC简介及性能分析
ANSYS 对内存的需求: 每百万自由度需要的内存 DPCG, 大约1.5-2.0 GB/MDOF DPCG (MSAVE,ON), 大约0.5~0.7G/MDOF DSPARSE (out-core), 1~1.5 GB/MDOF DSPARSE (In-core), 10~15GB/MDOF 虚拟内存(或swap)严重影响速度 内存的存取速度是硬盘的几十~几百倍! 计算主进程比从进程需要更大内存 主进程担负更多 (数据管理、域划分等) 32-bit 还是 64-bit 232 = 4,294,967,296 (4 GB) 264 = 18,446,744,073,709,551,616 HPC简介及性能分析 基于Intel Woodcrest的主板 16个内存插槽!!!
HPC简介及性能分析 • ANSYS 11.0 Preview5 • 曙光A950, 8路16核, 32G内存, 3x73GB Ultra 320 SCSI Raid0 • Windows Enterprise Server 2003 x64 + Compute Cluster Pack • 45M DOF, 线性静力分析, • DPCG求解器(MSAVE,ON), MS-MPI, 4CPU并行
HPC简介及性能分析 • 峰值内存占用达30G! • 结果文件达13G! • Solver Time 6.6小时 • Wall Time 12.3小时
ANSYS对I/O的需求: 每百万自由度需要的存储空间 DPCG, 大约 0.5 GB/MDOF DSPARSE (out-core), 大约10 GB/MDOF 主进程需要持续的高性能I/O 减少I/O对CPU的占用 避免共享文件夹/NFS 并行I/O系统(Raid 0) HPC简介及性能分析 I/O
HPC简介及性能分析 • ANSYS 支持所有主流的高速互联: • Ethernet (Gigabyte, 10G) • Myrinet • Infiniband (Voltaire) • Quadric • 即使的CPU数量较少,Infiniband比千兆以太网仍有明显优势。
HPC简介及性能分析 • ANSYS对CPU的要求: • 64位(32位?) • 高浮点运算能力 • 支持双核或多核 • 高浮点运算能力(赛扬?)
HPC简介及性能分析 • 精确、可靠、高效、成熟的一流商用CFD软件(Fully Implicit, coupled multigrid solver) • 全面支持最新的HPC技术 • 大规模集群计算 • 双核、多核、64-bit • 高速互联(Myri, IB, etc.) • 不断提高代码并行效率 • Microsoft, WCCS 2003 • HP, HP-MPI • SGI, ProPack MPT
HPC简介及性能分析 • 高并行度:384+CPU并行,64CPU以下接近线性 • 高灵活性:允许Windows/Linxu/Unix混合并行! • 高易用性:设置极为简单,自动/定制并行域划分 • 高适用性:支持所有物理模型(多参考系/多相流/燃烧/等)
HPC简介及性能分析 • 多种域划分方式
HPC简介及性能分析 • CPU的增多并不显著增加总内存的需求 • 4.2M单元,总内存随CPU增加基本保持恒定(15%) • 主进程不需要比从进程更多内存 • 小内存的集群可求解大问题!
HPC简介及性能分析 • “杀富济贫”功能
16 Partitions HPC简介及性能分析 • 并行有串行求解同样“美丽”的“减肥”(收敛)曲线 16-CPU 单CPU
HPC简介及性能分析 • CFX求解器的HPC特性: • 足够的内存即可(建议最多4G/核) • Hexa 大约0.9~1G / 1M单元 • Tetra 大约0.65~0.7G / 1M单元 • I/O要求不高(相对ANSYS) • 大约0.5G / 1M单元 • 需要多CPU多核 • 集群
HPC简介及性能分析 Test case: bigpipe
HPC简介及性能分析 CFX在512-CPU的CRAY-T3E超级计算机上的并行测试。300万节点问题。
Processor 3 Processor 1 Processor 4 Processor 2 HPC简介及性能分析 • 专门解决冲击、爆轰等问题的非线性动力学显式分析软件 • 丰富的求解器 • Lagrange, Euler, ALE, SPH, etc. • 支持的计算平台及并行中间件 • Microsoft Windows, WMPI • Linux x64 & IA-64(Itanium2), PVM, HP-MPI(soon) • HP-UX, PVM, HP-MPI(soon)
HPC简介及性能分析 • 高性能并行求解器
HPC简介及性能分析 • 飞机撞击世贸大厦的模拟 • 强大的并行计算能力 • 重启动功能
HPC简介及性能分析 • 4-CPU AUTODYN并行计算性能测试 • 1,728,000单元、1,771,561节点 • AUTODYN 6.0, PVM
HPC简介及性能分析 • LS-DYNA - 通用瞬态动力学有限元软件 • 最广泛的HPC技术的支持 • 第一个正式发布支持WCCS2003的商业CAE软件 • x64平台支持多种MPI: MPICH, LAM, HP-MPI, Intel MPI, Scali • 支持多种高速互联构架 • Infiniand (Voltaire, etc.) • Myrinet (SSC) • SGI NumaLink (MPT) • InfiniPath • Cray RapidArray • 硬件商最喜欢的M-CAE软件
HPC简介及性能分析 • LS-DYNA MPP 970 7600.398支持的硬件/OS/互联/MPI
HPC简介及性能分析 • www.topcrunch.org 3车碰撞算例 • 共794,789单元 • 150毫秒
HPC简介及性能分析 • WCCS2003 / Linux上性能对比测试—上海超级计算中心 • 测试算例:汽车侧撞 • 总单元数: 745,892 • 总节点数: 678,733 • 碰撞时间: 90微秒 • 测试机器:曙光4000A
HPC简介及性能分析 • 测试结果对比
HPC简介及性能分析 • LS-DYNA MPP 的HPC特性 • 足够的内存(建议每核2~4G) • 大容量存储 • 高CPU浮点计算 • 高性能互联
唯一采用MOM/MLFMM/PO/UTD/FEM,精确方法和高频近似方法混合的专业电磁仿真软件唯一采用MOM/MLFMM/PO/UTD/FEM,精确方法和高频近似方法混合的专业电磁仿真软件 基于MPI的DMP算法 并行效率~0.8(32个CPU达26倍) 支持各类硬件平台和OS Windows 32 / x64 / IA64 Linux 32 / x64 /IA64) Unix HPC简介及性能分析
使用多种工具调优,提高并行度 GNU gprof, Intel VTune, IBM/Rational PurifyPlus, AMD CodeAnalyst, … DMP开发历史 1994年开始使用RPC (Remote Procedure Call) PVM 1995年开始转向MPI(MPICH, Scali, Intel MPI etc.) HPC简介及性能分析
FEKO 目前可用的MPI软件: MPICH and MPICH-2 (for Windows & Linux) ScaMPI from Scali (first MPI supporting the SCI interface) HP-MPI NEC MPI SGI MPT (e.g. for Altix with NumaFlex technology) CRAY MPT SCore GM Parastation MPI Intel MPI HPC简介及性能分析
HPC简介及性能分析 • 卡塞格伦天线辐射特性分析(176,606未知量)