Conference Paper 2005 Springer Performance of OSCAR multigrain parallelizing compiler on SMP servers
SMPサーバにおけるOSCAR多列化コンパイラの性能評価
Kazuhisa Ishizaka, Takamichi Miyamoto, Jun Shirako, Motoki Obata, Keiji Kimura, Hironori Kasahara
Lecture Notes in Computer Science
【抄録】This paper describes performance of OSCAR multigrain parallelizing compiler on various SMP servers, such as IBM pSeries 690, Sun Fire V880, Sun Ultra 80, NEC TX7/i6010 and SGI Altix 3700. The OSCAR compiler hierarchically exploits the coarse grain task parallelism among loops, subroutines and basic blocks and the near fine grain parallelism among statements inside a basic block in addition to the loop parallelism. Also, it allows us global cache optimization over different loops, or coarse grain tasks, based on data localization technique with inter-array padding to reduce memory access overhead. Current performance of OSCAR compiler is evaluated on the above SMP servers. For example, the OSCAR compiler generating OpenMP parallelized programs from ordinary sequential Fortran programs gives us 5.7 times speedup, in the average of seven programs, such as SPEC CFP95 tomcatv, swim, su2cor, hydro2d, mgrid, applu and turb3d, compared with IBM XL Fortran compiler 8.1 on IBM pSeries 690 24 processors SMP server. Also, it gives us 2.6 times speedup compare with Intel Fortran Itanium Compiler 7.1 on SGI Altix 3700 Itanium 2 16 processors server, 1.7 times speedup compared with NEC Fortran Itanium Compiler 3.4 on NEC TX7/i6010 Itanium 2 8 processors server, 2.5 times speedup compared with Sun Forte 7.0 on Sun Ultra 80 UltraSPARC II 4 processors desktop workstation, and 2.1 times speedup compare with Sun Forte compiler 7.1 on Sun Fire V880 UltraSPARC III Cu 8 processors server. © Springer-Verlag Berlin Heidelberg 2005.
【抄録日本語訳】本論文では、IBM pSeries 690, Sun Fire V880, Sun Ultra 80, NEC TX7/i6010, SGI Altix 3700といった様々なSMPサーバにおけるOSCAR多列化コンパイラの性能を説明します。OSCARコンパイラは、ループ並列に加え、ループ、サブルーチン、基本ブロック間の粗粒度タスク並列、基本ブロック内のステートメント間の細粒度に近い並列を階層的に利用します。また、配列間パディングを用いたデータ局在化技術により、異なるループや粗粒子タスクに対するキャッシュの最適化を行い、メモリアクセスのオーバーヘッドを削減します。上記のSMPサーバにおいて、OSCARコンパイラの現在の性能を評価しました。例えば、通常の逐次処理FortranプログラムからOpenMP並列プログラムを生成するOSCARコンパイラは、IBM pSeries 690 24プロセッサのSMPサーバにおいて、SPEC CFP95 tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3dの7プログラムの平均で、IBM XL Fortran compiler 8.1 と比較して5.7倍高速化することを確認できました。また、SGI Altix 3700 Itanium 2 16 プロセッササーバ上の Intel Fortran Itanium Compiler 7.1 と比較して 2.6 倍、NEC TX7/i6010 Itanium 2 8 プロセッササーバ上の NEC Fortran Itanium Compiler 3.4 と比較して 1.7 倍、2.8 倍の高速化が達成されました。 また、Sun Ultra 80 UltraSPARC II 4 プロセッサのデスクトップワークステーションでは Sun Forte 7.0 と比較して 2.5 倍、Sun Fire V880 UltraSPARC III Cu 8 プロセッサのサーバーでは Sun Forte コンパイラ 7.1 と比較して 2.1 倍のスピードアップを実現しています。© Springer-Verlag Berlin Heidelberg 2005.