Conference Paper 2009 IEEE : Institute of Electrical and Electronics Engineers Green multicore-SoC software-execution framework with timely-power-gating scheme
タイムリーパワーゲート方式を用いたグリーンマルチコア-SoCソフトウェア実行フレームワーク
Masafumi Onouchi, Keisuke Toyama, Toru Nojiri, Makoto Sato, Masayoshi Mase, Jun Shirako, Mikiko Sato, Masashi Takada, Masayuki Ito, Hiroyuki Mizuno, Mitaro Namiki, Keiji Kimura, Hironori Kasahara
【抄録】We are developing a software-execution framework based on an octo-core chip multiprocessor named RP2 and an automatic multigrain-parallelizing compiler named OSCAR. The main purpose of this framework is to maintain good speed scalability and power efficiency over the number of processor cores under severe hardware restrictions for embedded use. Key to the speed scalability is reduction of a communication overhead with parallelized tasks. A data-categorization scheme enables small-overhead cache-coherency maintenance by using directives and instructions from the compiler. In this scheme, the number of cache-flushing time is minimized and parallelized tasks are quickly synchronized by using flags in local memory. As regards power efficiency, to reduce power consumption, power supply to processor cores waiting for other cores is timely and frequently cut off, even in the middle of an application, by using a timelypower- gating scheme. In this scheme, to achieve quick mode transition between "NORMAL" mode and "RESUME POWEROFF" mode, register values of the processor core are stored in core-local memory, which is active even in "RESUME POWEROFF" mode and can be accessed in one or two clock cycles. Measured speed and power of an application show good speed scalability in execution time and high power efficiency, simultaneously. In the case of a secure AAC-LC encoding program, execution speed when eight processor cores are used can be increased by 4.85 times compared to that of sequential execution. Moreover, power consumption under the same condition can be reduced by 51.0% by parallelizing and timely-power gating. The time for mode transition is less than 20 μsec, which is only 2.5% of the "RESUME POWER-OFF" period. © 2009 IEEE.
【抄録日本語訳】我々は、RP2というオクトコアチップマルチプロセッサとOSCARという自動多列化コンパイラをベースに、ソフトウェア実行フレームワークを開発しています。このフレームワークの主な目的は、ハードウェアの厳しい制約の中で、プロセッサコアの数に応じて良好な速度スケーラビリティと電力効率を維持することであり、組み込み用途に適している。速度スケーラビリティの鍵は、並列化されたタスクの通信オーバーヘッドを削減することです。データ分類方式は、コンパイラの指示・命令により、オーバーヘッドの小さいキャッシュコヒーレンシ維持を可能にする。この方式では、キャッシュフラッシュ回数を最小化し、ローカルメモリ上のフラグを利用して並列化タスクを高速に同期させることができる。電力効率に関しては、消費電力を抑えるために、アプリケーションの途中でも、他のコアを待っているプロセッサコアへの電力供給を適時、頻繁に遮断するタイムリーパワーゲート方式を採用しています。この方式では、「NORMAL」モードと「RESUME POWEROFF」モード間の素早いモード遷移を実現するために、プロセッサコアのレジスタ値をコアローカルメモリに格納し、「RESUME POWEROFF」モードでもアクティブで1〜2クロックサイクルでアクセスできるようにしています。アプリケーションの実行速度と消費電力を測定した結果、実行時間における優れた速度スケーラビリティと、高い電力効率が同時に確認されました。セキュアなAAC-LC符号化プログラムの場合、8つのプロセッサコアを使用した場合の実行速度は、逐次実行に比べて4.85倍に向上しました。また、並列化とタイムリーパワーゲートにより、同じ条件下での消費電力を51.0%削減することができます。モード移行時間は20μsec以下と、「RESUME POWER-OFF」期間の2.5%に過ぎません。© 2009 IEEE.