2012-05-01から1ヶ月間の記事一覧
2009 年に Tesla C1060 を購入したが、倍精度演算の性能が低く SDPA の計算等にはあまり役に立たなかった。もちろん Tesla C2075 等を使えば GPU の方が計算が高速となる。 1: SDPA 7.4.0 では ELEMENTS も CHOLESKY も CPU 4コアのみ 2: SDPARA 7.5.0 では …
講演会「GPUコンピューティングの新しい方向性」が今週の金曜日に開催される予定になっています。現時点ではあまり情報量の多くない OpenACC のチュートリアルも開催されます。私も参加予定です。 主催: 東京工業大学学術国際情報センター・クレイジャパン …
今度は OpenMPI と mvapich2 との性能比較(両者との最新版を使用)。意外と OpenMPI の方が速かった。 ◯ソフトウェア SDPARA 7.5.0-G ◯問題:tai26a.dat-s ◯mvapich2 1.8 [gpdpotrf] ### END n=211926, nb=1024 took 1637.971177sec --> 1936.980342GFlops …
現在は以下の 4GPU 搭載マシンを2台導入している。アプリと性能は最近のブログに書いた通り。 SuperServer 7046GT-TRF-FC475 80PLUS Gold Level 7046GT-TRF-FC475 • Up to 4 Double-Width GPUs: 4x NVIDIA Fermi C2075 GPU Cards (SYS-7046GT-TRF-FC475) • …
今度は以下の計算サーバを2台並べて Infiniband で接続して実行を行ってみた。4CPU, 8GPU で Cholesky 分解については 1966 GFlops の性能だった。 ◯ソフトウェア SDPARA 7.5.0-G ◯問題:tai26a.dat-s [gpdpotrf] ### END n=211926, nb=1024 took 1613.6750…
以下の opt クラスタ(16ノード, 32CPU, 192コア)と 4 GPU 搭載の計算サーバ(1ノード, 2CPU, 12コア)で SDPARA 7.5.0 の比較実験を行った。 ◯Cholesky 分解について opt クラスタ : 35446秒 計算サーバ : 39768秒 32 CPU と 4 GPU では、Cholesky 分解に関し…
いろいろと実行してみたが、現状では 1057GFlops 程度の性能が 4GPU での Cholesky 分解の限界となっている。 行列サイズ:152928 :理論計算量 1.1922e+15 [gpdpotrf] ### END n=152928, nb=1024 took 1127.052278sec --> 1057.780875GFlops ### ◯ 計算サー…
とりあえず1ノードだけで、どれだけ性能が上がるかを確認する実験。以下のサーバ1台を使用した。1台でも4GPU で 1TFlops ぐらいの性能はとりあえず出ます。 行列サイズ:88641 :理論計算量 2.3216e+14 [gpdpotrf] ### END n=88641, nb=1024 took 232.00…
最新版 SDPARA 7.5.0-G で採用している並列 Cholesky 分解について。性能が良いのはやはり一番下のアルゴリズムとなる。
以下の研究集会が7月に京都で開催されます。講演申し込みは 6/8 となっております。と言いましても私自身は他の用事と重なるために参加できません。 京都大学数理解析研究所(RIMS)研究集会 「最適化手法の理論と応用の繋がり」のご案内 --------------------…
先日、GPU Technology Conference 2012 (GTC 2012)が5月14日より米カリフォルニア州サンノゼで開催され、そこで Kepler 2 の発表が行われた。 詳細はこちらのレポート等を参照していただくとして、以下の機能等は HPC 分野において注目されている。 ◯Hyper-Q…
海外から送られてきた以下の問題。mDIM が 66044 と大きめなので、通常の環境では解きにくい問題となっている(実際に 192 ノードで 5362秒)。さらに全体の計算時間の 92% が Cholesky 分解となっており、先日作成した GPU 版などが有効に動作すると予想。 66…
東工大 TSUBAME2.0 グランドチャレンジ(超大規模アプリケーション)制度 採択情報を見ると東工大内部の採択だけと言っても良い状況(外部に見えても基本的に TSUBAME 関係者との共同研究)。学外からは敷居が高いと思われる状況もあり、その辺は改善を要す…
イノベーションジャパン 2012 が以下の日時と場所で開催されます。日程的には日本OR学会の RAMP シンポジウム(東北大学)と完全に重なっています。出展ならば私がいなくても可能だということで。。。 イノベーション・ジャパン2012-大学見本市 開催概要 名 …
大阪市内の話になるが、東南海・南海地震に上町台地西側10区(淀川区、西淀川区、此花区、福島区、西区、港区、浪速区、大正区、住之江区)に対しては、市内に立地する堅固な施設を津波時に避難できる施設として確保されている。 京セラドーム大阪・周辺デッ…
もうすぐ提出締切りです。いろいろな噂がありますが、あくまでも噂ですのでここには書けません。今回は大規模から小規模まで複数の箇所でいろいろと実行してみました。反省点もちょっと多いです。 Graph 500 Submissions June 2012 List The submission dead…
Finding and evaluating community structure in networks We propose and study a set of algorithms for discovering community structure in networks―natural divisions of network nodes into densely connected subgroups. Our algorithms all share t…
以下の論文では、避難経路策定時における The Universally Quickest Flow を取り上げているが、sink 上に流れ込む流量の総量に上限があると The Universally Quickest Flow が存在しないので、その近似の計算方法等について議論を行っている。これからの興味…
MVAPICH2 1.8 がリリースされたので、一つ前のバージョン 1.8a2 との性能差を比較してみた。性能差はほとんど無いが、最新のバージョンに上げておく方が得策である。 ◯SDPARA 7.4.0 ◯問題:tai15a.dat-s 1.8a2 : 203.74s 1.8 : 203.95s ◯問題:NH3+.2A2".STO…
◯ソフトウェア SDPA 7.4.0 Intel Compiler の新バージョン(2011.10.319)がリリースされたので、過去のバージョンとの性能差を調べてみた。前回と同じだが、特に性能差は見られない。 ◯問題:FH2+.1A1.STO6G.pqgt1t2p.dat-s 2011.5.220 : 98.713s 2011.6.233 …
今度は SandyBridge-EP のマシン(32コア)で同じ実験を行ってみた。 ◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06 Gurobi 5.0.0 : 9.62秒 CPLEX 12.4 : 18.60秒 ○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697 Gurobi 5.0.0 :…
Gurobi 5.0.0 と CPLEX 12.4 との比較実験。今回は以下の計算サーバで80コア(HT)を用いた。 ◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06 Gurobi 5.0.0 : 37.91秒 CPLEX 12.4 : 34.48秒 ○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最…
仮オープン中です。とは言っても現時点で特に見られて困る情報はありません(と思います)。 JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化基盤のHP
Gurobi 5.0 がリリースされたそうです。主な変更点は以下の通りです。 【Gurobi 5.0での変更点】 2次制約への対応 既存機能のLP(線形計画法)、QP(2次の目的関数)、MIP(混合整数)に、QCP(2次制約)とMIQCP(混合整数2次制約)を加えました。これによっ…
ScaLAPACK で使用している two-dimensional block-cyclic data layout については以下のサイトが参考になる。 The Two-dimensional Block-Cyclic Distribution The Two-dimensional Block-Cyclic Distribution の一般的な説明について Local Storage Scheme …
5月1日にScaLAPACK 2.0.2 がリリースされた。詳細な中身はわからないが、2.0.2 の新特徴は以下の通りとなっている。SDPARA 7.5.0 では 2 dimensional block-cyclic distribution の要素を直接作成しているが、下半分(下三角行列)のみを作成して ScaLAPAC…
以下の SOTA つくば合宿ですが、宿泊の申し込みも 5月25日締切りとなっております。一般講演の発表時間は申し込み数にも依存しますが、例年ですと15から20分程度になります。早めに申し込み下さい。 最適化の理論と応用 -- 未来を担う若手研究者の集い20…
SDPARA 7.4.0 と 7.5.0 の比較を行う。主な違いは後者では2次元の block-cyclic distribution を ScaLAPACK の関数を用いて間接的に作成するのではなく、直接的に作成するところにある。その結果、以下のように使用するメモリ量に関しては問題によって大き…
まだ先の話しですが、以下のフォーラムが9月に予定されています。我々の研究コミュニティや CREST でもフォーラム内の特別企画に協力する予定です。 FIT2012 情報科学技術フォーラム 電子情報通信学会情報・システムソサイエティ(ISS)及びヒューマンコミ…
SDPA で様々な BLAS を使用するときの configure & make の方法について、以下に一例を示す。 ◯ ATLAS export SDPA_HOME=/home/fujisawa/sdpa7.intel export CC=icc export CXX=icpc export F77=ifort export CFLAGS="-openmp" export CXXFLAGS="-O2 -openmp…