SDPA と様々な BLAS その３

Weblog

研究室所有の PC と iMac が同じ以下の CPU だったので、SDPA 7.4.0 の性能比較を行った。今度は BLAS として ATLAS を加えて行ってみる予定。OS やコンパイラなどの環境が異なるので、ちょっとした参考まで。 CPU : Intel(R) Core(TM) i7-2600K CPU @ 3.40G…

2012-04-29

SDPA と様々な BLAS その２

Weblog

前回と同じ実験を SandyBridge-EP を用いて行ってみた。Intel MKL と ATLAS では随分と性能差があるという結果が。 ○問題１：theta6.dat-s SDPA 7.4.0 + Intel MKL 10.3.9-293 : 5.757秒 SDPA 7.4.0 + ATLAS 3.9.72 : 9.044秒 ○問題２：FH2+.1A1.STO6G.pqgt1…

2012-04-28

SDPA と様々な BLAS

Weblog

GotoBLAS2, Intel MKL, ATLAS の最新版を用いて比較実験を行った。やはり最適化 BLAS と言っても以下のように性能差がある。 ○問題１：theta6.dat-s SDPA 7.4.0 + GotoBLAS2 : 8.469秒 SDPA 7.4.0 + Intel MKL 10.3.9-293 : 9.762秒 SDPA 7.4.0 + ATLAS 3.9.…

2012-04-27

Mac OS X Lion 上での SDPA

Weblog

Mac OS X Linux 上での SDPA の make 及び実行方法についてまずは XCode Tools のインストール。その後で HPC for Mac から gcc 最新版 4.8.0 をダウンロードして使用する。 HPC for Mac http://hpc.sourceforge.net/ Mac Mini での実験結果。 SDPA start a…

2012-04-26

クラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPO（D&C）

Weblog

以下のクラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPOは同時開催となっております。共同研究先が展示を行っている関係もありますので、両方とも（同じ場所ですので）参加する予定です。クラウドコンピューティングEXPO春第3回クラウ…

2012-04-25

TSUBAME 2.0 と SDPA, SDPARA　その２４

Weblog

行列サイズを N とすると Linpack の計算量は (2 / 3) * N * N * N + 2 * N * N となる。一方 Cholesky 分解の計算量は N * (1/3 + N * (1/2 + N / 6)) + N * (N * N - 1) / 6 となる。例えば N = 1484406 ときの計算量は以下の通り。 Linpack : 2.1806e+1…

2012-04-24

次の Graph500 の締切り: June 2012

Weblog

次の Graph 500 の提出締切りが 5/15 に迫っております。前回は期日までに結果を提出した場合には１ヶ月の間に再提出が可能というルールが突然できましたが、今回も同じようなルールができることが予想されます。 Graph 500 Submissions June 2012 List The …

2012-04-23

TSUBAME 2.0 と SDPA, SDPARA　その２３

Weblog

現在、TSUBAME 2.0 のインタラクティブノードのログインに失敗する現象が発生している。しばらく待ってからログインすれば成功することが多いので、深刻な問題ではないようだが、３月末のメンテナンス後にはこの現象の発生頻度が増えているとのこと。ログイ…

2012-04-22

CREST・さきがけ平成２４年度研究提案募集

Weblog

CREST・さきがけ平成２４年度研究提案募集が現在行われています。個人的な経験から言いますと、いろいろな注意点やテクニックがあるのですが、それを公開して良いのかわかりませんので、知りたい方は直接連絡してください。募集締切：ＣＲＥＳＴ／平成２…

2012-04-21

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

Weblog

MVAPICH2 の最新版 1.8rc1 と OpenMPI の最新版 1.5.5 の性能を比較してみた。あまり変わらないのだが、いつものように少しだけ MVAPICH2 の方が速い。 ◯ソフトウェア SDPARA 7.5.0 RC2 ◯問題 tai14a.dat-s MVAPICH2 1.8rc1 : 107.22s OpenMPI 1.5.5 : 108.8…

2012-04-20

CREST と研究室ホームページ

Weblog

JST CREST プロジェクトのホームページと研究室のホームページはとりあえず以下のものを作成して公開を行っている。 JST CREST プロジェクトのホームページ : GraphCREST 研究室のホームページ現在これらのホームページとは異なった新しいホームページを作…

2012-04-19

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

Weblog

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1 の性能差を少しだけ比較を行ってみた。少しではあるが 1.8rc1 の方が高速となっている。 ◯ソフトウェア SDPARA 7.5.0 RC2 ◯問題 tai12a.dat-s MVAPICH2 1.8a2 : 29.74s MVAPICH2 1.8rc1 : 27.42s ◯問題 tai14a.dat-s MVAP…

2012-04-18

サーバの仮想化

Weblog

現在、最適化問題用の Online Solver を三つほど運用中である。 ◯最短路問題 Online Solver ◯SDPA Online Solver 1 ◯SDPA Online Solver 2 これらの目的と要求される性能を考慮すると、サーバ機能を実機で運用する必要性が低くなってきたので、これらの三つ…

2012-04-17

gcc 4.4.6 v.s. gcc 4.7.0

Weblog

CentOS 6.2 標準装備の gcc 4.4.6 と最新の gcc 4.7.0 の性能を比較してみた。両者の速度がほぼ同じという問題もあるが、多くの場合では gcc 4.7.0 の方がやはり性能向上が大きい。ソフトウェア SDPA 7.4.0 ◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s gcc 4.4…

2012-04-16

TSUBAME 2.0 と SDPA, SDPARA　その２２

Weblog

前回の TSUBAME 2.0 での実験において別の大きな問題 Truss502_full.dat-s も 1360CPU, 2040 GPU で解いてみたので、その結果を簡単に記しておく。 ◯SCM(Schur Complemet Matrix) の生成時間 1360CPU : 273.49s ◯SCM の Cholesky 分解の計算時間 2040 GPU : …

2012-04-15

gcc 対 Intel コンパイラその２

Weblog

Graph500 などの実装では、gcc の方が Intel コンパイラよりもはるかに実行速度が速くなっている。例えば OS として CentOS 6.2 を使うと gcc のバージョンも 4.4.6 とやや古いにも関わらず以下のように gcc の方がやはり速くなる。 ◯問題 LiH.1Sigma+.STO6G…

2012-04-14

第２４回 RAMP シンポジウム

Weblog

まだ正式なホームページは無いのですが、以下の内容で第２４回 RAMP シンポジウムを開催することになりました。日時： 2012年9月27日（木），28日（金）会場：東北大学実行委員長：村松正和（電気通信大学), 塩浦昭義（東北大学) 28日の午後に海外招…

2012-04-13

gcc 対 Intel コンパイラ

Weblog

SDPA 7.4.0 を用いて gcc 4.6.3 と icc 12.1.3 のコンパイラの性能比較を行った。やはり gcc の方が少しだけ性能が良いようだ。 ◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s 計算サーバ１ gcc 4.6.3 : 18.93s 計算サーバ１ icc 12.1.3 : 21.13s 計算サーバ２ gc…

2012-04-12

Windows 8 Consumer Preview で最短路 Online Solver

Weblog

Windows 8 Consumer Preview をWMware の仮想マシンのゲスト OS としてインストールした。以下のように firefox も動作するが、その上で最短路 online solver も正常通りに動作した。

2012-04-11

ISMP 2012

Weblog

数理計画や最適化等に関する最大の国際会議 ISMP が８月１９日から２４日の間にベルリンで開催されます。すでに Invited Session の Proposal は終了しておりますが、発表のアブストラクトの締切りが４月１５日、早期レジストレーションの締切りが６月１５日…

2012-04-10

SOTA つくば合宿一般講演募集中

Weblog

SOTA つくば合宿では一般講演者を募集しています。通常では下は M1 (B4 も可) から上はポスドク、助教の方ぐらいまでが対象です。というわけですので、当然私は不可となります。通常のOR学会の発表会よりも聴衆が多いので、こちらでの発表はおすすめです。 …

2012-04-09

iPad で Linpack

Weblog

以前 iPad で TSPを紹介したのだが、iPad で Linpack を試してみることもできる(iPhone 版もある)。 Linpack LINPACK Benchmark こちらにもいろいろな情報がある。今から何か最適化ソフトのデモを作るのであれば、iOS で作るのも良い選択肢になる。

2012-04-08

TSUBAME 2.0 と SDPA, SDPARA　その２１

Weblog

sko42 の問題に対する実験結果について。Cholesky 分解は行列サイズ n の３乗のオーダーだが、この計算の前に４乗オーダーの部分(SCM の生成)がある。ちなみに、この部分は疎性の利用と 2720 CPU の並列計算で 380 秒程度で通過できた。 ◯SCM(Schur Compleme…

2012-04-07

第12世代Dell PowerEdgeサーバ

Weblog

第12世代Dell PowerEdgeサーバこれまで Dell のサーバ(PowerEdge)を40 ～ 50 台ほど購入しましたが、おそらく二度と買わないと思います。Dell 側もアカデミック系はあまり重視していないようですし、そもそも全てのコアに高い負荷(浮動小数点)を掛けたとき…

2012-04-06

TSUBAME 2.0 と SDPA, SDPARA　その２０

Weblog

結局以下の問題の結果ですが、行列サイズ n=1484406 の Cholesky 分解に要した時間は 2045 秒で性能は約 533TFlops(4080 GPU を同時使用）となりました。 [gpdpotrf] ### END n=1484406, nb=1024 took 2045.108838sec --> 533114.411781GFlops ### ◯問題名 …

2012-04-05

TSUBAME 2.0 と SDPA, SDPARA　その１９

Weblog

TSUBAME 2.0 での大規模実験に備えて、さらに大きな問題を用意した。制約数は 1484406 となっているので、Cholesky 分解には 1.0903e+18 FLOP を要する（つまりエクサFLOP級の問題)。2180秒以下で解ければ 500TFlops を越える計算となる。 ◯問題名 : sko42.d…

2012-04-04

HyperThreading (HT)

Weblog

以下のように Westmere-EX の HyperThreading (HT)は場合によっては性能向上をもたらすことがあるが、SandyBridge-EP 方は HT を使ってもなかなか性能向上には結び付かない。HPC系のアプリでは性能が出ない方が普通なのでしょうが。問題名 : H2O.1A1.DZ.pqg…

2012-04-03

「最適化の理論と応用」研究部会：つくば合宿

Weblog

SCOPEの後継研究部会である SOTA でも以下のようにつくば合宿を予定しております。是非一般講演も含めて積極的にご参加ください。 ----------------------------------------------------------------------------------- 「最適化の理論と応用」研究部会（S…

2012-04-02

ＪＳＴＣＲＥＳＴポストペタ：平成２４年度研究課題公募について

Weblog

第３期（平成２４年度）公募の要綱が発表されています。ＪＳＴＣＲＥＳＴ「ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出」平成２４年度研究課題公募について http://www.jst.go.jp/kisoken/crest/ryoiki/bunyah22-2.html 公募期…

2012-04-01

TSUBAME 2.0 と SDPA, SDPARA　その１８

Weblog

SDPARA の最新版(7.5.0.RC2) の最新の内容について。来週、超大規模に実行される予定となっている。 ◯ ライブラリも含めた ILP64 完全対応 ◯ Schur Complement Matrix(SCM)の生成時におけるメモリ使用量の大幅な減少副作用として SCM の生成時間の増加する…

大規模最適化問題、グラフ探索、機械学習やデジタルツインなど

旧名：最適化問題に対する超高速＆安定計算

2012-04-01から1ヶ月間の記事一覧

SDPA と様々な BLAS その３

SDPA と様々な BLAS その２

SDPA と様々な BLAS

Mac OS X Lion 上での SDPA

クラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPO（D&C）

TSUBAME 2.0 と SDPA, SDPARA　その２４

次の Graph500 の締切り: June 2012

TSUBAME 2.0 と SDPA, SDPARA　その２３

CREST・さきがけ平成２４年度研究提案募集

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

CREST と研究室ホームページ

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

サーバの仮想化

gcc 4.4.6 v.s. gcc 4.7.0

TSUBAME 2.0 と SDPA, SDPARA　その２２

gcc 対 Intel コンパイラその２

第２４回 RAMP シンポジウム

gcc 対 Intel コンパイラ

Windows 8 Consumer Preview で最短路 Online Solver

ISMP 2012

SOTA つくば合宿一般講演募集中

iPad で Linpack

TSUBAME 2.0 と SDPA, SDPARA　その２１

第12世代Dell PowerEdgeサーバ

TSUBAME 2.0 と SDPA, SDPARA　その２０

TSUBAME 2.0 と SDPA, SDPARA　その１９

HyperThreading (HT)

「最適化の理論と応用」研究部会：つくば合宿

ＪＳＴＣＲＥＳＴポストペタ：平成２４年度研究課題公募について

TSUBAME 2.0 と SDPA, SDPARA　その１８