大規模最適化問題、グラフ探索、機械学習やデジタルツインなど

旧名:最適化問題に対する超高速&安定計算

2012-04-01から1ヶ月間の記事一覧

SDPA と様々な BLAS その3

研究室所有の PC と iMac が同じ以下の CPU だったので、SDPA 7.4.0 の性能比較を行った。今度は BLAS として ATLAS を加えて行ってみる予定。OS やコンパイラなどの環境が異なるので、ちょっとした参考まで。 CPU : Intel(R) Core(TM) i7-2600K CPU @ 3.40G…

SDPA と様々な BLAS その2

前回と同じ実験を SandyBridge-EP を用いて行ってみた。Intel MKL と ATLAS では随分と性能差があるという結果が。 ○問題1:theta6.dat-s SDPA 7.4.0 + Intel MKL 10.3.9-293 : 5.757秒 SDPA 7.4.0 + ATLAS 3.9.72 : 9.044秒 ○問題2:FH2+.1A1.STO6G.pqgt1…

SDPA と様々な BLAS

GotoBLAS2, Intel MKL, ATLAS の最新版を用いて比較実験を行った。やはり最適化 BLAS と言っても以下のように性能差がある。 ○問題1:theta6.dat-s SDPA 7.4.0 + GotoBLAS2 : 8.469秒 SDPA 7.4.0 + Intel MKL 10.3.9-293 : 9.762秒 SDPA 7.4.0 + ATLAS 3.9.…

Mac OS X Lion 上での SDPA

Mac OS X Linux 上での SDPA の make 及び実行方法について まずは XCode Tools のインストール。その後で HPC for Mac から gcc 最新版 4.8.0 をダウンロードして使用する。 HPC for Mac http://hpc.sourceforge.net/ Mac Mini での実験結果。 SDPA start a…

クラウド コンピューティングEXPO春とデータウェアハウス&CRM EXPO(D&C)

以下のクラウド コンピューティングEXPO春とデータウェアハウス&CRM EXPOは同時開催となっております。共同研究先が展示を行っている関係もありますので、両方とも(同じ場所ですので)参加する予定です。 クラウド コンピューティングEXPO春 第3回 クラウ…

TSUBAME 2.0 と SDPA, SDPARA その24

行列サイズを N とすると Linpack の計算量は (2 / 3) * N * N * N + 2 * N * N となる。 一方 Cholesky 分解の計算量は N * (1/3 + N * (1/2 + N / 6)) + N * (N * N - 1) / 6 となる。 例えば N = 1484406 ときの計算量は以下の通り。 Linpack : 2.1806e+1…

次の Graph500 の締切り: June 2012

次の Graph 500 の提出締切りが 5/15 に迫っております。前回は期日までに結果を提出した場合には1ヶ月の間に再提出が可能というルールが突然できましたが、今回も同じようなルールができることが予想されます。 Graph 500 Submissions June 2012 List The …

TSUBAME 2.0 と SDPA, SDPARA その23

現在、TSUBAME 2.0 のインタラクティブノードのログインに失敗する現象が発生している。しばらく待ってからログインすれば成功することが多いので、深刻な問題ではないようだが、3月末のメンテナンス後にはこの現象の発生頻度が増えているとのこと。 ログイ…

CREST・さきがけ平成24年度研究提案募集

CREST・さきがけ平成24年度研究提案募集が現在行われています。個人的な経験から言いますと、いろいろな注意点やテクニックがあるのですが、それを公開して良いのかわかりませんので、知りたい方は直接連絡してください。 募集締切: CREST/ 平成2…

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

MVAPICH2 の最新版 1.8rc1 と OpenMPI の最新版 1.5.5 の性能を比較してみた。あまり変わらないのだが、いつものように少しだけ MVAPICH2 の方が速い。 ◯ソフトウェア SDPARA 7.5.0 RC2 ◯問題 tai14a.dat-s MVAPICH2 1.8rc1 : 107.22s OpenMPI 1.5.5 : 108.8…

CREST と研究室ホームページ

JST CREST プロジェクトのホームページと研究室のホームページはとりあえず以下のものを作成して公開を行っている。 JST CREST プロジェクトのホームページ : GraphCREST 研究室のホームページ 現在これらのホームページとは異なった新しいホームページを作…

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1 の性能差を少しだけ比較を行ってみた。少しではあるが 1.8rc1 の方が高速となっている。 ◯ソフトウェア SDPARA 7.5.0 RC2 ◯問題 tai12a.dat-s MVAPICH2 1.8a2 : 29.74s MVAPICH2 1.8rc1 : 27.42s ◯問題 tai14a.dat-s MVAP…

サーバの仮想化

現在、最適化問題用の Online Solver を三つほど運用中である。 ◯最短路問題 Online Solver ◯SDPA Online Solver 1 ◯SDPA Online Solver 2 これらの目的と要求される性能を考慮すると、サーバ機能を実機で運用する必要性が低くなってきたので、これらの三つ…

gcc 4.4.6 v.s. gcc 4.7.0

CentOS 6.2 標準装備の gcc 4.4.6 と最新の gcc 4.7.0 の性能を比較してみた。両者の速度がほぼ同じという問題もあるが、多くの場合では gcc 4.7.0 の方がやはり性能向上が大きい。 ソフトウェア SDPA 7.4.0 ◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s gcc 4.4…

TSUBAME 2.0 と SDPA, SDPARA その22

前回の TSUBAME 2.0 での実験において別の大きな問題 Truss502_full.dat-s も 1360CPU, 2040 GPU で解いてみたので、その結果を簡単に記しておく。 ◯SCM(Schur Complemet Matrix) の生成時間 1360CPU : 273.49s ◯SCM の Cholesky 分解の計算時間 2040 GPU : …

gcc 対 Intel コンパイラ その2

Graph500 などの実装では、gcc の方が Intel コンパイラよりもはるかに実行速度が速くなっている。例えば OS として CentOS 6.2 を使うと gcc のバージョンも 4.4.6 とやや古いにも関わらず以下のように gcc の方がやはり速くなる。 ◯問題 LiH.1Sigma+.STO6G…

第24回 RAMP シンポジウム

まだ正式なホームページは無いのですが、以下の内容で第24回 RAMP シンポジウムを開催することになりました。 日時 : 2012年9月27日(木),28日(金) 会場 : 東北大学 実行委員長 : 村松正和(電気通信大学), 塩浦昭義(東北大学) 28日の午後に海外招…

gcc 対 Intel コンパイラ

SDPA 7.4.0 を用いて gcc 4.6.3 と icc 12.1.3 のコンパイラの性能比較を行った。やはり gcc の方が少しだけ性能が良いようだ。 ◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s 計算サーバ1 gcc 4.6.3 : 18.93s 計算サーバ1 icc 12.1.3 : 21.13s 計算サーバ2 gc…

Windows 8 Consumer Preview で最短路 Online Solver

Windows 8 Consumer Preview をWMware の仮想マシンのゲスト OS としてインストールした。 以下のように firefox も動作するが、その上で最短路 online solver も正常通りに動作した。

ISMP 2012

数理計画や最適化等に関する最大の国際会議 ISMP が8月19日から24日の間にベルリンで開催されます。すでに Invited Session の Proposal は終了しておりますが、発表のアブストラクトの締切りが4月15日、早期レジストレーションの締切りが6月15日…

SOTA つくば合宿一般講演募集中

SOTA つくば合宿では一般講演者を募集しています。通常では下は M1 (B4 も可) から上はポスドク、助教の方ぐらいまでが対象です。というわけですので、当然私は不可となります。通常のOR学会の発表会よりも聴衆が多いので、こちらでの発表はおすすめです。 …

iPad で Linpack

以前 iPad で TSPを紹介したのだが、iPad で Linpack を試してみることもできる(iPhone 版もある)。 Linpack LINPACK Benchmark こちらにもいろいろな情報がある。今から何か最適化ソフトのデモを作るのであれば、iOS で作るのも良い選択肢になる。

TSUBAME 2.0 と SDPA, SDPARA その21

sko42 の問題に対する実験結果について。Cholesky 分解は行列サイズ n の3乗のオーダーだが、この計算の前に4乗オーダーの部分(SCM の生成)がある。ちなみに、この部分は疎性の利用と 2720 CPU の並列計算で 380 秒程度で通過できた。 ◯SCM(Schur Compleme…

第12世代Dell PowerEdgeサーバ

第12世代Dell PowerEdgeサーバ これまで Dell のサーバ(PowerEdge)を40 ~ 50 台ほど購入しましたが、おそらく二度と買わないと思います。Dell 側もアカデミック系はあまり重視していないようですし、そもそも全てのコアに高い負荷(浮動小数点)を掛けたとき…

TSUBAME 2.0 と SDPA, SDPARA その20

結局以下の問題の結果ですが、行列サイズ n=1484406 の Cholesky 分解に要した時間は 2045 秒で性能は 約 533TFlops(4080 GPU を同時使用)となりました。 [gpdpotrf] ### END n=1484406, nb=1024 took 2045.108838sec --> 533114.411781GFlops ### ◯問題名 …

TSUBAME 2.0 と SDPA, SDPARA その19

TSUBAME 2.0 での大規模実験に備えて、さらに大きな問題を用意した。制約数は 1484406 となっているので、Cholesky 分解には 1.0903e+18 FLOP を要する(つまりエクサFLOP級の問題)。2180秒以下で解ければ 500TFlops を越える計算となる。 ◯問題名 : sko42.d…

HyperThreading (HT)

以下のように Westmere-EX の HyperThreading (HT)は場合によっては性能向上をもたらすことがあるが、SandyBridge-EP 方は HT を使ってもなかなか性能向上には結び付かない。HPC系のアプリでは性能が出ない方が普通なのでしょうが。 問題名 : H2O.1A1.DZ.pqg…

「最適化の理論と応用」研究部会:つくば合宿

SCOPEの後継研究部会である SOTA でも以下のようにつくば合宿を予定しております。是非一般講演も含めて積極的にご参加ください。 ----------------------------------------------------------------------------------- 「最適化の理論と応用」研究部会(S…

JST CREST ポストペタ:平成24年度研究課題公募について

第3期(平成24年度)公募の要綱が発表されています。 JST CREST 「ポストペタスケール高性能計算に資する システムソフトウェア技術の創出」平成24年度研究課題公募について http://www.jst.go.jp/kisoken/crest/ryoiki/bunyah22-2.html 公募期…

TSUBAME 2.0 と SDPA, SDPARA その18

SDPARA の最新版(7.5.0.RC2) の最新の内容について。来週、超大規模に実行される予定となっている。 ◯ ライブラリも含めた ILP64 完全対応 ◯ Schur Complement Matrix(SCM)の生成時におけるメモリ使用量の大幅な減少 副作用として SCM の生成時間の増加する…