大規模最適化問題、グラフ探索、機械学習やデジタルツインなど

旧名:最適化問題に対する超高速&安定計算

クラスタ計算機:異常発生 その4

結局 16 台のブレードサーバの約半数のノードにおいてマザーボードやメモリ交換作業を行うことになった。現在は落ち着いているようだが、これほどの連鎖的な故障の原因が明らかではないので、今後の動作についても要注意である。反対に約半数のノードについてはこれまで何の異常も発生していないので、電圧異常などの原因も考えにくい。



○opt クラスタ計算機
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.7 for x86_64