大規模最適化問題、グラフ探索、機械学習やデジタルツインなど

旧名:最適化問題に対する超高速&安定計算

クラスタ計算機:異常発生 その7

以下のクラスタ計算機は BIOS を 1.0.3 から 3.0.1 にアップデートした瞬間に様々な異常が発生した。そして2日前に 3.0.1 から 4.0.2 に再度最新版にアップデートしたところ、少なくともこれまでは正常に動作しているようである。BIOS 3.0.1 に問題の原因がある可能性を Dell 側に指摘していたのだが、基本的に否定されていた。ところが、今回 4.0.2 に変更したところ正常に動作しているので、やはり 3.0.1 に何らかの主原因がある可能性は否定できなくなってきた。



○opt クラスタ計算機
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.7 for x86_64