« リバースキャッシング(by varnish) | メイン | 【NGINX】 IPとパスワード認証(basic)それぞれに。 »

Forced node shutdown completed. Caused by error 2341(未解決)

         

NDBCLUSTERが頻繁に落ちる。

おそらく設定の問題か機器的な問題だとは思うのだけど。
今のところ週に2,3回片側データノードが落ちる。そして復旧時に全落ちしたりする。
要因不明で、いつも似たようなエラーナンバーがでる。あとは、トレースファイルしかなさそうだ。。。

7.1.8から継続的に発生。
ローリングバージョンアップで、mysql-5.1.51 ndb-7.1.10に更新した。

構成は
 物理4台構成で
DataNode 2式
SQLNode 兼 ManagemnetNode 2式

         

前日
DataNode3 restart modeでリスタート後停止。再度、initial mode でリスタート処理を行う。

2011-05-13 14:51:40 [ndbd] INFO -- Killed by node 3 as copyfrag failed, error: 1217
2011-05-13 14:51:40 [ndbd] INFO -- NDBCNTR (Line: 273) 0x00000006
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutting down system
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 14:51:41 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Occured during startphase 5. Caused by error 2303: 'System error, node killed during node restart by other node(Internal error, programming error or missing error message, please report a bug). Temporary error, rest

Node3 停止。
エラー発生
全ノードダウン

DataNode4 停止
2011-05-13 16:21:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-13 16:21:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutting down system
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 16:21:16 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.


夜間に復旧させた。
DataNode3
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 6 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 7 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 8 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 9 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 100 completed
alloc_chunk(390327 16) -
2011-05-14 02:57:39 [ndbd] INFO -- Suma: handover from node 4 gci: 11671826 buckets: 00000001 (2)
11671826/0 (11671825/4294967295) switchover complete bucket 0 state: 1starting
2011-05-14 02:57:42 [ndbd] INFO -- Start phase 101 completed
2011-05-14 02:57:42 [ndbd] INFO -- Node started


次の日朝から、連日以下の問題が発生
DataNode3
2011-05-14 06:29:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 06:29:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutting down system
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 06:29:16 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.

DataNode4
2011-05-14 07:24:42 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 07:24:42 [ndbd] INFO -- DBTUP (Line: 64) 0x00000002
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutting down system
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 07:24:43 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341: 'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.


NDBCLUSTERのうち、データノードが頻繁に落ちる。
おそらく基本的な設定か、データの間違いだと思うんだけど、連日は痛い。

デバックメッセージが出力されるが、かなり困難。やはりオープンソースの壁は厚い
のかも。
要因わからず。

いわゆるこのエラーっぽい
http://dev.mysql.com/doc/refman/5.1/ja/mysql-cluster-ndbd-process.html

もし対応可能なら、
 データノードを4式にして、データグループを作り冗長にさせるかしかなさそうだ。

DRBDでリカバーリしたほうが現実的なのかも。NDBクラスターには、無停止でできるいい
メリットもあるけどWEB系で、カウント系のSQLが多用されていると、通常のMySQLよりは
遅くなるし厳しい。
1000万もするって言われたコンサルタントに相談すべきなのかなぁ。。。

トラックバック

このエントリーのトラックバックURL:
http://www.ostl.net/blog/mt-tb.cgi/638

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)

About

2011年05月14日 23:17に投稿されたエントリーのページです。

ひとつ前の投稿は「リバースキャッシング(by varnish)」です。

次の投稿は「【NGINX】 IPとパスワード認証(basic)それぞれに。」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by
MT3系