TOKIOは一日にして成らず

日々思ったことをつらつらと

当ブログの記事には広告・プロモーションが含まれています

動かないコンピュータ「システム障害で終日売買停止、合言葉は"Never Stop!!"の東京証券取引所システムはなぜ止まったのか」 #東証 #富士通

東京証券取引所東証)・日本取引所グループ(JPX)の記者会見

f:id:tkfuji:20201002204332j:plain

『合言葉は「Never Stop」 決して止まらない東京証券取引所様のシステムを目指して : FUJITSU JOURNAL(富士通ジャーナル)』から引用

昨日、東京証券取引所東証)のシステムで障害が起きて終日取引停止になった件で記者会見の様子が日経新聞の記事で割と詳しく文章化されていた。

www.nikkei.comこれがツッコミどころ満載。以下に見ていこう。

障害の発生箇所

【16時34分】「結果として相場情報が配信できなくなった」

横山CIOが経緯を説明。「7時4分に(取引システムの)アローヘッドの運用系のネットワークの共有ディスク装置1号機のメモリ故障が発生した。1号機、2号機で運用しており、2号機に切り替わる予定だったが、切り替わりが正常におこなわれなかった。また、情報配信ゲートウェイというサーバーの配信処理に異常が発生した。取引所側の監視処理に異常が発生した。結果としては、相場情報が配信できなくなったということであり、売買停止をせざるを得ないと判断した。ユーザーに情報が出ていく部位などを前場開始前に遮断して売買を停止した」と話した。

相場情報配信システムに問題が発生したという昨日の午前中の報道だったので、富士通は直接の原因ではないかと思ったが、上記によると、(富士通がシステムを開発した)アローヘッドの運用系のネットワークの共有ディスク装置1号機のメモリ故障が起点みたい。

ツッコミどころ1

共有ディスク装置1号機のメモリは冗長化されていなかったのか。ミッションクリティカルなシステムを構成する機器なので、お金はケチらずハードウェアレベルで冗長化されていてしかるべきなのではなかろうか。

ツッコミどころ1へ回答

富士通が共有ディスク装置としてどの製品を用いたかは不明だが、ある富士通製ストレージ製品のページによると、

コンポーネント冗長化クラスタシステムによる信頼性向上

二つのコントローラーは独立したIPアドレス、ホスト名、データを持ち、アクティブ-アクティブの構成をとります。
クライアントからは2台のNR1000F/NR1000A series が動作するように見えます。内部では、お互いのNVRAMにWriteデータをコピーし、ハートビート通信でお互いの状態を常に監視しています。
 
<故障時の動作>
コントローラー#2故障が発生した場合、IP2(IPアドレス)は、コントローラー#1のS(IP2)に引き継がれ、ディスクドライブ#1・#2全てを制御します。

上記のNVRAMがメモリで、冗長化(二重化)されていてメモリ部分が故障してもコントローラー部分は切り替わってディスク部分の稼働にも影響を与えないようにする仕組みのようだ。

こういったハードウェアレベルでの冗長化がされているはずで、直ちに待機系に切り替わる必要はないはず。

ツッコミどころ2

 ある富士通製ストレージ製品のページには以下の記載がある(再掲)。

クライアントからは2台のNR1000F/NR1000A series が動作するように見えます。

まさか、クライアント(今回の場合東証)から2台に見えるからこれを1号機・2号機と呼んでいないよね?(笑)

ツッコミどころ2へ回答

これは分からん。会見に出席した記者の誰か、ツッコミなさい。

ツッコミどころ3

1号機・2号機という呼び方がなんかエモい*1

ツッコミどころ3へ回答

初号機・2号機と呼ぶとエヴァンゲリオンぽくなり、よりエモい。

ツッコミどころ4

【16時36分】「システム再起動なら相当の混乱想定され終日売買停止」
 
横山CIOは続けて「このような全体の状況を踏まえると売買を再開するにはシステム再起動が必要。それをした場合、投資家や市場参加者に相当の混乱が生じることが想定され、終日売買停止にいたった。明日の再開に向けてだが、本日中に故障したメモリの交換をして、明日は正常に市場を再開する準備を進める」と述べた。

 システム再起動した場合に投資家や市場参加者に生じる混乱とはなんだろう。

ツッコミどころ4へ回答

これは会見で記者が聞いていた。

【17時37分】「システム再起動なら証券会社にとって注文が消える異常事態に」


川井執行役員は「システムを再起動した場合の混乱リスクとはどのようなものか」と問われ、「システム再起動は電源を落として再度立ち上げになる。それまで多数の注文を証券会社から受け付けている。再立ち上げになると受けた注文のデータがすべて失われて、またスタートするという状況になる。証券会社にとっては出した注文が消えてしまって通常と異なる対応になってしまう。円滑に取引を再開するのが難しいと判断した」と説明した。

 これを見て、なるほど!とはならない。

ツッコミどころ5

システム再起動で注文が消えるってどういうこと?揮発性のメモリに書いているの?ディスク装置と言いつつ、不揮発性のディスクに書き込まないのはなぜ。

ツッコミどころ5へ回答

ディスクに書き込んでいる。正確にはディスクにインストールしたインメモリデータベースに書き込んでいるのだ。高速にメモリ上で処理しないといけないからね。

ツッコミどころ6

インメモリデータベースは冗談としてデータベース(DBMS)使っているだろうから処理途中の注文はロールバックすればいいんじゃね?そしたらロールバックされた注文以外はコミットされていて影響は少ないはず。

ツッコミどころ6へ回答

テレビのニュース番組でチラッと見た会見でのシステム構成図にもデータベース(DBMS)はなかった。これはホスト*2時代から脈々と引き継ぐファイルシステムなのだ。データベース(DBMS)なんて知らん!


ツッコミどころ7

【16時41分】「サイバー攻撃ではない」

横山CIOはサイバー攻撃ではないのかなどとの質問に対し、「サイバー攻撃ではないということだ。メモリの故障であるということはログで判明していて、機器の方は取り外しいる。サイバー攻撃は、取引所の各ネットワーク全般に監視をおこなっており、異常は検知していない。(バックアップができなかった点は)テストではうまく2号機なら2号機に切り替わっていた。何が悪くて切り替えができなかったのかは、障害部位を取り外して、(システムベンダーの)富士通に持ち込んでログの解析をしているが、根本原因は判明していない。富士通には早期に進めていただくよう依頼をしている」と応じた。

「障害部位を取り外して、(システムベンダーの)富士通に持ち込んでログの解析をしている」ってどういうこと?ログだけベンダーに送ればいいんじゃね?

ツッコミどころ8

東証のデータセンターに富士通の運用メンバーは常駐していないの?

ツッコミどころ7と8へまとめて回答

サーバ上に保存されるログだけじゃなくて組み込み機器内のログもあるからね。簡単には取り出せないのよ(?)。解析機器は富士通にあって持ち込む必要があるけど、データセンターの隣のビルに富士通の運用・保守拠点を作ってもらっているからそこに持ち込むのだ!?

ツッコミどころまとめ

他にもツッコミどころあるが(会見全部がネットに公開されていたので、それを見るとたぶんもっとある)、ここまでにしておこう。

結論としては、報道各社におかれましては(今回の論点である)システム構築が分かる記者を会見には出席させるよう切にお願い申し上げる次第。


東京証券取引所様 世界最高峰の株式売買システム「arrowhead」を支える富士通の技術

"Never Stop!!"(決して止めるな!)とか言う奴は信用できないし、こんなん経営陣や上司に言われたらパワハラだよね。

今日のオススメ本

システム構築が分かるようになるには(特にハードウェア周り)、上のようにツイートした7月のクラスメソッドさんのイベントで知ったこれがいいんじゃないかな。まだ読んでないけれど。

インフラエンジニアの教科書

インフラエンジニアの教科書

 
インフラエンジニアの教科書2 スキルアップに効く技術と知識

インフラエンジニアの教科書2 スキルアップに効く技術と知識

  • 作者:佐野 裕
  • 発売日: 2016/08/26
  • メディア: 単行本(ソフトカバー)
 

 

*1:エモいとは、若者言葉の1つで、言葉では説明できないような「寂しい」や「感動」を示す言葉のこと。Twitterをはじめとするソーシャルメディアなどにおいて、ユーザーが心に刺さった出来事に対して用いられることが多い。エモいの語は元々は音楽用語として使われていた言葉で、感情や感動といった意味をもつ英語の「emotion(エモーション)」からきている。(出典:Weblio辞書 新語時事用語辞典

*2:ここで言うホストは汎用機・メインフレームのことね。