BPC(事業継続計画)

東京証券取引所で発生したシステム障害のニュースについて、インフラ・セキュリティエンジニアの方はかなり興味深く視聴していたのではないでしょうか。仕事がら他人事ではありませんからね…。


このニュースに関連して、簡単に「BCP(事業継続計画)」について触れてみます。BCP対策はインフラやセキュリティ分野においてとても重要な項目です。


そもそも「BCP(事業継続計画)」とは何でしょうか。簡単に言うと、自然災害や事故などが発生しても事業継続ができるようにしましょう。と言うところです。特に日本は地震などに代表される災害が多い国です。被災をしてもすぐに事業を再開できるように、と言うところから、経済産業省より「事業継続策定ガイドライン」が整備されて内閣中央防災会議にて「事業継続ガイドライン 第一版」が発表されました。詳細は以下をご一読ください。


【IPA 情報処理推進機構】情報セキュリティ事業継続計画(BCP)とは

https://www.ipa.go.jp/security/manager/protect/bcp/index.html


BCPは奥深く広いものです、今回の東京証券取引所のシステム障害に関係して、ニュースでは「フェールセーフ」の言葉が出てきました。この言葉の意味について少し解説します。(情報処理技術者試験の問題と回答から抜粋しました)


・フェールセーフ

 フェールセーフは、システムの不具合や故障が発生したときでも、障害の影響範囲を最小限にとどめ、常に安全を最優先にして制御を行う考え方でです。
 例えばですが、交通システムで「信号機」があります。 信号機は故障した場合、安全を最優先にして「赤信号」になります。 これがフェールセーフの考え方です。


フェールセーフ以外にもいくつか種類があります。
・フェールソフト

 フェールソフトは、障害が発生した時に、多少のシステム性能の低下を許容し、システム全体の運転継続に必要な機能を維持させようとする考え方です。


・フォールトトレラント

 フォールトトレラントは、システムの一部に障害が発生しても全体としては停止することなく稼働を続け、その間に復旧を図るようにシステムを設計する考え方です。これを実現するには各機器を二重構成にし、障害発生時には機器の切替えを即座に行える設計であることが条件となります。


ニュースでは「フェールセーフ」が失敗した、とありますが、個人的には「フォールトトレラント」に分類されるのでは、と感じました。理由としては「共有ディスク装置」には1号機、2号機とあることから二重構成(冗長化)されているようです。このことから「フォールトトレラント」に分類されると考えました。

#すみません、最近はセキュリティのことを勉強していないので、間違っているかもですが。


このようにBCPでは事業継続としてシステム障害が発生しても事業継続できるように様々な対策が講じられます。


今回の東京証券取引所のシステム障害について、

個人的な私見では、機器を構成する各部品の物理的な故障はたまにあります。もちろん、メモリ故障も同様です。その故障を想定しての1号機と2号機の二重化構成だったわけです。このシステム障害における一番の問題は、故障した1号機から2号機に切り替わらなかったことではないでしょうか。この点について調査して原因を究明することが重要だと感じました。


「arrowhead」は350台のサーバーからなるシステムとのこと、日本経済の中心でもあるシステム、さすがに規模が大きいですね。このシステムを維持するために多くの技術者が日夜頑張っていると思うと、何とも言葉がありません。