全日空システム障害の原因は？評論家は相変わらず何もわかってない！

2018年1月4日

全日空システム障害の原因は？評論家は相変わらず何もわかってない！

Content

1 全日空システム障害の原因は？評論家は相変わらず何もわかってない！

※ANAの記者会見にて原因が発表されました。原因について追記してます。

全日空のシステムトラブルで連休開けの空港はまさに混乱状態だったみたいですね。

全日空では、２２日午前８時２０分ごろからシステムトラブルのため、羽田や大阪、それに福岡など各地の空港で、国内線の搭乗手続きができなくなりました。
このため一部の便が欠航したり、出発便に遅れが出たりしていましたが、復旧作業を進めた結果、全日空によりますと午前１１時半すぎにシステムが復旧し、順次、搭乗手続きを再開しているということです。全日空は「ご迷惑をおかけし申し訳ない」と話しています。
全日空では先月２４日にも同じシステムがダウンし、全国の空港で３０分間、搭乗手続きができなくなるトラブルが起きています。

全日空によりますと、システムトラブルのため、午後１時４０分現在、羽田を発着する便など合わせて１１６便が欠航し、およそ１万５０００人に影響が出ているということです。

引用：http://www3.nhk.or.jp/news/html/20160322/k10010451631000.html

サーバー４台が同時に止まったということですから、アプリケーションというよりは基盤レイヤーの不具合かもしくは人的作業ミスで、閉塞（サービスを受け付けない）してしまったのでしょう。

報道では「サーバー４台を制御する機械に不具合があった」と言っていますから、SLB（負荷分散装置、ロードバランサー）でもいじってたんじゃないでしょうか。詳細な原因はまだ発表されていませんから、わかりませんがおそらくそんなところだと思います。

追記：

その後の報道で、どうもDB（データベース）サーバ間のコネクト障害っぽいです。サーバ４台ってDBサーバのことなんですかね。WEBサーバじゃなかったのか・・・

⇒その後、３月３０日に記者会見があり、「サーバーをつなぐ機械の故障」ということが正式に発表されました。

それにしても”機械”ってなんでしょうね？いまどき機械なんて言い方することに驚きですよ。何の機器かぐらいいったほうがいいと思いますけどね。どちらにせよ、機器故障で冗長化してないとか・・・信じられないですけどね。冗長化してたけど、副系に倒れなかったとかいう話でしょうか。

まあ今頃、「サーバーから直接、故障を検知できるよう改善を行う」とか発表している時点でおそまつすぎですけどね。

こういうとき私のようなシステム屋は「ああ、こりゃ現場は大変だろうな」とか思ってしまうのは職業病でしょうね（笑。今頃お祭り騒ぎですよ。システムエンジニアは３日間くらい徹夜で復旧作業でしょうね。ほんと大変なんですよ、復旧したあとも色々とね・・・

実際、その影響よりも裏側のことが気になってしまいます。こういうとき不謹慎かもしれませんが、現場は結構盛り上がっているんですよ。システムエンジニアあるあるなんですが、大障害ほど盛り上がるイベントはありません。（影響が出た方はほんとに大変だと思いますが）

現場の状況は”お祭り騒ぎ”という言葉が一番合ってると思います。コントロールセンターにはたくさんの人が集まっていますし、社内の有識者はほぼ総動員です。こんなにタレントが揃うことはないですよ（笑。そこかしこで大小の会議が行われているし、ホワイトボードには障害の経過が書きこまれ、原因や復旧策についてみんなであーだこーだ言っています。

いつもは静かなオフィスですが、障害のときは異様な盛り上がりを見せるのです。障害を経験するとシステムエンジニアは本当に何段階も成長します。それくらい色んなことが現場で起きています。みんなで一つの目標に向かって、がんばってるわけですからそりゃあ盛り上がりますよね。（後始末はもっと大変なんですけどね・・・）

とまあ、システムエンジニアあるあるを紹介したところで、今回の本題です。

システムは止まる

相変わらずこれを知らないコメンテーターや評論家がワイドショーなどで勝手なこと言ってますね。

「情報化社会の弊害だ！」

「バックアップとかちゃんとしろ！」

「これだけのシステムトラブルは絶対にあってはならない。」

「なぜ繰り返しトラブルを起こすのか！」

とかとか・・・

まあ言いたいことはわかります。本当にシステムを触っていない人は”動いて当然”と思ってますからね。

でもね、システムは止まるんですよ。人が作ったものである以上ね。

あまりシステムに詳しくない人向けに解説しますが、バックアップとか評論家やマスコミの思っている以上にちゃんと考えられていますよ。それこそ最先端の技術でね。

今回は処理するサーバー４台がすべて止まったということですが、４台というのは負荷分散のために、４台用意されています。１台壊れてもサービスが継続できるようにこのような構成にしているんですね。

じゃあそれがすべて止まるってどういうこと？と思うかもしれません。サーバーの中に載っているアプリケーションの不具合ではないでしょうね。アプリケーションが原因だったらこんな止まり方はしません。

では何かしらの機器が壊れたのか？これも違うと思います。機器故障には本当に何重もの冗長構成（簡単に言うとバックアップがたくさんある）を取っているので、故障で止まるというのは最近のシステムではほぼありません。ブレード自体が壊れた可能性もありますが、さすがに冗長構成を取っているでしょう。

それでは一体何が原因でシステムは止まるのでしょうか？

システムはなぜダウンするのか

posted with ヨメレバ

大和田尚孝日経BP社 2009-01-22

Amazon

システムベンダーの人的ミスか！？

おそらく、サーバー４台がすべて止まったというレベルの障害ですから、人的作業ミスが原因だと思います。

ハードやソフトはこの手の障害の対策はやりすぎなくらい考えられていますから、サービス停止というのは人的作業くらいしか考えられません。「４台のサーバーを制御する機械に不具合があった」と報道されていますからSLB（負荷分散装置、ロードバランサー）でもいじってたんじゃないですかね。

やっぱり最後は人の手なんですよ。システムを動かすのも止めるのもね。

いくら機械やアプリケーションに対策が施されていても、その使い方や手順を誤れば意味はないということです。さらにどうしてもメンテナンスのために保守作業は定期的に行わなければいけませんから、常にそういった危険はあるわけです。ただ当然、システムを触る作業は手順があり、何重にもレビューされているはずなので、そうそうミスることはないのですが、それでも起きることはあります。

人間がやる以上、どうしてもミスは発生してしまいます。そういったミスが運悪く重なると今回のような大規模障害になってしまうわけです。

開き直るわけではないんですが、システムは止まるんです。

当然、そういったことがないように日々進化していかなければならないのですが、現在の技術水準だとまだまだ人の手による作業が必要なので、こういった障害は一定数起きてしまいます。

この辺の現状を理解しないで、ただただ「けしからん」と言っているマスコミのコメンテーターたち知識のなさを知ってほしいと思います。まあコメンテーターなんてとりあえず批判してりゃあいい人種ですからしょうがないんですけど、こういうときにほんとイラッとしますよね。好き放題いいますしね。知識ないくせに。

復旧しても終わらないシステム障害

さてこの後、全日空のシステムベンダーは大変だと思いますが、がんばってほしいですね。障害は復旧しても、そのあと後始末がたくさんあるんですよ・・・

基盤レイヤーでシステムが復旧したら、その後はアプリケーションチームの登場です。システム障害によって、データの状態はどうなったか、既存のデータは大丈夫か、業務継続に支障はないか等々、確認することが山ほどあります。

まあ２～３日は徹夜でしょうね。不思議とつらくないんですけどね、その理由はさきほどいったお祭り状態が続くからです。クライマーズハイならぬシステムエンジニアハイとでも言いましょうか、テンションはみんな高いです。

その後、障害の是正策の検討とかお詫び行脚が続くんですけどね・・・

システム障害は起こしちゃいけないんですが、起こるということを理解してもらって、ただ責めるだけではなく、動いている状態を当たり前と思わないでいただけるとシステム屋としては幸いです。まあそれにしても今回の件は業務影響が大きすぎますね。これは反省すべきでしょう。

最後まで読んでいただきありがとうございます！この記事が気に入ったらぜひシェアしていただけるとうれしいです。

IT虎の穴トップへ戻る

-システム開発
-システムエンジニア

匿名より:

2016年3月22日 9:21 PM

システムダウンは必ず起こることの事ですが、被害を最小限にしなければならない事です。今回の被害はひどすぎる。このような会社に発注すべきでない。発注元の会社が信用不安で経営的に大変な被害を被る。

返信
- 管理人より:
  
  2016年3月22日 9:55 PM
  
  ご指摘の通りだと思います。
  システムダウンは必ず起こるからこそ、起きたときに業務影響が最小になるように備えておくのが信頼できるシステムベンダーですね。
  ※今回の業務影響は確かにひどすぎますね・・・
  
  返信
とあるIT土方より:

2016年3月22日 11:10 PM

私は証券系の運用に携わってますが、似たような体験しました。
本当の有識者は数えるくらい(メインフレームって事もありますが)で、圧倒的に手が足りなく怒声が飛び交ってました。まぁ地獄です。
特に理解の足りないお馬鹿な役員の相手が一番手がかかりますね、おっとw
ANAはそうなってないことを祈るばかりです。

ちなみに夜の便は食事代(現金)でました。一体いくらの損害だろう…

返信
管理人より:

2016年3月22日 11:24 PM

証券とか金融っていまだにメインフレームで運用しているとこって多いですよね。
地獄でしたか・・・
確かに上の人ほど「とにかくなんとかしろ！」とだけ言って士気を下げるだけの偉い人いますよね。

食事代とかANAはこれからが大変ですね。エンジニアの夜は長そう・・・

返信
通りすがりより:

2016年3月22日 11:30 PM

ちょうどZEROのキャスターが、わかった様な事を言っていました。
私はまったくの別業種(映像制作)ですが、SEの方の大変さと同時に、大障害は大イベントという表現に笑ってしまいました。
頑張れエンジニアさん！！

返信
- 管理人より:
  
  2016年3月22日 11:38 PM
  
  コメントありがとうございます！
  SEが盛り上がるときは、障害のときってなんか皮肉ですけどねｗ
  映像制作は作品が完成したときでしょうか、とてもやりがいがありそうですよね。
  
  返信
とおりすがりより:

2016年3月23日 12:13 AM

SLBでもいじってたんじゃ、と言う意見は違う気がします。
あのような時間帯にクリティカルな本番環境のメンテナンスを計画するでしょうか？
私は逆に基盤システムに問題があったのではないかと考えます。
正系に異常があれば副系に切り替わるはずだった基盤システムが、いざ本当の障害の時にうまく切り替わらなかったことは珍しくないです。また切り替わったとしても副系も次々と死んでいくなんてこともあります。
たぶん今頃現場は修羅場でしょうね。萎えることしか言わない上司とかどこの現場にいるのもITあるあるなんですよねぇ

返信
- 管理人より:
  
  2016年3月23日 12:45 AM
  
  なんか最初に１台目が止まったのは、午前３時頃らしいですよ。
  
  副系動かしてみたら・・・なんてのはどこにでもある話なんですね。きっかけはわからないですが、副系に倒したら続々と問題発生というのはあり得そうですね。
  
  上司ももっと士気を高めるようなこと言ったほうが生産性は上がると思うんですけどね。
  
  返信
ぽんきちより:

2016年3月23日 12:36 AM

システム障害の時こそ現場は盛り上がるっていうイベント的にとらえてるあなたは相当下っ端のエンジニアですね。確かに下っ端の人は人ごとだから普段偉そうにしている人たちが慌ててる姿を見るのは楽しいのでしょうね。逆にシステムに責任を持っている人間であればそういったものの考え方は絶対にしない。自分のかかわっているシステムが自分のミスではないにせよ社会や多くの他人に迷惑をかけている状況を楽しめるのは正常な日本人の感覚ですらないように思います。
そういった人間は他人に向けて記事なんて書くべきではないと思います。

返信
- 管理人より:
  
  2016年3月23日 1:01 AM
  
  別に楽しんでるわけじゃないんですけどね。
  そう書いているあなたは相当えらいんでしょうけど、現場を暗くするようなことばかり言って士気を下げてるんでしょうね。
  
  なんとか問題を解消しようとする現場のがんばりを言っているだけなんですが・・・
  くらーく後ろ向きな雰囲気だとだれもパフォーマンス出せないし、２次・３次障害の可能性も高まると思いますよ。
  
  返信
- れんたろうより:
  
  2016年3月23日 1:32 AM
  
  相当精神構造が歪んでいますね。
  起きたことは起きたこと。
  何はともあれ、目の前に困っている人が大勢いるなら、それを救うのに全力を傾けるのは人間として当然の気持ち。
  そうやって正義感と使命感と奉仕の気持ちをすべてぶつけて望むからこそ寝ないで戦えるのです。
  それが盛り上がらないはずがない。
  
  返信
- ぁぅぁぅより:
  
  2016年3月23日 9:37 PM
  
  めったにないことですが、ご発言に全く共感できません。
  
  返信
とある責任者より:

2016年3月23日 1:28 AM

お祭りになりますね
確かに。
anaくらいのシステム作るベンダーなら相当でかいとこだろうから、いっぱい人集まりますね。
私も一度経験ありますが、その時は何もしないけど、とにかく人がたくさん集まってましたよ。上司からとにかく現場に来いって言われるらしい。顧客への誠意を見せるためらしいけど。
そのトラブル起こした会社が確かanaのシステムつくってたはずなので、ベンダーはあそこかなぁ
とある外資系ですよ

返信
ぐりより:

2016年3月23日 1:44 AM

私もエンジニアです。
どれだけ負荷分散しようが気をつけようが何しようが起こるときに凄いことが起きるんですよね。
いや、ほんと、バックアップなんて取り過ぎてるぐらいやってますよね。リスクもそんなこと起こる？ってぐらい考えます。
それでもシステムダウンはあります。
だってあいつらも動かしている人間も生き物ですから。
災害対策レベルのことを考えるのが企業ですよね。
エンジニアは100パーの原因究明に全力投球になりますから祭りのような状況って笑えるぐらいわかります。
なんか共感しました。

返信
あのに鱒より:

2016年3月23日 7:08 AM

ネガティヴな書きこみもありますが、、、
私は管理人さんのご意見に同意です。

一、ひとがつくり、ひとが動かすものである限りヒューマンエラーは起こる。

二、リテラシーがないことも手伝い、普段はIT担当者に任せきりであるにもかかわらず、こうした状況になって初めて上層部も騒ぐ。

管理人さんはこの二点の客観的事実を表しているだけだと思います。そのお祭り騒ぎを楽しんでいるのではなく、ITを盲信している顛末を皮肉っただけだと思います。

ベンダー選びにしろ、可視化できる成果物ならある程度判断できますが、運用面についてはなかなか判断しにくいですよね。
むしろ、絶対的なベンダー選定基準があるなら教えて欲しいと思います。。。

返信
たろーより:

2016年3月23日 7:25 AM

これが医療系や緊急車両のシステムではなくて良かったですが…
復旧作業中は前向きに盛り上がらないと、二次、三次障害を招きやすくなりますよね。

返信
ちゃんより:

2016年3月23日 8:31 AM

これはLB周りの問題でなくて、ORACLE RACで4台並行稼働してるDBサーバが1台ダウンした際にうまくフェールオーバ出来なかったって事かと思います。

返信
- うみべでひるねより:
  
  2016年3月24日 9:13 PM
  
  私も、ORACLE RAC の障害に1票。アプリならそんなに時間かけなくとも対応できたハズ｡夜中の3時30分頃に障害が発生したとか。夜間オペ担当者はあせっただろうな。マニュアル通りリカバっても直らない。アチコチ電話してもマニュルどおりの回答。もういいやって感じになったかな。
  
  返信
ひでＣＨＡＮより:

2016年3月23日 8:35 AM

祭りという表現は、
知らない方には誤解を与えるかもですね！
同業者は激しく共感しますけど。

活気と言うか、
ざわつき感というか、
通常ならざる雰囲気という点では
祭りなんですけど、
盆踊りとかそういうレベルのお祭りじゃなくて、長野の御柱祭りであるとか、そういうレベルの真剣さですよね。崇高な儀式というか。

知見が共有されればなとも思いますが、真実は絶対に外には出てこないので、本来はコメントなど出来ないですけど、それでもコメントするのがコメンテーターというお仕事なんだろうなと。論点は事実や真実とかではなく、もっとエモーショナルなところにあると。
そんな風に感じました。

返信
kz14 より:

2016年3月23日 8:48 AM

マイナンバーカード発行システムについても
解説してほしいです。

返信
死に損ないより:

2016年3月23日 9:08 AM

私は偉いSEではありませんでしたが、トラブルが起きた時の「最後のとりで」みたいなポジションにありました。つまり、私に原因がわからなければシステムは回復できない、みたいな。トラブルの連絡が入ると、私はシステムセンターまでわざと歩いて(15分くらい)行くことにしていました。その間に、原因と対策を想定して、心を落ち着かせるためです。私がパニックになってはいけないので。今でも思い出しますが、「朝いちで」(朝7時のことです)原因と対策を報告するようにとお客さんから言われていたのに、朝の5時になっても原因が全くわからないことがありました。みんなが暗い顔をしている中で、私は「朝いちで報告しろなんてセリフは帰り際じゃなくて、朝いちに言えよな」と冗談を言いました。みんながどっと笑いました。その時に、私もこの業界で生きていけそうだと初めて思ったものです。トラブルを乗り越えるには、どん底でも冗談を言える能力が要るのです。暗いだけではだめです。

返信
- カエルさんより:
  
  2016年3月23日 9:49 AM
  
  死に損ないさんのコメントに同意です。わたしも同じような立場で飯を食わせてもらっていますので。
  
  何にせよ、現場のひとたち樺って。偉いひとたち、気持ちはよく分かるけれど、まずは現場の士気をあげること、現場を一枚板にすることを第一義としてください。
  
  返信
うぃより:

2016年3月23日 9:47 AM

私もIT業界でシステム作ってましたけど。
みなさんそれぞれのご意見は非常にわかります。

システムは絶対じゃない。
↓
だからコツコツと日々細かい作業を長期で積み重ねる（設計、開発、試験）
↓
リスクを考えて、ランディング期間を作って平行運用する
↓
それでも障害は発生する。（レアケース、人為的ミス）
↓
対応策を検討し、再度最初から検討しなおす。（以下繰り返し）

過去にも、銀行・郵政・東証といった経済的に大影響を及ぼす障害は発生しているんですね。どんなに頑張っても、発生してしまうし、復旧しようにも策がない場合あるんです。
企業はリストラとか経費削減とか言ってないで、元の人運用を平行してできるようにすれば、何もできないとか言う問題は少なくとも解決するような気がします。（今回の場合は、何便かは飛ばせたかも・・・）

極論ですけど、電気が供給されなければ、企業どころか、当然ライフラインの一部が停止するんです。策は人手で動かすことが一番の早道なんじゃないでしょうか。

話が超越しすぎたかもしれません。失礼しました

返信
をぢさんより:

2016年3月23日 9:51 AM

おはようございます、初めて投稿します。

システムは止まる、それはそうだと思います。壊れない機械はないし、死なない人間はいないし。

ただ、そうだとすると、自動運転って、大丈夫なんですか。

自動運転になれば、事故ゼロになるって喧伝されていますが、システムが止まることを考慮すると、ゼロにはならないですよね。
さらに、単純なメカトラブル、整備不良なんかもありますし。

自動運転で事故ゼロ、って誇大広告じゃないですか。

返信
- いたばさみより:
  
  2016年3月23日 12:40 PM
  
  どのメーカーも「ヒューマンエラーによる事故は減らせる。事故ゼロを目指す。」と言っているだけで「事故がゼロになる」とは言っていません。
  CMでも一瞬じゃ読めないくらいの条件や制限を自動ブレーキ搭載車のものには流してます。事故がゼロになる？！と煽ってるのはマスコミだけですね。
  
  実際車同士の事故が限りなく減っても、高速道路で人は飛び出してくるし土砂は崩れてくるし隕石は落ちてきます。
  乗り手は購入してから一度もエンジンオイルを交換しない人間かも知れません。
  人を轢くために車を購入する人間も居るかもしれません。
  
  あらゆる意味で事故をゼロにする、と言うことは絶対に不可能ですね。
  
  返信
匿名より:

2016年3月23日 11:47 AM

システム障害が起こるのは、役員たちのエゴが一つの原因でしょうね。

それと、統合の名のもとに、何でも一緒にするから、障害があった場合の影響が甚大。にもかかわらず、システム検証基盤は貧弱。

それを、棚にあげて、障害が発生したときは、吠えまくる無能ども。

返信
金融担当より:

2016年3月23日 1:45 PM

ユーザー側からみたら「システムリスク」といえばシステム自体のリスクと、運用体制（＝人）のリスクの重み付けは同等であるべきで、本当の原因がどこかまだ聞こえてきませんが、、、、それにしてもダウンタイムが長すぎだと思いました。障害は起こりうるものですが、最悪ケースをどこまで想定し、何分で復旧する計画でいたのか。年1回たとえ机上でも障害訓練を実施していたのか。執行役員は投資したコストに対する残リスクを合意していたのか。ANA側はベンダーにリスクを丸投げしていなかったか。

※とはいえ、空輸業界の主たるリスクはシステムよりも飛行機の運行そのものだし、国土交通省の目が光るのもシステムよりは飛行機の整備態勢や搭乗員管理だろうし、厳しい局面を経験したことのない当事者は、当局から厳しく言われない限りは強力な再発防止をしないだろうとも思います。事態が収束し、再発防止の承認まで長い道のりが始まりましたが、厳しい局面を経験したANAがより堅牢な運用体制（システム＋人）を確立していくことを祈念します。

返信
地方ＩＴ技術者より:

2016年3月23日 1:48 PM

どれだけ技術が発達し人工知能が人を越えようとしても、なぜかシステム障害は無くならない。日経コンピュータの「動かないコンピュータ」に格好のネタを提供することになりましたね。

システム障害を批判するのであればシステムなんて使わなきゃいいとさえ思ってしまいます。もう少し不便な世の中であればトラブルも少ないかもしれないのに。

返信
ほいっぷより:

2016年3月23日 2:31 PM

元現場HWメーカーのサポートです。
お祭り騒ぎ、まぁ表現のよしあしは別として至極的確な表現ですね。
たとえ原因がHWでは無いにせよ、まずは状況確認のエンジニアを確保して、
その上で、上級エンジニアを含めみんなでかかりっきりになったり。

大事ではありますが、悲壮感を通りすごして笑いも出てくるような。。。もちろん、エンジニア含めみんな必死です。

返信
けんぼーより:

2016年3月23日 2:44 PM

楽しく拝読させていただきました。
私も簡単なレベルですが、サーバ管理などを行っていた事が過去に有るのでこのanaシステムトラブルのニュースを知った時に「ああ、現場大変だろうな・・・」って感じていました。「システムは止まるんです」その通りですねｗ
そして、こういうトラブルって実は結構”凡ミス”だったりするんですよね。。。
※本件は不確かですが。
大手企業の大規模なシステムも意外に内情はギリギリの状態で保ってる様な管理状態だったり。
システムって一新したほうが良いのは分かっていてもリニューアル時のリスクが大きすぎるから何年も前の古い物を仕方なく使い続けているなんてよくあることですしｗ

返信
ITじじいより:

2016年3月23日 2:52 PM

障害が起きた際にデータ不整合が起きないように物理的（ローテク）な対策や設計を行ったり、緊急でバイパスあるいは遮断できるようにする設計って「失敗を重ねないと」なかなか身につかないモノです。しかし事故というのはなかなか発生しないのでそのノウハウなどが陳腐化され、特にITでは人命にかかわることが少ないので技術(者)的な目新しさや合理性の方がもてはやされる傾向が強いので今後も似た様なことは起こってしまうでしょう。

返信
エモーより:

2016年3月23日 4:15 PM

初コメントです。
システムのことは分からないのですが、復旧作業現場は地獄なのかな、エンジニアの人々は大丈夫なんだろかと漠然と想像していたので、「現場はお祭り騒ぎ」「テンション高い」「不思議と眠くない」というところに少し安心しました。
今回は搭乗手続きや予約に関するシステムの障害でしたが、
航空管制に関するシステムや操縦に関するシステム（実際に飛ぶことに関するシステム）の障害とか怖いなーと思うところです。実際、起こっているんでしょうけど、発表されないだけかなぁ、、

返信
アパッチSQL より:

2016年3月23日 4:37 PM

過去にwebサーバーとDBを弄ってたものです
当時やってたシステムはサイネージや出退管理システムでした
まぁ壊れたり止まったりしたら謝ればオッケーの世界だったのでここまで大規模なシステムは止めたら死刑てのが通例でしたね
またシステムといっても下位の下位の末端レベルだったのでシステムが止まるってのはなかったです
東証のシステムが止まった時は現場は地獄やろなーと他人事のように思いましたあと某F社が485の線を間違えて繋いでオーバーフローさせて関東の消防システム止めたのもありましたね
また同じくF社が公共ギャンブルのオッズシステムを止めてえらいことになったりと色々システム界隈で話を聞いたものですしかし、世の中システムなしには成り立たないので人知れず現場で頑張ってる人は本当にすごいと思いますまたそういった人達にスポットが当たらず元請けベンダーが偉い顔するのも面白くないものです

最近はジョージアの世界は誰かの仕事で出来ているがすごく共感を持てますねー

返信
元ネト管より:

2016年3月23日 5:24 PM

不謹慎だとは思いますが、こういうトラブル対応って腕の見せ所でもあるので原因を考えている時は結構楽しかったりしますよね。応援に駆けつけた部外者ならなおさら。
ただ、こういうトラブルでもないと保守管理の大事さに目がいかないのは悲しいですね。

返信
anon より:

2016年3月23日 10:29 PM

今回の件はよくわからないけどシステムの設計時に
運用に頼る設計はやめて欲しいと思います。
ヒューマンエラーを引き起こす元になります。
たとえば電車でもＡＴＳをつければ防げた事故がコスト見合いで
運転手の運用で危険を感じたら止めるだろうから設置しなくていいやとか。
結果、尼崎のような件が起きる。

返信
旅好き子より:

2016年3月24日 12:03 AM

なるほど！！
乗ってるだけの側としては『なんたること！！こんなことじゃ困りまっせー！！』と、単純に思いましたが、何事も裏側とか、スタッフの皆さんの大変さを思うと怒りも収まりますね。
誰もそうしたくてこうなったわけじゃないですからね…
復旧に尽力するエンジニアさんたちを信じて、来月も全日空に乗りますw

返信
Armar より:

2016年3月27日 5:48 AM

　そもそもANAはどこのサーバーを使っていてサポートされているのですか？

返信
コレンタより:

2016年3月28日 9:37 AM

障害が起こると裏手の方が盛り上がるのわかります！僕もライブ中継みたいなのしてるんですがいろいろ問題が起きると効率的な解決策をその場で考える楽しさというか、みんな緊迫してるはずなのにその状況を楽しんでいてなおかつそのシステムを自分たちが動かしてるだなぁと改めて実感する感覚がなんとも言えません(⌒▽⌒)

でも引越し当日に飛行機飛ばなくて4時間遅れで到着してアパートの鍵もらえなくて急遽泊まった旅館の代金はANAは払ってくれたりしないかなーとは思っちゃいますね〜
客目線から言うと動いてて当たり前なんですよねこういうものは(笑)

返信
素人より:

2016年3月31日 10:13 PM

今回の障害はシスコ製スイッチングハブの故障だったと報道されましたね。
「世界初のバグ」なんて見出しが付いていたので管理人さんが機器故障を否定されたのも何となく分かります。
素人目にはシスコやアライドテレシスのハブは止めない限り止まらないモノだと映ってますし。

ハブの故障はハブ側からの送信で検出するようになってたそうですが、「ハブが故障したらそもそも通信できないでしょ」って考えちゃうのはおかしいんですかね？

返信
メモ20160401(2) | Nacky – Snowland.net より:

2016年4月1日 1:42 PM

[…] ■全日空システム障害の原因は？評論家は相変わらず何もわかってない！ | I… まぁ、止まるときは止まる。 […]

返信
ネットワーク仕事人より:

2016年4月8日 10:03 AM

スイッチの不具合が原因という事でしたね、管理人さんの読みが的中ですね。
この障害の解決策はvrrpロードバランスでゲートウェイを分散して正副のスイッチを常時アクティブにする事ですかね？
半生状態の故障だったのでスタック
＋シングルゲートウェイ＋nicチーミング（もしくはlacp)では対処出来ないかもしれません。
半生故障はルータの世界では大前提なのでレイヤー３で到達性を維持します。
この話題に興味がある方にはオライリ出版ネットワークウォーリアがオススメです。

返信
ブロガー達はブログ開始から何日目にバズったのかまとめてみたより:

2016年4月22日 7:02 PM

[…] バズった記事：全日空システム障害の原因は？評論家は相変わらず何もわかってない！ […]

返信
中川　智より:

2018年7月18日 11:12 AM

何か、皆さん、SE精神論みたいな事言ってますけど、本当に結合テストしてたんですか？

私は、結合テストした後の案件、ユーザーから問い合わせがあったことすらないですけど？

返信

comment コメントをキャンセル

: システム開発

IT業界は工数商売となりつつある？赤字プロジェクトの背景に迫る！

IT業界は工数商売となりつつあります。その背景には赤字プロジェクトの多発が！？Content1 IT業界は工数商売となりつつあります。その背景には赤字プロジェクトの多発が！？1.1 IT業界の契約 ...

: IT・情報技術システム開発時事NEWS

複数銀行でシステム障害によるネットバンク振込が不可に！原因はシマンテックの障害か！？

複数銀行でシステム障害によるネットバンク振込が不可に！原因はシマンテックの障害か！？Content1 複数銀行でシステム障害によるネットバンク振込が不可に！原因はシマンテックの障害か！？1.1 インタ ...

: システム開発

システム開発における障害撲滅の鍵は原因の深堀にあり！なぜなぜ分析で再発を防ぐ方法

システム開発における障害撲滅の鍵は原因の深堀にあり！なぜなぜ分析で再発を防ぐ方法Content1 システム開発における障害撲滅の鍵は原因の深堀にあり！なぜなぜ分析で再発を防ぐ方法1.1 言葉の定義1. ...

: システム開発

開発を楽にするための要件定義の方法論とは？品質と生産性の最大値は要件定義で決まる！

システム開発を請け負うものにとって最大の難関と位置づけられているのが「最上流」の工程である「要件定義」工程である。要件定義とはシステム開発の最初の工程であり、これから作ろうとしているシステムを使うユ ...