今回の Defrag This では、危険を伴う産業においてITネットワークがどのような役割を果たしているかについて、現場をよく知っている人に話を聞きました。
Greg: Defrag This エピソード6へようこそ。ホストの Greg Mooney です。今日のテーマは IT ネットワーク と危険な職場環境についてです。
鉱夫として作業したり、年に数ヶ月もの間貨物船に乗り組んだり、ガス会社の現場で作業したりすることは、多くの人があまりやりたがらない仕事です。しかし、もちろん、このような仕事で働いている人たちがいるからこそ、私たちの経済社会が健全に機能しているわけで、これらは社会基盤を支える重要な基幹産業です。このような危険と隣り合わせの仕事を効果的、効率的に成し遂げるためには、管理や安全のためのテクノロジーが大きく寄与します。こういった産業におけるITは、他のハイテク企業や金融機関と同じように、内部業務
- ときには生死に関わることさえあります - の基盤として大きな役割を果たします。
今日は、危険を伴う産業においてITネットワークがどのような役割を果たしているかについて、ご紹介したいと思います。イプスイッチの Tier III テクニカルサポートエンジニアである Dan Kirkland をゲストに迎えています。Dan、調子はどうですか?
Dan: こんにちは。調子はいいですよ。
Greg: Dan は、イプスイッチでの仕事上、こういった産業のIT担当者が創意工夫をしながらネットワーク問題を解決する過程でサポートを提供してきました。Dan、どんな産業のIT部門と関わってきたのですか?典型的なオフィス環境とはどう違うのですか?
Dan: 私たちは通常、ここ(イプスイッチのオフィス)からIT管理者が自社のネットワークを監視しているのを見ます。多くの場合、中小規模のネットワークインフラストラクチャです。管理者はサーバー設定など、いろいろな追加作業を行います。これまでの何年もの間に見てきたものの中には、採鉱設備、自治体にガスを供給するガスバルブ、世界の港湾に設置される浚渫船、西海岸の食肉加工工場用の急速冷凍庫などがあります。
Greg: なるほど。そういった会社でネットワークを維持するためには、どういった苦労があるのかといった点が、ある程度想像できれば、と思っています。監視しなければならない様々な装置、ネットワークの遠隔性などを考えると、「リモート」という言葉だけでは片づけられない、難しい課題がありそうなのですが。
Dan: ええ、そうですね。ネットワーク室に入らせてもらったこともありますが、完全な空調コントロールがされていて、本当に素晴らしいです。配線はきれいに色分けして整理されています。しかし、たとえば鉱業の場合、発掘現場から掘り出された資源を処理する必要があり、鉱物資源を運搬するために巨大な鉱業トラックを使います。
そして、そういった鉱業トラックは通常2〜3階建てのビルぐらいの高さがあります。険しい地形の場所に配置され、何トンもの大量の土砂を積載します。そしてトラックには、WhatsUp Gold などの監視ツール
にワイヤレスで接続された小型のラップトップが装備されています。ラップトップから、位置情報、処理場に戻るまでにどれぐらいの時間がかかるかといった情報、トラック自体の物理的状態などの統計情報を送信します。ですからネットワークはかなり重要です。トラックはデッドスポットを通過することもあるので、そういった場合は再接続が必要になります。一般的な企業のサーバー室よりもはるかに困難な監視環境だと言えますね。
Greg: ああ、かなり大変そうですね。ネットワーク監視というと、たいていは WiFi のアクセスポイントが起動しているかどうかといった点に焦点が当たりますが、このような産業においての機器の監視は、ただ機器の状態を監視するだけにはとどまらず、安全のためにモニターを使用しているようにと思います。
Dan: 間違いなく、そうですね。トラックについて言えば、油圧ショベルが3階建てぐらいの巨大トラックに積載を始めるにあたって、積載作業そのものには関与しません。必要なときにブレーキがかかるかどうかを監視します。油圧ショベルの制御機構からのカウンターや情報をネットワークを介して送信できるフォーマットに変換し、ソフトウェアで報告する方法を開発するのに、会社全体の協力が必要でした。この状況で、使われたソフトウェアが、WhatsUp Gold でした。
機器リストをチェックすれば、何が稼働中で、何が稼働中でないかを把握でき、その日に何を監視すればいいかを決定できるので、ビジネス全体をほぼ一元的に管理できます。
Greg: 先ほど、デッドスポットについて触れていましたが、デッドスポットに入ったトラックと、たとえば溝にはまってしまったトラックとの違いはどうやって知ることができるでしょうか?
Dan: まあ、彼らはデッドスポットがどこにあるのかしっかり把握しています。ですから、たとえばだいたい5分ごとに大きな地質学的構造、つまり大きな岩など、のせいで接続が切れる可能性があると予想できます。それで、5分間の停止や5分毎の停止は無視するように設定しておきます。もし(無視できる範囲を超えて)デバイスが5分以内に応答することができなくなった場合は、デバイス、この場合はトラックですが、に問題が発生したと判断してエスカレートします。
Greg: わかりました。
Dan: あるいは巨大な油圧ショベル、昨夜目にしたのですが、小さな庭の半分ぐらいはあるような、巨大なショベルで、ひと掬いの量も巨大なのですが、そういったデバイスも監視されます。
ベルトコンベアなどの、土砂からの抽出処理を行うための装置すべてがモニターされます。すべての装置が外界と通信するための何らかの手段を持っており、そこからの情報を WhatsUp Gold に取り込むことができます。それで、鉱業インフラストラクチャ全体に対してある種の単一管理ポイントを持つことができます。
Greg: あ、WhatsUp Gold が何なのかご存じない方のために、忘れないうちにお伝えしておきます。WhatsUp Gold は、イプスイッチのネットワーク監視ツールです。
先日、貨物船のIT担当者の話を聞きましたが、これも、リモートで管理するべきITの例です。貨物船のITタスクについて説明してもらえませんか?
Dan: そうですね、まず、貨物船には乗組員がいます。乗組員は長期間にわたって陸から離れて仕事をしているので、全員が個人的な使用のために WiFi を持っています。そして、既存のコントロールを行う船内ネットワークがあります。さらに、エンジンコントロール、油圧式操舵装置、そして...船には常に水が入ってくるので、複数のタンクポンプが設置されていますね。
Greg: はい。
Dan: 設置されたタンクはいつも水を汲み出しています。タンクポンプが効率的に作動しているかも監視します。また、貨物が移動したかどうかを知らせるモニターがあります。まあ普通なら、ほとんどの船員は貨物船に乗っている感覚から貨物が移動したかどうかはわかるだろうと思いますよね?
Greg: ええ。
Dan: でもやはり、船の中も、ブリッジ上でも、監視されています。繰り返しになりますが、WhatsUp Gold は監視されているブリッジにも接続されています。さらに、衛星リンクを介してベースにアップロードされ、船で何かがあってクルーが応答できない可能性がある場合はリモートサイトでハンドル操作もします。そして、プロトコルが確立されるとプロトコルが開始されますが、問題が発生します(その監視も行います)。
Greg: うわーっ、まさしく監視ですね。ネットワーク監視がそれほど重要な役割を果たしていたとは知りませんでした。監視のおかげで船が順調に運航できるわけですね。
Dan: その通りです。監視ツールはすべてを集中化し、手動コントロールを補助するために船に電子的に設定された副次的システムの役割を果たしていますね。だからこれはフェイルオーバーです。そして、パネルには表示されないのに WhatsUp Gold には表示されているといったことも起こり得ます。そのような場合は、IT管理者が問い合わせをやり直し、壊滅的な問題が発生する前に問題を特定できる可能性があります。
Greg: ええ、それは特定のしきい値を設定することで実現すると考えていいですか?
Dan: はい。そして、しきい値設定だけの話でもなく、ある種の待ち時間の問題も関係してきます。タイムアウトがあったようなので、追跡してみると特に問題なく接続されています。「なんだ、ネットワークがオオカミ少年みたいにわめいていただけか」、と片付けてしまうこともあります。でも、よく調査し直してみると、実際に機械的コントロールがクリアなコミュニケーションを返していない箇所があることがわかったりします。そうすれば、その問題を解決することができます。
これに関連して思い出したことがあります。2008年の事件で、連邦機関が関与したものです。ニュースになっているので話しても問題ないと思いますが、FAA(連邦航空局)の事件です。私は車を運転して仕事に行きました。電話が鳴ったのは午前9時前でした。電話で知らされたニュースは、航空管制官のネットワークがダウンしたために、全国規模でフライトをすべてキャンセルしなければならなかったというものでした。
Greg: ということは、その時点ですべてが地上待機になったのですか?
Dan: ええ、すべてが地上待機です。私は机の前に座っており、同僚が向かいの席にいました。9時になったとたん、電話が鳴りました。驚くなかれ、電話はFAAからでした。わかったのは、彼らがカンザスシティに位置していたコアルーターを監視しており...もっと冗長性を持たせておくべきだったというようなことでした。この事件は苦い教訓となったはずです。
コアルーターは稼働しなくなったのに、ピング可能でした。FAAは、セットアップ時、私たちに、SNMP(Simple Network Management Protocol、簡易ネットワーク管理プロトコル) で全距離を調べるのではなく、これらのモニタに対してピングを実行するだけで済ませるように設定させました。全距離を調べないと、そのデバイスが本当に稼働しているのかチェックできないのですが。ピングできることでルーターはモニタからはオンになっていましたが、何も応答しません。それで、私たちは、SNMPとその設定方法、およびデバイスの監視方法について、1時間半かけてレビューしました。私の知る限りでは、それ以来、新たな地上待機事件は起こっていません。
Greg: ええ、大惨事が発生した後は、誰もがモジュールの設定を、フェイルセーフにするようです。
Dan: まったくその通りです。「必要は発明の母」とはよく言ったものです。自分たちの環境に本当に重要な何かが停止するまで何を監視するべきかわからないみたいです。そして、(何をするかというよりも)どう設定すればいいのかを考えようとし、得てしてかなり単純な設定にしてしまう可能性があります。
私が受けた、もう1つの興味深い電話は自治体にガスを供給する業者からのものでした。彼らはガスバルブのコントロールを監視します。ガスバルブは様々なラインに供給される圧力を調節しますが、いたるところに行き渡る何十万ものガスラインに多数のバルブが設置されています。莫大な量の監視になります。
わかったのは、ある1つの特定のガスバルブが監視システム、WhatsUp Gold 監視システムにオンラインでつながっていなかったということです。そのバルブに問題が発生してガスの圧力が強くなったのですが、不幸中の幸いで、ガスラインは1つの工業ビルに行くものだけに限定されていました。問題はガスバルブが配置されていた場所で発見され、接続されていなかった問題は事後に判明しました。
そして大勢の待機要員をビルに集合させ、工業ビル内の人々の避難誘導を行った後、ラインにたまったガスをうまく逃がすための処理を考え出して、作業を行いました。大惨事になりかねない状況でしたが、なんとか間に合って悲劇を起こさずにすみました。私は実際にこの顧客のサポートをしていたわけですが、そのバルブから送信される情報をすべて収集していたのを確認しています。この事件には肝を冷やしましたが、うわー、もの凄いことに関わっているんだなあという印象を持ちました。
Greg: そうですね。たまたまネットワーク監視につながっていなかったバルブに問題が生じたという不幸な偶然だったのですか、それともほかのバルブにも問題があったけれどもその問題は監視ツールで検出できたということですか?
Dan: ええ、監視されていたほかのバルブには、ガスの圧力が強くなるという問題はありませんでした。ほかのバルブは最適に動作していました。問題があったのは交換されたバルブだったのですが、交換されたときに監視システムへのオンライン接続が外されたままになっていました。
Greg: うわー。ネットワーク監視は、こういった産業では本当に重要な鍵を握っていますね。フェイルセーフ・システムが生死の問題に直結します。
残念ながら、時間になってしまいました。Dan、危険な作業環境でITが重要な役割を果たしている興味深い話を、どうもありがとうございました。
Dan: ええ、ネットワーク監視環境で使われている WhatsUp Gold が関わった、エキサイティングで多様な事例のいくつかを共有する機会を与えていただきありがとうございます。次の機会を楽しみにしています。
Greg: そうですね、またお願いしたいと思います。ホストの Greg Mooney でした。次のポッドキャストまで、お元気で。
Get our latest blog posts delivered in a weekly email.