メモリモジュール故障の意外すぎる原因

ステファン・チン氏:1980年代初期、IBM社のエンジニアたちは、困った問題に直面していました。アメリカ国内で起こるコンピュータのメモリモジュール故障は、テストによりたいていは原因が判明するのですが、コロラド州デンバーで起こる故障だけは、80%が原因不明だったのです。どのテストでも、モジュールは異常なしと結果が出ます。

IBMがようやく探し当てた犯人は、なんと地球外から来たものでした。宇宙人ではありませんよ。その原因は「宇宙線」だったのです。宇宙から飛来するこの訪問者は、コンピュータの誕生以来、常に大事な役割を果たして来たとある電子機器に、壊滅的被害を与える可能性があるのです。

宇宙線は電子機器を暴走させる

宇宙線は、水素やヘリウムの原子核などの微細な粒子です。超新星爆発やその他の天体現象により生成され、光速の99%に近いスピードで私たちにぶつかって来ます。

太陽から飛来するものであれ、原子力爆弾から放出するものであれ、強いエネルギーを持つ放射線(注:宇宙線の別名)が電子機器を暴走させることは、1950年代から研究者たちの間では知られていました。

実際に、宇宙船のような宇宙機に関しては、長らく放射線対策が課題でした。しかし、地表は大気圏により放射線から守られているものと考えられてきました。事実、地表は大気圏のおかげで放射線の直撃は免れています。

しかし、宇宙線は非常に高いエネルギーを持っており、大気中の分子に衝突しても単に消滅することはありません。衝突により、二次宇宙線と呼ばれる大量の粒子を生成します。

二次宇宙線の持つエネルギーは微細ですが、高速で飛び交うにはじゅうぶんなものです。二次宇宙線のほとんどは、大気中の分子により吸収・偏向されますが、地表に到達するものも少なくありません。

RAM内で起こる小さな核分裂反応

さて、宇宙線の向かう地表にあるのが、コンピュータです。コンピュータの中には、電子が浮遊しています。皆さんのE-mailやソフトウェア、Netflix動画などが物理的に実体化したものが電子です。電子は、RAMチップと呼ばれるコンピュータのメモリに大量に常駐しています。RAMの電子は、ビットと呼ばれる1と0の情報を保管するミクロの貯蔵庫を、絶えず出入りしています。

二次宇宙線のシャワーから放出されたニュートロンがRAM中のシリコン原子核に衝突すると、エネルギーの衝撃を与えてこの核を破壊します。これは小さな核分裂反応です。つまり、原子炉で起こる反応と同じことが起きているのです!

陽の電荷を負った核はチップ内を浮遊し、負の電荷を負った電子を引きつけます。すると時に大量の電子がRAMの貯蔵庫から放り出されたり引き込まれたりして、0が1に、1が0に変換されてしまうのです。宇宙線がコンピュータメモリの中身を破壊するのは、このような仕組みです。

科学者たちは、これを「シングル・イベント・アップセット(SEU:single event upset)」と呼んでいます。「シングル・イベント」とは、これが一過性のものであり、チップが恒久的なダメージを受けることは無いことを意味します。後になってメモリをテストしても、なんら異常が出ることはありません。これが一般にいうところの「ソフトエラー」です。

テクノロジーの発展と粒子衝突による誤作動の関係性

二次宇宙線はどこにでも存在しますが、標高が上がるにつれて、大気中の分子との衝突が減るため、ニュートロンとの接触は増加します。「マイル・ハイ・シティ(注:標高の高いデンバー市の愛称)」デンバーにおいてコンピュータの一時的なメモリ故障が多かったのは、これが原因だったのです。謎が解けましたね。

大抵のSEUは、コンピュータが時々ブルースクリーンに変わって停止してしまうだけで、大きな問題には至りません。「ゲーム・オブ・スローンズ」をやっていて1ピクセルが消えていたとしても、まったく気にならないでしょう。しかし時に、SEUは大事件に発展することがあります。

2003年、ベルギーのスカールベーク市の投票カウンターが、1人の候補者に4,096票を過剰に加算しました。コンピュータの1ビットのエラーが原因でした。2008年、カンタス航空の旅客機が突如20秒間何百フィートも急降下し、大勢の乗客が天井に叩きつけられました。確たる証拠はありませんが、どちらのケースも原因は宇宙線ではないかとされています。

カンタス航空の場合のような高高度における事故防止のため、航空産業界では放射線から電子機器を守るための膨大な研究が以前からされています。スーパーコンピュータ、サーバーファーム、ネットワークシステムなど、継続的に長期間稼働し、大量のメモリを有するデバイスにもまた、防御の配慮が必要です。

しかしテクノロジーの発展に伴って、スマホや自動運転車、スマート玄関チャイムなど、SEUは身近な物にも課題となりつつあります。回路はますます小型化し、1ビットが変換されてしまうエラーが簡単に起こりやすくなっています。さらに、シリコン化合物であり、機器の要となるトランジスタが、RAMなどの電子機器にますます多く内蔵されるようになっており、粒子衝突による誤作動が起こりやすくなっています。

誤作動を防ぐ3本の柱

そこでエンジニアたちは、防御の3本柱を打ち出しました。第一策は、トランジスタ内のスペースを電荷が動き回ることができないよう工夫し、誤作動の可能性を減らすものです。

第二策は、RAMの誤った値を検出して正しい値に訂正することです。「誤り訂正符号メモリ」、またの名をECC RAMとは、各メモリに記録されるべき1の正しい数を記憶し、チップに誤った値が記録されていることを検出して正しい値に訂正します。ECC RAMはデータセンターなどで広く活用されており、自家用のパソコンにも内蔵可能です。このような策により、不測のエラーが起きても対応が可能になってきています。

究極の策は、宇宙機器や航空機で用いられており、複数のまったく同じ回路を同時に作動させて、同じ結果が出なければ再計算をさせる、というものです。

まあ、ここまでしなくとも、データのエラー検出のみを行ったり、少々の誤作動は見逃してやることもありでしょう。

いずれにせよ、どの解決策でも、威力や規模、スピード、関わる金額により、コストがかかります。しかし、人命に関わることであれば、コストをかける意義は十分にあります。

さらに電子機器が小型化するにあたり、宇宙のかなたから地球に飛来する宇宙線をうまくかわす方法を模索する必要性は、今後より増してくることでしょう。

人類の生活を支える数式や物理法則の力

さてこれまでSciShowで見てきたとおり、人類はどんな環境下をも生き抜くスキルを発達させてきました。宇宙線から電子機器を守る技であれ、地震から100階建てビルを守る技であれ、膨大な数式や物理法則が、人類の現在の生活を支えています。

SciShowのスポンサー、Brilliant.orgでは、クイズを通して科学者の思考回路を疑似体験することができます。さて、今日のテーマは「高高度」ですので、視聴者と一緒に高層ビルに関するクイズにチャレンジしてみようと思います。

「インフラコース」のラストが高層ビルに関する設問ですのでやってみましょう。さて、高層ビルについて考える前に、山積みにした本をいかに安定させるかを考えてみましょう。これでは不安定ですね。あ、正解でした。

次に、隣り合って建つ高層ビルに、風速がいかに影響するかという設問です。その前に、ホースの端を親指で抑えると、どのように水に影響があるかを考えます。ホースの一部分のみ抑えると、水流のスピードが上がりますね。この設問では、ビルディングが流れの一部を遮っているので、風速は増します・・・正解でした!

クイズの終盤には、高層ビルが風に揺らいでいる短い動画を見ることができ、技術者たちが、水槽タンクを使って、どのように揺らぎの重量を相殺するかがわかります。これはたいへんよくできていますね。

実際に試してみたい方、SciShowをサポートしてくださる方には、先着77名様に20%offのプレミアム会員登録が贈られます。