研究結果は本当に信頼できるのか?

ハンク・グリーン氏:2012年に、研究者であるグレン・ベグリー氏は科学情報誌『Nature』にコメントを寄せています。彼は米国の製薬会社、アムジェンでガン研究班を率いていた10年間に、世間を揺るがせたと言われている53のガン研究結果を再現しようと試みました。

しかし、彼の研究班は53の研究結果のうち、47例を再現することができませんでした。実に88パーセントもの重要な研究結果が再現できなかったのです。

2015年の8月、心理学者のブライアン・ノセック氏が、科学情報誌『Science』に、ここ3年間の心理学の100症例を再現した、との記事が掲載されました。

97例の元々の実験結果は統計学的に有為な結果だとされていました。つまり、変数によって導き出された実験結果であり、偶然の産物ではなさそうだったのです。しかし、彼の研究班がその結果を再現しようと試みたところ、結果が再現できたのは36例のみで、かろうじて全体の3分の1にしか過ぎませんでした。

どうやら数ヶ月置きに科学誌の出版産業問題に関するニュースが出てきているようですね。

たくさんの科学者、科学好きの人たちはなぜこんなことが起こり続けるのか、そして、なにか手だてはないものだろうかと、頭を悩ませています。

現在、科学誌の出版業界は反復実験、もしくは再現性の危機と言われる時期にさしかかっています。研究者たちは過去の実験を再現し、可能な限り実験結果を実現可能に近づけようとしています。

ある研究班が確かに思える研究論文を出版すると、もう一方の研究班がその論理を使って一歩進んだ独自の成果を出そうとします。

しかし、元々の研究が間違っていたとしたら、そこに費やされた莫大な時間とお金が無駄になってしまいます。

理屈では、どの研究結果を再現しようが、同じ結果に辿り着くはずなのです。ある実験で効果があるとされた抗がん剤があったとします。同じ条件下であれば、別の研究班が同じ実験をしても、その抗がん剤の効果が変わるはずはないのですから。

しかし、ベグリー氏のガン研究における実験では違いました。それは、他の分野における実験でも同じ問題として持ち上がっています。かつて行われた研究の研究結果を再現しようと試みるのですが、同じ結果にはならないのです。

では、一体なぜそのようなずさんな研究結果が日の目を見るのでしょうか?

ずさんな研究結果の原因は“読み違え”

ねつ造である場合もたまにありますが、それはほとんどないと言っていいでしょう。大抵の場合、研究方法や情報の解釈の仕方などの読み違えから来るのです。

生物医学からの例について考えてみましょう。たんぱく質についての研究を行っている研究者は、よく抗体を研究材料に利用します。ご存知かもしれませんが、抗体は外部からのさまざまな侵入者に矛先を向け、追い出そうとする、免疫システムに属しているのですが、科学調査によると抗体はある特殊なたんぱく質に反応する働きがあるのだとか。

しかし、ここのところ、科学者が説いたような抗体説は信用できないという証拠が続々とあがってきているのです。

製薬会社は研究者が購入できる抗体をつくり、カタログ上でどれがどのたんぱく質に有効であるかを述べています。問題は、そこに書かれていることが常に正しくはなかった、ということなのです。もし研究者がその抗体が狙い通りに働くかどうかを吟味せずに、その効果をそのまま信じてしまうと、実験結果の解釈を間違えてしまうのですから。

2011年に出版された科学情報誌、『Nature Structural & Molecular Biology』にて、それぞれが1種類のたんぱく質にしか有効ではないという246の抗体に対しての試験を行ったところ、その内の4分の1は1種類以上のたんぱく質の働きを制止することが判明しました。そして、そのなかの4種類の抗体は制止しなくてもいいたんぱく質の働きを制止しました。

研究者たちは、目当てのたんぱく質を見つけ出すために研究で抗体を使っていたのですが、抗体よって見つけ出されたと思われていたのは目当てのたんぱく質ではなく、全く別のものだったのです。そのことが、偽の陽性反応を引き起こし、間違った結果を生み出してしまったのです。

トロントのマウント・シナイ病院で起った事例がまさにそれでした。実に2年と500,000ドルを費やして、抗体を用いて膵臓ガンと関係があると考えられる特有のたんぱく質を探そうとしました。その費やした時間でわかったことと言えば、抗体が結びついていたのは違うガンたんぱく質で、求めていたたんぱく質にはかすりもしていなかったということなのです。

抗体製造産業はその質の面で問題を抱えている点があり、それは生物医学調査に少なからず影響を及ぼしているのです。会社によっては、抗体の品質が保証できるくらいにまでなっていますけどね。2014年の抗体のカタログを見直し、もう一度ふるいにかけ、元々掲載されていた3分の1抗体を削った会社もありますから。

研究者は、自らで抗体が望むたんぱく質にだけ結合するのかどうかを調べることはできますが、それは自分たちが行おうとしている研究を行う以前の段階の問題で、研究すべき問題の視野にすら入っていない問題なのです。ほとんどの研究班にはそこまで自分たちで行えるほどの時間もお金もありません。

しかしながら、研究者はこの問題を大きな課題とし、抗体の購入先に慎重になるようになったのです。

部屋の色や曜日が実験結果に影響することも

とは言え、正確性の高い材料だけを揃えても十分とは言えないのです。再現性の危機が引き起こされる原因は、どのような計画に基づいて実験が行われるかにもよるからです。

それはどのような分野に置いても言えることですが、主観的である、人の経験に左右される心理学の分野では特に問題視されている問題です。

実験と言うものは、外的要因をできる限り制御して行われなければなりません。なにが功を制したのか、それでわかるのですから。

しかし、心理学においては、全ての外的要因を制御することはできません。人が人間的であるという事実と関わりがあるものばかりだからです。

例えば、以前行われた実験では、人は老化に関する言葉を浴び続けると動きがゆっくりになるという結果が出ています。

別の研究班がその実験を再現したのですが、実験は失敗に終わりました。しかし、それは必ずしも先の効果を証明したり、また、効果がないことを証明したりしたものではありませんでした。模倣実験を行う前に、老化に関する言葉に関する実験内容がすでにわかっていたがために、潜在意識効果を台無しにした可能性があるからです。

実験とは直接関係の無い要因が結果に影響する場合もあるのです。部屋の色だったり、曜日だったり。

ほんの小さな違いが実験結果に影響をもたらすのなら、ノセック氏の研究班が100例の心理学の研究結果について再調査したところ、97例の実験結果の内、36例しか再現できなかったという結果も驚くに値しません。

しかしながら、実験結果が再現できない、という事実は最初の実験結果の信憑性をなくしてしまいます。少なからず、実験結果の再現ができるということはその結果を確固たるものにすることができるのですから。あらゆる分野において、実験結果の再現を強く望む研究者は、とくに心理学において、わりといるのです。心理学の実験において、その結果に信憑性を持たせるのはとても難しいのですから。

科学情報誌が後々議論を醸し出しそうな記事をあえて選択しているのは、載せた実験結果が誤りであると判明するかもしれない、という狙いもあります。

研究者は、自分たちの研究成果に説得力を持たせようと躍起になっている場合が多いものです。

例えば、あなたの論文が発表されたとします。すると、より深く研究するための財的支援が行われるのですが、それによってより多くの利益が発生すると、出資者である学術研究機関はあなたを離そうとはしなくなるからです。問題は、科学情報誌はそうでない結果よりも、いい結果を掲載しがちだということです。

あなたが生物学者だとします。ガン治療薬になりうるかもしれない薬の研究に3ヶ月を費やしたとします。3ヶ月後、その治療薬の効果が出たかもしれないという良い結果が出たとします。すると、情報誌はその結果を載せようとするでしょう。しかし、「その治療薬の効果はなかった」というような、望んだ結果が出せなかったとしたら、そうはならないのです。

よくない結果はほぼ記事になることはありません。そのため、研究者は結果を出そうと躍起になってしまうのです。

アムジェンでガン研究結果を再現したベグリーは50回も実験をしたにも関わらず、元の結果を再現することはできませんでした。元々の研究班の筆頭者は、6回の実験でいい結果が出たのは1回だとベグリーに言っていたそうです。そのたった1回のいい結果が掲載されたのです。

全てのデータが含まれているわけではい、不確実性がある分析結果である、驚くべき発見を世に出すのはとてつもなく大きな負担に違いありません。

解決策はあるのか

そういった問題を避けるために、新たな指針を定めるように提言する声も上がっています。論文の一文に、「述べられていない分析結果も存在します」と添えるとする。その一文が掲載されるのが当たり前になれば、この一文を掲載していない論文は危険信号となるでしょう。

しかし、研究者がすべてのデータをひっくるめた分析を行ったとしても、間違った分析をしてしまうことがあります。データ分析には数学が伴うからです。時として、多くの数学が必要になります。しかし、各分野の研究者たち、心理学であったり、生物学であったり、は、数学に長けているわけではありません。

生物学の単位を取るのに先進の統計法を学ぶ必要があるのではないのですから。ですので、研究者が行うデータ解析は時として間違ってしまうのです。

同業者の評論家たちも同じように数学に長けているわけではありませんので、間違いに気付かないのです。

そこで、p値があるのです。p値は確率値の略で、科学的な調査結果の重要性を簡潔に表現するのに使われます。p値を計算するには、最初に証明したいことと反対のことを仮定します。

例えばガン治療薬の試験を行っていて、その治療薬ががん細胞を殺すことを発見したとします。その研究でp値の値を調べるには、まず、治療薬ががん細胞を殺さないと仮定し、それから、がん細胞が死滅する可能性との差違を計算します。その尺度がp値となるのです。p値は実験結果が偶然の産物であることを示してくれるのです。

実験したガン治療薬のp値がコンマ01以下ということは、ガン治療薬ががん細胞を死滅させなかったとしても、1パーセント以下の確率でガン細胞は死滅するということを表しているのです。

発表される基準となる研究結果はp値の値がコンマ05以下、つまり偶然ガン細胞が5パーセント以下の割合で偶然死滅すると言い換えられる場合、なのです。

5パーセント、という数字は20分の1の確率ということですから、高い確率とは言えません。なのに、コンマ05以下のp値の値を持つ研究結果は多く発表されています。

差異は少しのことかもしれませんが、結果が偶然がもたらしたものなのだとしたら、発見は間違いになるでしょう。

p値を研究結果が意味のあるものであるかをどうかを決める尺度として捉えるのはどうかという声は多く上がっています。それよりも、研究によってもたらされた進展の割合の大きさを重要視すべきだ、と。研究始めと終わりの変化を見れば、どれくらい研究が進展したのかがわかるのですから。

さらに、発表されていないデータをもっと共有するべきだという声も上がっています。この先、それが当然となり、浸透してゆくのではないでしょうか。

科学調査や情報誌の掲載状況を無視しては考えられない様々な問題を浮き彫りにする再現性の危機問題。しかし、研究者たちは、その問題を解決するためにも奔走しているのです。