CLOSE

⑤内藤淳氏に聞く検査の選び方「信頼性」「妥当性」「標準性」(全2記事)

適性検査はどれを使っても同じ? 採用担当が見極めに迷った時の「3つの判断軸」

人事領域の専門家の株式会社壺中天 代表取締役の坪谷邦生氏と採用市場研究所 所長の秋山紘樹氏が、毎回ゲストを迎えてトークセッションを行う「採用入門」シリーズ。今回は、株式会社リクルートマネジメントソリューションズ主任研究員の内藤淳氏に、適性検査の選び方を聞きました。前編は適性検査の良し悪しを見極められるようになる、「3つの判断軸」を解説します。

自社で使っている「適性検査の良し悪し」を知る方法は?

坪谷邦生氏(以下、坪谷):今日は内藤さんに、採用の初学者の方たちに向けて「適性検査」をどう考えたらいいかをおうかがいします。よろしくお願いします。

内藤淳氏(以下、内藤):私は採用担当者をやったことはないのですが、「もし自分が採用担当者だったら」ということでお話しします。ほとんどの会社が適性検査を使っていると思うので、自分であれば、まず「今使っている検査は有効か」という検証から入りますかね。

坪谷:世の中には多くの適性検査が出ているので、採用担当者の方からすると、たぶん違いがよくわからない。それで、広告でよく見かけるものや安いものを「結局一緒だろう」と思って導入しているように見えます。

内藤:違いがわからなければそうなってしまいますよね。では、「適性検査の良し悪し」をどうやって確かめるかと言うと「妥当性」です。検査の結果として表れているものがどれぐらい有効なものか、正確なものかということを確認するのが、適性検査を選ぶ上で一番大事なポイントになります。

会社規模にもよりますが、もし今まで適性検査を使ってきた実績があるなら、それなりの人数の社員の方々のデータが蓄積されているでしょうから、その結果を用いた分析と妥当性の確認から始めると思います。

具体的にはすでに辞めてしまっている人を除き、今も社内に残っている人たちの中で、活躍している群とそうでない群の得点の平均を比較します。適性検査の結果を見た時に、活躍している人たちに何らか共通の特徴が見られるか、その傾向が納得できるものかどうかを調べるということですね。

例えば、すごく意欲が高い人が活躍しているとか、フットワークが良い人が活躍しているとか。活躍している群とそうでない群との間に見られる特徴の違いが、「確かにうちの会社で活躍している人たちの特徴をよく表している」と納得できること。実感値と分析結果がちゃんと一致しているかを確認することが一番大事です。

適性検査を導入する前に知っておきたい、3つの判断軸

秋山紘樹氏(以下、秋山):ありがとうございます、既存の社員データを活用して適性検査の妥当性を検証できるというお話、とても納得できました。一方で、これから採用を本格化させていく企業など、まだ社内データの蓄積が少ない場合は、どのような基準で適性検査を選べばよいのかもお聞きしたいなと思いました。

内藤:リクルートマネジメントソリューションズでは、適性検査の良し悪しを表す3つの判断軸として、「信頼性」「妥当性」「標準性」の3つを挙げています。この3つの観点で適性検査の品質を確かめにいくのがポイントになります。

まず、「信頼性」というのは、検査の物差しとしての安定性のことです。物差しとして使う以上、測る度にいつもほぼ同じ結果が得られることが大切です。一番わかりやすい方法は、同じ人に検査を2回受けてもらうことです。2回の実施で得られた得点が一致しているほど、その検査の信頼性が高いということになります。

2つの得点が完全に一致することは通常ありませんが、実施する度に得点が大きくガラッと変わってしまうということが起こっていないかを確認します。

信頼性の高さを表す指標は「信頼性係数」と呼ばれます。適性検査を提供する会社は通常、検査の信頼性係数を開示しており、例えばSPIシリーズでは0.8~0.9程度になっています。もしこれが1という検査があったら、何回実施しても同じ結果が出ることになります。

それは現実的には難しいため、どんな検査であっても1にはなりません。信頼性係数の高さを評価する際の目安は、0.8以上であれば相当高い検査だといえますが、低くても0.7程度は確保されていることが望ましく、そうでないと受検ごとの得点の変動幅が大きくなってしまいます。
 
検査の信頼性係数が公開されていないケースもありますので、適性検査を選ぶ際には、この値がきちんと開示されている検査を選ぶようにしたほうがよいです。多数のサンプルに基づいて算出された信頼性係数がきちんと開示されていること、そしてその値が十分に高いことが、検査選択の1つの目安になります。

秋山:なるほど。

適性検査の「信頼性」と「妥当性」の関係性に注意

内藤:2つ目の「妥当性」については、冒頭でもお話ししました。検査結果に納得があるかどうか。例えば社員の活躍と検査の得点との間に、納得できる関係性が見られるかということを表しています。

信頼性と妥当性の関係でいうと、信頼性が低い検査では妥当性は高くならないという関係性があります。一方で、信頼性が非常に高かったとしても妥当性が低いということはあり得ますので、この点には少し注意が必要です。

説明のために、例として体重計を考えてみましょう。体重計は、2回連続して測った時にほぼ同じ値が得られますから、信頼性は非常に高いものです。おそらく1に近い値の信頼性があります。でも、この体重計を適性検査として用いて「職務遂行能力の高さを測れます」と言うとすれば、この体重計の「妥当性」は非常に低いものになります。
 
確かに相撲の力士であれば、体重が重いほど活躍するという関係が見られるかもしれませんが、普通のビジネスパースンには体重が重いほど活躍するという関係は成り立ちません。このように、たとえ検査の信頼性が非常に高かったとしても、測定している対象がずれているとすれば、その検査は目的に照らして妥当なものを測っているとはいえず、妥当性は低くなってしまいます。
 
もう少し実際の適性検査に近い例で考えましょう。今「意欲の高さ」を測る性格検査を選びたいのであれば、自社の中で実際に意欲的に行動している人の検査得点が本当に高いかどうかを事前に確認することが必要です。その検査が測りたいものを本当に測っているか、すなわち「妥当性」の高さを確認するというのが、適性検査を選ぶ際の2つ目のポイントになります。

「何のために測るのか」と「何を測るのか」

秋山:確かに、それで言うと「何のために測るのか」と「何を測るのか」という目的とその対象のセットが本当に重要ということですね。

内藤:そのとおりです。「目的に合致したものを測っているかどうか」というのが妥当性ですね。すでにその検査を受けた社員のデータが手元にあるのであれば、それを用いて分析を行ってみることが、妥当性を確認するための1つの手立てになります。もし、まだ導入前であるならば、入社5〜10年目前後の社員50人ほどに試験的に検査を実施してみて、分析を行うというやり方もあります。

秋山:すごくクリアになりました。過去に適性検査の導入を検討したことを思い返していたのですが、今振り返ると「何のために、何を測りたいのか」について現場としっかり議論を重ねるというよりも、「まずは適性検査を入れてみて、使いながら考えていけばいいかな」といった、どちらかというとふんわりした進め方をしていたかも……と、少しドキッとしながらお話を伺っていました。

内藤:(笑)。

坪谷:妥当性を知る方法としては、導入前に一部の社員に受けてもらって判断する方法があると思いますが、信頼性係数のように、何かの数字やデータを見て判断するやり方もあるんですか?

内藤:それもありますね。例えばSPIシリーズでは、長年の提供実績を通じて得られた多数のデータを基に、活躍している群とそうでない群の間に見られる一般的な傾向の違いを分析した結果を各種学会で発表したり、顧客向けに公開したりしています。このように、しっかりとした提供実績を持つ検査であれば、妥当性に関する情報が開示されていますので、それを基に検査の品質を確認することができます。

複数回の適性検査の平均から「人事考課が安定して高い人」を特定

坪谷:すでに適性検査を使っている場合は、今活躍している人と活躍が難しかった人を比べることになりますが、何を基に考えれば良いでしょうか?

内藤:企業で分析を実施する場合には、活躍しているかどうかの基準として人事考課のデータを使うことが多いです。ただし1回の人事考課だと「たまたま結果が良かった」ということもあり得るため、複数回の結果の平均を用いて「人事考課が安定して高い人」を特定するというやり方のほうが優れています。
 
他の方法としては、直属上長に配下のメンバーに関するアンケートに回答してもらい、それを評価情報として使用するというやり方もあります。また、入社してから昇進・昇格するまでの期間を比較し、昇進・昇格までにかかったスピード(早い・遅い・標準的)を評価として用いるという方法もあります。

坪谷:その時に退職された方や、活躍が難しかった方(その会社ではパフォーマンスを発揮できなかった方)は、比較しないのでしょうか。

内藤:「活躍しているか・していないか」と「勤続し続けているか・退職したか」は、別の観点として考えたほうがよいと思います。活躍する人を見つけたいのか、定着する人を知りたいのかによって、分析の仕方が変わってくるからです。

坪谷:確かに。まさに「目的に沿ったものになっているかどうか」ということですね。「考課が高い=社内で活躍している」ということだから、活躍しているかどうかを見る時は、当然人事考課という基準があって、退職している人や退職しやすいかどうかは、また別軸で妥当性を検証する。

内藤:そうですね。適性検査はさまざまな尺度がまとまった総合検査として構成されていることが多いので、能力面にしても、性格面にしても複数の尺度があり、それぞれの傾向を把握できることが多いです。例えば「活躍している人は、こういった共通の傾向がある」というかたちですね。

適性検査を自分で分析するためのポイント

坪谷:例えば先ほどの考課で、得点が高い人と低い人のデータを集められたとして、どう分析をするべきでしょう。やはり専門家に頼ったほうが安全でしょうか?

内藤:最近は分析のためのさまざまなツールがありますし、Excelにも分析機能が組み込まれていますので、専門家に頼らなくても自分で分析できる環境になってきています。
 
分析の一般的な方法としては、活躍群と非活躍群それぞれについて一定数のデータを集めた上で、両群の平均値に統計的に意味のある差が見られるかということを検証します。平均値の差のt検定も、Excelや統計解析ツールで計算できますので、やろうと思えばご自身でも分析できると思います。

坪谷:ちなみに、どれくらいの分母があったら意味のあるデータになるんですか?

内藤:これには正解はありませんが、データ数が少ないと正確な検定を行うことができません。経験的に言えば、少なくとも1つの群に30人ずつぐらいのデータ数があることが望ましいです。活躍群30人、非活躍群30人という人数で平均値を比較できると、ある程度の精度が確保された分析ができると思います。

坪谷:例えば適性検査SPIシリーズを実施した時に、いろんな尺度がありますよね。その一つひとつの尺度について、平均値やそれぞれデータのばらつきに意味があるのか・ないのかを見ていって、「活躍している人としていない人たちを比べると、この尺度に意味がある」というところを見いだしていく。

内藤:そうですね。検査の尺度ごとに分析を行うことで、どこで意味のある差が表れているかを確認していく形になります。

5年ごとに分析を繰り返すのが理想的

坪谷:今使っているのがどんな検査であったとしても、「何か」は出てくると思うんですよね。そのままそれを使い続けていくかどうかは、どうやって見極めればいいでしょうか?

内藤:自社の社員データを用いて分析した結果、納得できる差が見られているのであれば、その検査は一定の妥当性を持つと考えられますので、今後も安心して使っていけます。
 
ただし、あまり年数が経つと会社の中で活躍するための人材要件の方が変わってしまう可能性があります。自社において活躍する人材の特徴に変化が生じていないかを確認するために、だいたい5年ごとに分析を繰り返すというのが理想的です。

坪谷:なるほど。5年も経つと、事業環境や業務の状況が変わっているから。

内藤:一般論ですけど、昔は明るさやフットワークを求める企業が多かったというイメージがありますが、今は時代も変わり、デジタル化やDXの流れを受けてよりロジカルで合理的な思考を求めるという企業が増えてきている印象があります。時代とともに、求める人物像も変化していきますので、それぞれの企業において「活躍のために何が必要か」ということを定期的に確認することが大事だと思います。

1人分の検査結果しかなくても、その人のレベルを判断できるか

内藤:最後の観点は「標準性」です。例えば、今100点満点のテストが2つあったとします。1つ目のテストが50点で、2つ目のテストが40点だった時に、どちらの結果がより良い結果だったといえるでしょうか。

例えば1つ目のテストは、クラスの平均点が80点であり、自分の50点というのはクラスの中で一番低かったかもしれません。一方、2つ目のテストはすごく難しくて、クラスの平均点が20点であり、自分の40点というのはクラスの中で一番高かったかもしれません。つまり、通常の100点満点のテストでは、他の人たちと比較した際に自分の得点がどの程度の位置にあるのかを把握することができません。
 
これに対し、「人と比べた自分の得点の位置」を示すことができる得点の例として、中・高・大学受験の際によく用いられる「偏差値」というものがあります。これを用いれば、全体の得点分布の中で自分がどれくらいの位置にあるのかを把握することができます。

また偏差値とは少し異なりますが、SPIシリーズでは「標準得点」という方法を用いて検査結果を表しています。標準得点では、学生や企業人など基準となる集団における平均点を50点として得点が表されますので、ある人の得点がもし40点ならば標準的な集団よりも低い、60点ならば高いというように、その人の得点の水準を捉えることができます。
 
適性検査では、受検者が基準となる集団の中でどの水準にいるのかがわかることが大切であり、たとえ1名分のテスト結果しかなかったとしても、その人のレベルを判断できるという性能が求められます。これが「標準性」であり、検査が正確な得点の目盛りを持っていることを示しています。

坪谷:「何点だと標準的にどこなのか」がわかるということですね。

内藤:そうです。

幅広く利用され、ベースになるデータも多いのが信頼できる検査

秋山:なるほど、標準性についてとてもよく理解できました。もし2〜3年前の自分がこの説明を聞いていたら、適性検査に対する見方がかなり変わっていたんじゃないかと思います。そこで気になったのですが、この標準性を確保するためには、やはり適性検査の実施実績やサンプル数(検査を受けた人の数)は、多ければ多いほど良いものなのでしょうか?

内藤:「標準性」を確保するためには、得点算出の基準となる母集団のデータの量と質が重要になります。検査の受検人数が多ければ、代表性のある質の高い母集団を得ることができますので、受検者のレベルを正確に捉えられる標準性の高い検査となります。一方、あまり実績のない検査では、母集団のデータに偏りがあるため標準性の観点からの不安が生じます。

坪谷:標準性を測るには、分母が大きいほうがいいということですね。

内藤:そうですね。幅広く利用されており、ベースになるデータが多数蓄積されているということが、標準性が高く信頼できる検査の一つの条件になります。

続きを読むには会員登録
(無料)が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら

関連タグ:

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか?

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け!