研修効果測定モデル比較|カークパトリック・フィリップス・LTEM・SCMの違いと選び方

研修効果測定はなぜ必要なのか?
研修効果測定とは、研修プログラムが受講者の学習・行動・業績にどのような変化をもたらしたかを体系的に把握するプロセスです。単なるアンケート集計ではなく、研修投資が組織のビジネス目標にどうつながっているかを明らかにすることが本質的な目的です。
「本当に効果があったのだろうか」——研修を実施したあと、こう感じた経験はないでしょうか。受講者の満足度アンケートでは高いスコアが出ても、現場の行動が変わった手応えがない。あるいは、上司から「研修の費用対効果を示してほしい」と求められ、どう答えればよいか迷ったことのある人材育成担当者は少なくないはずです。
研修効果を可視化できれば、経営層への説明責任を果たせるだけでなく、次の研修プログラムの改善にもつながります。そのための出発点として、世界的に活用されている代表的なモデルを理解しておくことが重要です。この記事では、カークパトリック、フィリップス、LTEM、SCM(サクセスケース・メソッド)の4つのモデルと、GP Strategiesのアプローチを解説し、それぞれの特徴と使い分けを整理します。
なお、効果測定を機能させるためには、研修設計の段階から目標を明確にしておく必要があります。設計の基礎については研修ニーズのヒアリング方法|把握から設計につなげる3つのアプローチもあわせてご参照ください。
カークパトリックの4段階モデルとは?
カークパトリックの4段階モデルは、研修効果測定の世界標準と言えるフレームワークです。1959年にドナルド・カークパトリックが提唱し、その後の多くのモデルの原型となりました。受講者の反応(Level 1)から組織のビジネス成果(Level 4)まで、4つのレベルで段階的に評価するという考え方が特徴です。
カークパトリックの4段階モデル
成果(Results)
売上・コスト・品質など、ビジネス上の成果への貢献
行動(Behavior)
研修後、職場で学んだことを実際に活かしているか
学習(Learning)
知識・スキル・態度がどれだけ身についたか
反応(Reaction)
受講者が研修内容・講師・環境をどう評価したか
▲ 下から上へ積み上がる構造。Level 1の反応が土台となり、Level 4の成果につながる
このモデルの実務上の意味は、「受講後アンケートで満足度が高かっただけでは、研修効果を測定したことにはならない」という点にあります。Level 1(反応)からLevel 4(成果)まで階段を上がるにつれ、測定の難易度は上がりますが、経営層が求めているのは上位レベルの情報です。自社の研修がどのレベルまで測れているかを棚卸しすることが、効果測定の第一歩になります。
ニュー カークパトリックモデル ─ Level 3を中心に据える発展版
後継のジムとウェンディ・カークパトリックは「ニュー カークパトリックモデル」として発展版を提唱しました。この更新版で最も重要な変更は、Level 3の「行動」を中心に据えたことです。研修前から職場での行動定着を意識した設計・フォローの重要性を強調し、「Monitor(監視)& Adjust(調整)」というサイクルを明示しました。単なる評価ではなく、継続的な改善プロセスとして位置づけたことが大きな違いです。
カークパトリックモデルは汎用性が高く、どの業界・規模の組織でも導入しやすい点が強みです。一方で「Level 4の成果は研修以外の要因も多く、因果関係の証明が難しい」という限界も指摘されています。この課題に正面から向き合い、費用対効果を数値で示すことを目指したのが、次のフィリップスモデルです。
フィリップスのROI方法論|費用対効果を数値で示すには?
フィリップスの5段階モデルは、カークパトリックの4段階にLevel 5「費用対効果(ROI)」を加え、研修投資に対する金銭的リターンを定量化することを目指したモデルです。ジャック・フィリップスとパッティー・フィリップスが開発し、「経営層に研修投資の価値を数字で説明したい」という人材育成担当者のニーズに応える設計になっています。
フィリップスの5段階モデル(カークパトリック+Level 0・Level 5)
費用対効果(ROI)
研修コストに対する金銭的リターンを算出
成果(Impact)
職場での行動変容がもたらしたビジネスへの影響を測定
行動・活用(Application)
研修内容を職場でどの程度活用できているか
学習(Learning)
知識・スキルが習得されたかをテスト等で確認
反応(Reaction)
受講者の満足度・内容への反応をアンケートで収集
インプット(Input)
受講者数・実施時間・コストなどの基本データ
▲ カークパトリックの4段階(L1〜L4)にLevel 0とLevel 5を加えた6段階構造
フィリップスモデルの実務上の強みは、研修の効果を「パーセンテージ」や「金額」という経営者が理解しやすい指標で表現できることです。ただし、すべての研修でROI算出が必要というわけではありません(後述の「どのレベルまで測るか」参照)。自社の重点プログラムに絞って適用するのが現実的です。
V型モデルとは? ─ 企画と測定を鏡にする設計思想
フィリップスモデルが他のモデルと決定的に異なるのは「V型モデル」と呼ばれる設計思想です。多くの人材育成担当者が「研修を実施してから測定する」という順序で考えがちですが、フィリップスはその逆を主張します。まず最終的に達成したいビジネス成果を明確にし、そこから逆算して研修を設計するという考え方です。
ROI Methodology — V型モデル(企画と測定の連動)
左側:成果から逆算して研修を設計 / 右側:研修後に下から上へ積み上げて測定
企画:Payoff Needs
達成したいビジネス上の成果・ROI目標を定義
測定:Level 5 ROI
研修コストと金銭的リターンを比較・算出
企画:Business Needs
売上・コスト・品質などの改善指標を明確化
測定:Level 4 Impact
行動変容がもたらしたビジネスへの影響を測定
企画:Performance Needs
受講者に求める具体的な行動・スキル活用を定義
測定:Level 3 Application
研修内容を職場でどの程度活用できているか確認
企画:Learning Needs
行動を実現するために必要な知識・スキルを特定
測定:Level 2 Learning
知識・スキルが習得されたかをテスト等で確認
企画:Preference Needs
受講者が納得できる内容・形式を把握
測定:Level 1 Reaction
満足度・内容への反応をアンケートで収集
V型モデルのポイント:左側(企画)で設定した各レベルの目標と、右側(測定)で確認する内容が1対1で対応している。企画段階で「何を測るか」も同時に決めることで、後から「何を測ればよかったか分からない」という状況を防ぐ。
V型モデルの最大のメリットは、「研修設計と効果測定を別々のプロジェクトにしない」ことです。企画段階でLevel 3(職場活用)の目標を設定したなら、研修後にも同じLevel 3で「実際に職場で活用できているか」を確認します。この対応関係を最初から設計しておくことが、フィリップスモデルを研修設計から効果測定まで一貫して使える理由です。
弊社がATD国際会議で直接学んだ知見として、フィリップスのROI方法論は「ROIの数値を出すこと自体」よりも「V型モデルの企画プロセスを通じて、研修の目的とビジネス目標のつながりを言語化すること」に最も大きな実務的価値があります。ROIの計算をしなくても、V型モデルの左側(企画フェーズ)だけを使って研修設計の質を高めるという活用法は、日本企業の人材育成担当者にも取り入れやすいアプローチです。
PLAN→DO→SEE→ACTIONの実践プロセス
V型モデルの流れをより実践的なプロセスに落とし込んだのが「PLAN→DO→SEE→ACTION」の4フェーズです。ROI Methodologyの全ステップはこの4フェーズに整理されます。
ROI Methodologyの4フェーズ
PLAN
研修の目的と測定計画を設計
1. ビジネスゴールに合わせる
2. 現実的なプランを考える
3. プロセスを具体化する
DO
研修を実施しデータを収集
4. L1・L2のデータを取得
5. L3・L4のデータを取得
SEE
因果関係を分析しROIを算出
6. 因果関係を明確にする
7. データを金額に換算する
8. ROI(%)を計算する
ACTION
報告し次の改善につなげる
9. 経営層に結果を報告する
10. 改善サイクルを回す
▲ PLAN→DO→SEE→ACTIONの4フェーズ(ROI Methodologyの10ステップを整理)
このプロセスで特に重要なのはSEEフェーズの「因果関係の明確化」です。研修後に成果が出たとしても、それが研修の効果なのか、市場環境の変化なのか、個人の努力なのかを区別しなければ経営層への説明力が弱くなります。フィリップスはコントロールグループの設定、受講者への事後ヒアリング、上司評価の活用など複数の手法で研修の「純粋な貢献度」を推計することを推奨しています。
研修設計と効果測定を連動させる方法については、ブレンドラーニングとは|研修効果を高める設計の考え方と実践ポイントもあわせてご覧ください。
どのレベルまで測ればよいか?
すべての研修プログラムをLevel 5まで測定することは現実的ではありません。フィリップスらは、プログラムの重要度に応じて測定レベルを使い分ける目安を提示しています。
フィリップスが示す「各レベルの適用率」の目安
全プログラムをLevel 5まで測る必要はない。重要度に応じて使い分ける
実務への示唆:Level 1はほぼ全プログラムで実施し、Level 5は全体の5〜10%の重点プログラムに絞る。重要なのは「全てを完璧に測ろう」とするのではなく、V型モデルの企画段階で「このプログラムはどのレベルまで測るか」を事前に決めておくこと。
この目安が示す通り、費用対効果(Level 5)の測定は一部の重点プログラムに限定し、日常的な研修ではLevel 1〜3の組み合わせで運用するのが現実的です。「すべてをLevel 5まで測ろう」とすると測定業務自体が膨大になり、本来の研修設計・実施のリソースを圧迫するため注意が必要です。
研修効果測定の設計を、研修企画の段階から一体で進めたい方へ。貴社のプログラムに合った測定レベルの選定からサポートします。
LTEMとは? ─ スキル定着を測る新しいアプローチ
LTEM(ラーニング・トランスファー・エバリュエーション・モデル)は、「受講者が職場で実際にスキルを使えるようになったか」を評価の中心に据えた、2018年発表の比較的新しいモデルです。開発者のウィル・トールハイマーは「カークパトリックモデルの問題点に関する研究を何年も読んで飽きた。より良いものを自分でつくることにした」と語っており、既存モデルへの明確な問題意識から生まれました。
LTEMの最大の特徴は、8つの段階を信号機の3色(赤・黄・緑)で分類し、「どの指標に測定の意味があるか」を直感的に判断できるようにした点です。赤は「単独では効果測定に不十分」、黄は「補助的に有効だが単独では不十分」、緑は「効果測定に重要な指標」を示します。
信号機カラーで測定価値を見分ける
LTEMの8段階モデル ─ 信号機カラーで測定価値を分類
緑(Tier 6〜8)が高いほど、研修効果の証拠として信頼性が高い
職場での成果(Effects of Transfer)
受講者・チーム・組織・社会への幅広い影響
職場での活用(Transfer)
研修内容を職場で実際に使えているか
ケイパビリティ(Task Competence)
業務に近いシナリオで適切な判断・行動ができるか(数日後以降)
コンピテンシー(Decision Making)
ケースでの意思決定の質(数日後以降の定着確認が重要)
知識(Knowledge)
用語・事実の記憶。行動変容には不十分なケースが多い
受講者の認識(Learner Perceptions)
「理解できた」という主観的な感覚。客観指標との組み合わせが必要
活動への参加(Activity)
注意・関心・参加の度合い。参加していても学んでいない場合がある
受講(Attendance)
出席・修了の事実。受講しただけでは学習効果の証明にならない
▲ Tier 6以上(緑)が「研修効果の証拠として信頼できる指標」
LTEMが日本企業の人材育成担当者に突きつけるのは、「多くの企業はTier 1〜3(赤〜黄)の範囲でしか測定していない」という現実です。出席確認(Tier 1)と受講後アンケート(Tier 3)だけでは、研修直後の「分かった気がする」を測っているにすぎず、数週間後に職場でスキルを使えるかどうかは別問題です。LTEMは「研修から数日〜数週間後に業務シナリオに基づいた確認テストやロールプレイを行う」という仕組みをTier 6以上に位置づけ、本当の定着を測ることを促しています。
研修効果の測定方法をより体系的に整備したい方は、研修効果測定のやり方|実践できる3つのステップを解説も参考にしてください。
SCMとは? ─ 成功事例に絞って効果を掘り下げる
SCM(サクセスケース・メソッド)は、全受講者を均一に測定するのではなく、「成果が出た事例と出なかった事例を選んで深くヒアリングする」という逆転の発想のアプローチです。ロバート・O・ブリンカホフが提唱したこのメソッドは、測定コストを抑えながら、現場で実際に機能している要因と障害を素早く把握できる点が強みです。
受講者を3つのゾーンに分類する
SCMの出発点は、受講者を研修後の行動によって3つのグループに分類することです。この分類を行うだけで、「研修効果が出ない理由は研修内容ではなく、職場環境と上司のサポートにある」という構造的な問題が見えてきます。
SCMの3ゾーン分類 ─ 成果を出す受講者は全体の20%未満
実務への示唆:成果を出す受講者が20%未満にとどまる主な理由は、研修内容の問題ではなく「職場環境」と「上司のサポート」にある。研修プログラムの改善だけでなく、研修後の現場支援の仕組みづくりが不可欠。
SCMの5ステップ
SCMは以下の5つのステップで進めます。全受講者を対象にした大規模調査と比べ、少ないリソースで「成果が出るメカニズム」と「障害となっている要因」を把握できることがこのメソッドの強みです。
SCMの5ステップ
インパクトマップ
事業戦略と研修をつなげる因果の連鎖を図式化
アンケート
受講者を3グループに分類
インタビュー
成果者・未達者に個別ヒアリング
レポート作成
データよりストーリー重視
結果発表
改善提案と現場支援を提言
Step 1の「インパクトマップ」では、「知識・スキルの習得 → 職場での行動変容 → 業務成果 → ビジネスゴールへの貢献」という因果の連鎖を事前に図式化します。これにより、後のStep 3のインタビューで「何を確認すればよいか」が明確になります。インタビューでは、成果が出た受講者(全体の15%程度)に絞り、「何が成功要因だったか」「職場環境や上司のサポートはどうだったか」を深掘りします。
Step 5の結果発表で特に重要なのは、「データよりストーリー」「過去の結果より今後の改善」「Whatよりなぜ(Why)」「研修の評価より現場支援の提言」を優先することです。効果測定の目的は研修を評価することではなく、次の研修と現場支援をより良くすることにあるというSCMの哲学は、弊社がATD国際会議の現地セッションで繰り返し聞いたメッセージでもあります。研修の成果は研修内容だけでなく、研修後の職場環境で決まるという視点は、効果測定だけでなく研修設計そのものにも重要な示唆を与えます。
弊社では研修後のフォローアップ支援も行っています。研修内容の職場定着に課題を感じている方は、お気軽にご相談ください。
インパクトマップの作り方 ─ 研修と経営をつなぐ設計図
インパクトマップは、研修投資がどのようなメカニズムで組織の成果につながるかを視覚的に整理する手法です。SCMのStep 1で使うだけでなく、カークパトリックやフィリップスのモデルとも共通する「研修→行動→成果→ビジネスゴール」という論理の流れを、実際の業務に即したかたちで具体化できます。
インパクトマップの構造
左から右へ「もしこれができれば、あれが起きる」という因果の流れで構成する
ABILITY
研修でできるようになること
例:全体構成・説得力あるプレゼンスキル
BEHAVIOR
職場での行動変容
例:一人でお客様への提案を実施
RESULTS
個人・チーム・組織の成果
例:1年目で独り立ち・受注率向上
作成のポイント:左→右で「もしこれができれば、あれが起きる」という因果が自然に説明でき、右→左で「この成果のためにはどんな行動が必要か」と逆算して研修設計の根拠を示せること。ステークホルダーと一緒にこのマップを確認し、流れが自然かを議論することが経営層の理解と協力を得るうえで効果的。
GP StrategiesのMeasurement Mapとは?
GP Strategiesは世界最大級の研修会社で、2021年から独自の効果測定メソッドの発信を強化しています。その中核にある「Measurement Map」は、「育成施策 → 先行指標 → ビジネス成果」という3段階のつながりを明確にし、測定の設計と「ストーリーとして語れるか」を同時に問うアプローチです。
Measurement Mapの特徴は、マップが完成したら左から右(投資から成果へ)と右から左(成果から逆算)の両方向で説明できるかを確認する点にあります。「流れが自然か」「因果のつながりは明確か」「KPIは分かりやすいか」をステークホルダーと検証し、データを羅列するだけでなく経営的なストーリーとして説明できる状態を目指します。この考え方はSCMの「データよりストーリー」という哲学と共鳴しており、前述のインパクトマップとも設計思想を共有しています。
どのモデルを選ぶべきか? ─ 4モデルの比較と使い分け
結論として、4つのモデルに「正解」はなく、組織の状況や測定の目的に応じて選択・組み合わせることが重要です。以下の比較を参考に、自社の優先課題に合ったモデルを選んでください。
4モデルの比較と使い分け
現実的な組み合わせ例:日常的にはカークパトリックで運用し、重点プログラムにのみフィリップスのROI分析を適用。スキル系研修にはLTEMの視点を加え、リソースが限られる場面ではSCMで効率的に深掘りする。
どのモデルを採用する場合でも、研修設計の段階から目標と測定方法を連動させることが成功の鍵です。研修の設計と効果測定を一体で進めるアプローチについては、人材育成担当者のスキルアップ|3つの領域と実践ポイントでも詳しく解説しています。
効果測定でよくある3つの落とし穴
研修効果測定を導入する際には、いくつかの典型的な失敗パターンがあります。フィリップスらの知見を踏まえた3つの落とし穴と、その回避策を整理します。
落とし穴1:頑張りすぎて自分の首を絞める
すべての研修をLevel 5まで測ろうとすると、測定業務自体が膨大になり、本来の研修設計・実施のリソースを圧迫します。前述のフィリップスの目安を参考に、測定範囲を現実的に絞ることが大切です。Level 5の対象はプログラム全体の5〜10%に限定し、残りはLevel 1〜3で効率的に運用しましょう。
落とし穴2:平均値ばかり大事にする
アンケートの平均スコアを報告するだけでは、「なぜ成果が出たのか」「何が障害だったのか」という改善に必要な情報が見えません。SCMが示すように、成果が出た少数の事例を深く掘り下げることで、平均値からは見えない重要な示唆が得られます。「平均4.2点でした」ではなく「成果を出した15%の受講者に共通していたのは上司との事前面談だった」という情報の方が、次のアクションにつながります。
落とし穴3:研修自慢をしてしまう
測定の目的は研修の成果を誇示することではなく、次の改善につなげることです。「研修が良かった」という評価よりも「職場での行動がどう変わったか」「どんな支援があれば定着するか」というアクション指向の問いが、経営層にとって価値ある情報です。SCMとGP Strategiesが共通して強調する「データよりストーリー」「過去の評価より今後の改善」という原則を意識しましょう。
測定設計と研修設計を連動させる方法については、研修ニーズのヒアリング方法|把握から設計につなげる3つのアプローチで詳しく解説しています。
よくある質問
研修効果測定は必ずすべきですか?小規模な研修でも必要でしょうか?
すべての研修で高いレベルの測定が必要というわけではありません。フィリップスが示す目安のように、受講後アンケート(Level 1)はほぼすべての研修で実施する一方、費用対効果(Level 5)の測定は重点プログラムの5〜10%に絞るのが現実的です。小規模な研修でも、アクションプランや短いフォローアップアンケートを取り入れるだけで、定着支援と効果確認を同時に行うことができます。
カークパトリックとフィリップスはどう使い分ければよいですか?
カークパトリックは「研修の効果を4つの視点で構造的に把握する」汎用的なフレームワークとして使いやすく、まず効果測定の文化を組織に浸透させる際に有効です。フィリップスはそれに費用対効果(ROI)の計算を加えたもので、経営層への投資対効果の説明が求められる重点プログラムや、大規模な研修投資の判断材料が必要な場面に適しています。多くの場合、日常的にはカークパトリックで運用し、特定の重要プログラムにのみフィリップスのROI分析を適用するという組み合わせが現実的です。
LTEMを実践するには何から始めればよいですか?
まず自社の研修で「何を測っているか」を棚卸しすることから始めてください。多くの場合、受講後アンケート(Tier 3相当)や出席記録(Tier 1・2相当)に集中しており、実際のスキル定着(Tier 6・7)は測れていないことに気づきます。次のステップとして、主要な研修プログラムで「研修から数週間後に業務シナリオに基づいた確認テストやロールプレイを行う」という仕組みを一つ試してみることをお勧めします。
SCMのインタビューはどのくらいの時間と人数が必要ですか?
SCMのインタビューは、成果が出た受講者(全体の15%程度)と成果が出なかった受講者の一部を対象に行います。インタビュー1件あたり30〜60分程度が目安で、各グループ3〜5名へのヒアリングから十分な示唆を得られることが多いです。全受講者を対象にした大規模調査と比べ、圧倒的に少ないリソースで「成果が出るメカニズム」と「障害となっている要因」を把握できる点がSCMの強みです。
研修効果測定の結果を経営層にどう報告すればよいですか?
SCMとGP Strategiesが共通して強調するのは「データよりストーリー」という原則です。数値の羅列ではなく、「ある受講者がこの研修でどうスキルを習得し、職場でどう行動し、どんな成果を出したか」という具体的な成功事例を中心に据えることで、経営層の理解と関心を引き出しやすくなります。また「過去の評価」より「今後の改善提案」を主役にした報告が、次の投資判断につながりやすいです。
研修効果測定の設計・導入をお考えの方へ
「研修をやりっぱなしにせず、成果につなげたい」「経営層へ研修投資の効果を示したい」というご要望に、研修設計の段階からご支援します。カークパトリック・フィリップス・SCMなど、貴社の状況に合った効果測定の設計についてお気軽にご相談ください。







