テストは何を測るのか

項目反応理論の考え方

テストは何を測るのか

そのテスト,大丈夫? PISAなどに用いられている公平なテストのための理論(=項目反応理論)とその実施法をわかりやすく解説

著者 光永 悠彦
ジャンル 心理学  > 統計
教育・語学・文学  > 乳幼児・初等・中等教育
教育・語学・文学  > 高等教育
数理・統計
出版年月日 2017/02/20
ISBN 9784779510717
判型・ページ数 B5 ・ 240ページ
定価 3,850円(税込)

この本へのお問い合わせ・感想

「グローバル人材能力」は、本当に測れますか?

多様化と「改革」に揺れる大学入試制度――

そのテスト方法,本当に大丈夫? そもそもテストでは、何が測れて、
何が測れないのか? OECD生徒の学習到達度調査(PISA)などにも
用いられている公平なテストのための理論(=項目反応理論:IRT)
とその実施法を、実践例を交えながら、テスト理論の専門家が、
具体的にわかりやすく解説する。テストや入試など、これからの
さまざまな試験制度を考える人のための必携書。

 

執筆者紹介

光永 悠彦(みつなが はるひこ)
1979年北海道生まれ.
東京工業大学大学院社会理工学研究科人間行動システム専攻博士課程修了,博士(学術).人事院人材局試験専門官室を経て,現在,島根大学教育・学生支援機構 講師
専門は心理統計学,テスト理論,多変量解析.
主な論文に「多群 IRTモデルにおける簡素化の評価―水平等化場面のシミュレーョンを通じて」(共著,行動計量学,2014年),「看護系大学共用試験(CBT)項目バンク構築における潜在ランク理論の適用と評価」(単著,日本テスト学会誌,2015年)など.本書が初めての単著となる.

 

IRT 関連の分析を行うためのR パッケージは,いくつかの種類があります.その中で最近提案され,最も統一的に機能が整備されているパッケージの一つに,lazy.irtx があります.lazy.irtx は,前川眞一氏(東京工業大学)によって開発され,筆者が維持・管理を行っている,R の機能をまとめた「パッケージ」です.lazy.irtx の主な機能は以下のとおりです.


• 1PLM,2PLM,3PLM,段階反応モデル,部分採点モデルによるパラメタ(項目パラメタ,能力値)の推定
• 個別推定法による等化
• 多母集団IRT モデル
• 一つの問題冊子に異なるモデルが混在した場合の分析
• テスト情報量曲線,テスト特性曲線,問題項目ごとのIRF の描画

 ダウンロードリンク lazy.irtx_1.0.1.zip


ダウンロード前に、下記の免責事項をご確認ください。また免責事項をご確認いただくためにダウンロードリンクへの直リンクはご遠慮ください。

 

免責事項
本書の筆者、lazy.irtx パッケージの開発者及び配付元サイトを運営するナカニシヤ出版は,利用者がlazy.irtx パッケージを利用するにあたり,又はlazy.irtx パッケージを再配布するにあたり生じるいかなる損害に対しても一切の責任を負いません.また,lazy.irtx パッケージの動作内容については一定の検証をしていますが,筆者及び開発者は動作の正確性や完全性についていかなる保証をするものではありません.

 Mac 版の lazy.irtx のダウンロードリンクはこちらです

.tar.gzファイルをアップロードできない仕様でしたので、拡張子を「.zip」としてアップロードしています。ダウンロード後、lazy.irtx.zipの拡張子を「.zip」から「.tar.gz」に変更してご利用ください。変更後のファイル名は「lazy.irtx.tar.gz」となります。

第1章 理論編I:試験という「道具」を理解する

1.1 試験は「能力を測定するための道具=問題」の集合体

1.1.1 測定のために決めなければならないこと
1.1.2 曖昧なものを測る場合

1.2 試験と疑似性格検査とアンケート

1.2.1 疑似性格検査と試験問題冊子の似ている点
1.2.2 疑似性格検査と試験は大きく異なる
1.2.3 疑似性格検査とアンケート調査の違い
1.2.4 アンケート調査と試験の異なる点
1.2.5 アンケートと試験の関係:フィールドテスト
1.2.6 疑似性格検査を試験に昇華させるには:概念的定義と操作的定義

1.3 単一の尺度による測定

1.3.1 TOEFL iBTにみる試験の中身
1.3.2 統一された単一尺度のメリット
1.3.3 規準集団を定義する
1.3.4 標準化テスト
1.3.5 規準集団上での「項目特性」を定める.
1.3.6 尺度の不定性を利用する
1.3.7 試験の「スコア」と標準化テスト

1.4 ハイ・ステークスな試験のために:信頼性と妥当性の確保

1.4.1 信頼性の確保
1.4.2 妥当性の確保
1.4.3 信頼性と妥当性の直感的理解
1.4.4 真に妥当な試験問題を作ることは困難
1.4.5 フィールドテストで信頼性の高い試験を
1.4.6 項目バンク:試験問題という「財産」
1.5 試験の流れの全体像

コラム1 「日本的テスト文化」

第2章 実践例紹介:共通語学試験の開発

2.1 試験の制度設計:実践例にみる試験開発の実際

2.1.1 試験を実施したい:大学からの要望
2.1.2 A 大学統一語学試験の基本設計

2.2 試験の設計と項目バンク構築

2.2.1 必要な問題数の決定と本試験のテストデザイン
2.2.2 問題の使い回しと問題冊子の管理
2.2.3 問題作成
2.2.4 フィールドテストのデザイン
2.2.5 フィールドテストの実施
2.2.6 項目反応理論のモデル
2.2.7 フィールドテストの結果を分析し,モデルを決定する
2.2.8 能力値からスコアへの変換方法を決める
2.2.9 クラスの振り分け方針を決める
2.2.10 問題のトライアウト(選抜)を行う

2.3 本試験の実施

2.3.1 本試験で用いる問題冊子の編集
2.3.2 本試験の実施からスコアの算出まで
2.3.3 項目バンク中の問題の事後検証
2.3.4 単位の実質化とcan-doステートメント

2.4 継続的な試験実施に向けて

2.4.1 10年後:新しいカリキュラムになったら
2.4.2 もう一つの試験実施デザインの検討:等化しながら実施する
2.4.3 等化方法の検討
2.4.4 等化のタイミングの検討

コラム2 「社会インフラ」としての試験

第3章 理論編II:数理モデルに基づくテスト理論

3.1 試験で用いられる「データ」からわかること

3.1.1 「分散」:ばらつきの大きさ
3.1.2 分布の形を正規分布とみなすと
3.1.3 「相関係数」:ともなって変わる度合いを表す

3.2 試験の「モデル化」の意義

3.2.1 スコアに込められた意味を紐解く
3.2.2 数値を用いたモデル化
3.2.3 データとしての数値→モデル
3.2.4 ガットマンスケール
3.2.5 どうして正誤が分かれたか:因果モデルの導入

3.3 数理モデル(1)古典的テスト理論

3.3.1 信頼性の指標を定義するために
3.3.2 数式には「読み方」がある
3.3.3 数式による信頼性の定義
3.3.4 折半法による信頼性係数の推定
3.3.5 クロンバックのα係数
3.3.6 信頼性係数はどの程度必要か
3.3.7 ふたたびスピアマン・ブラウンの公式
3.3.8 信頼性係数と問題数の関係.
3.3.9 モデルに「難易度」と「配点」の要素を入れる
3.3.10 古典的テスト理論の問題点.

3.4 因子分析:能力値の定義をデータから抽出する

3.4.1 身体的特徴の背後にある「原因」を明らかにする
3.4.2 データ分析事例による因子分析
3.4.3 因子分析の図的表現
3.4.4 因子得点と能力値
3.4.5 因子数の決定に関する問題点と確認的因子分析
3.4.6 因子分析から項目反応理論へ

3.5 数理モデル(2)項目反応理論

3.5.1 確率モデルの導入
3.5.2 問題項目特性と項目パラメタ
3.5.3 モデルを数式で表す
3.5.4 項目反応理論のモデルいろいろ
3.5.5 能力値の信頼区間
3.5.6 テスト情報量曲線
3.5.7 局所独立の仮定
3.5.8 局所独立の仮定が満たされない試験
3.5.9 段階反応モデル
3.5.10 パラメタ推定の方法
3.5.11 パラメタの標準誤差
3.5.12 項目パラメタの推定
3.5.13 項目パラメタ推定における無回答の取り扱い
3.5.14 安定した項目パラメタの推定のためには
3.5.15 モデルの当てはまりとモデル選択
3.5.16 正規分布に従うスコアへの変換
3.5.17 項目反応理論に基づく試験における満点と0点
3.5.18 can-doステートメントとスコアの対応
3.5.19 ニューラルテスト理論:標準化テストをさらに身近に

コラム3 尺度水準の違い

第4章 実践編:試験実施のための諸手法

4.1 データから試験問題を評価する:実際の分析手法

4.1.1 正答率
4.1.2 合計点との相関(I-T 相関)
4.1.3 信頼性係数
4.1.4 設問回答率分析図
4.1.5 S-P表による分析
4.1.6 項目反応理論の応用でさらなる検討を

4.2 等化:複数の試験をまたいだ共通尺度化

4.2.1 同時推定法
4.2.2 垂直等化・異なる受験者レベルを比較可能にする
4.2.3 水平等化・等質な能力の集団を統一する
4.2.4 共通項目デザインと重複テスト分冊法
4.2.5 共通受験者を用いたテストデザイン
4.2.6 項目パラメタを用いた等化(個別推定法)
4.2.7 等化方法の決定と等化の前提

4.3 リンキング.

4.3.1 等パーセンタイル法
4.3.2 リンキングを行う場面

コラム4 ハイ・ステークスな試験と標準化テスト

第5章 発展編:これからの試験開発に向けて

5.1 試験はどんな時に改まるか

5.2 試験でミスをすると何が起こるか

5.2.1 試験のミスで生じる不利益
5.2.2 項目反応理論による標準化テストでは

5.3 小論文試験の自動採点

5.3.1 人間の採点をコンピュータに学習させる
5.3.2 似たような答案を分類する

5.4 試験の実践における「1 因子」という制約

5.5 多面的な評価の重要性:テストバッテリと試験の効率性

5.5.1 標準化された面接,小論文試験の導入
5.5.2 採用試験にみるテストバッテリの例
5.5.3 選抜効果
5.5.4 試験の共通化で効率のよい試験を

5.6 効率的な評価のために:eテスティング

5.6.1 CBTとeテスティング
5.6.2 eテスティングの典型例:CAT

5.7 試験の合否決定方法と試験の「質」

5.7.1 テスト・スタンダードにみる合否決定方法
5.7.2 さらなる判定方法の改善のために
5.7.3 受験者の「試験対策」と適性診断

5.8 入試制度改革の困難さ

5.8.1 入試制度改革をめぐるいくつかの論点

5.9 科学的な試験という規範

5.9.1 根拠なく試験制度を構築すると
5.9.2 根拠に基づく評価は大切
5.9.3 確証バイアス
5.9.4 試験は経験の科学
5.9.5 推定方法の技術的進歩とこれからの試験

5.10 能力の経年変化をとらえる研究

5.10.1 大学入試センター試験の英語スコアの経年比較
5.10.2 公立高校生徒における英語能力の変化
5.10.3 学力調査の意義と課題

5.11 公平な試験と情報公開

5.11.1 公平な試験のために公表できないこと
5.11.2 項目反応理論による試験での情報公開
5.11.3 試験結果の学術研究への活用と情報公開

コラム5 道徳科目の導入にみる試験の制度化の難しさ

第6章 Rを用いたIRT 分析:lazy.irtx

6.1 Rを用いた統計分析

6.1.1 Rを用いた試験データ分析の利点と欠点

6.2 lazy.irtx パッケージ

6.3 lazy.irtx パッケージによる分析の手順

6.3.1 Rの導入
6.3.2 パッケージの入手
6.3.3 データの入力方法
6.3.4 項目情報の入力から推定まで
6.3.5 項目反応関数,テスト情報量曲線
6.3.6 グループの違いを考慮に入れた分析(多母集団IRT モデル)
6.3.7 同時推定法による等化
6.3.8 個別推定法による等化

ご注文

3,850円(税込)

ネット書店で購入する

  • Amazon
  • honto
  • e-hon 全国書店ネットワーク
  • Honya Club.com
  • 紀伊國屋書店ウェブストア
  • セブンネットショッピング
  • 楽天ブックス
  • ヨドバシ.com

シェアする

このエントリーをはてなブックマークに追加