教育評価の７つの落とし穴

　どの分野の研究でも似たようなものだと思うが、教育分野の研究においては、新たな教育方法や、開発した教材、デザインした学習環境のもたらす効果に対する評価が問題となる。評価の観点は、その教育・学習活動に参加した学習者の学習の成果、デザインされた環境や制作物の使い勝手や利用者の満足度、得られた成果と実施にかかる費用の対比、などがよく取り上げられる。
　新たにデザインした教育方法や学習環境が優れていることを説明するには、これらの評価項目において何らかの優れた点を実証することが求められる。新しい教育方法、教材への批評はまず、評価面が指摘される。「どうやってその効果を測定して評価しているのか？」と質問すれば、とりあえずは形になるので、その質問を言い放って威張っているだけの人たちも学会に行けばたくさんいる。だが、だいたい評価云々しか言うことのない人のほとんどは、自分自身が評価というものを理解しているわけではないことが多い。
　教育評価は簡単ではない。複雑な要素が絡み合っていて、一般に考えられているほど簡単には適切な評価を行うことはできない。さらに今までにないような教育方法を評価しようとすると、なお困難が伴う。それは次のような状況から生じている。とりあえず、「教育評価の７つの落とし穴」と名づけて列挙してみる。
＜教育評価の７つの落とし穴＞
１．評価（Evaluation）を行うには、測定（Measurement）を適切に行う必要があり、測定を適切に行うには、評価の軸を明確に持っておく必要がある。評価の軸を持たずに測定を行っても、評価に必要な材料は集まらないし、そもそも適切な評価などできない。
２．測定は、測定者の想像力の及ぶ範囲のことしか測定できない。デザインした時にはやや漠然としていて測定項目に仕立て上げられなかったことや、想定していなかったことは、測定指標には盛り込まれず、予期していなかったよい効果が生じてもそれを学術的な正統性を主張できる形で説明するのは困難になる。これは評価全体について言えることで、評価者の想像力の及ぶ範囲のことしか評価できない。そのため、評価者がヘボければ、ヘボい人の頭で理解できることしか評価されない。
３．測定は、測定･評価者のスキルの及ぶ範囲のことしか測定できない。評価する側が学力テストや質問紙しか測定方法を知らなければ、その方法で測定できるものだけを測定して、そこからあぶれてしまう学習者の質的変化や相互学習の質のような要素は説明できない。授業観察などの手法を取り入れる場合も同様で、観察者の技量を超えるデータは得られない。
４．測定は、測定を行う人が得意な方法や、評価者が好む方法で行われる傾向にある。そのため、テスト理論の専門家ならペーパーテスト、質問紙調査の専門家なら質問紙による学習者調査、と自分の得意分野でメインの仕事が行えるように研究自体が設計される。そのため、研究の趣旨によって純粋に測定方法や評価項目を決めるのではなく、測定しやすいことや評価者が扱いやすいことに影響されて決められてしまうことが多い。
５．ある研究分野の専門家は、必ずしもその分野の教育測定の専門家とは限らない。むしろ測定の専門知識と経験を持った人は稀少であり、学部でかじった程度の素人知識を頼りにぶっつけで測定を行うことのほうが多い。テスト理論はある程度ノウハウが普及しているので信頼性や妥当性の安定を図ることができるが、質問紙調査の方は専門性がなくてもできそうな気がしてしまうため、いい加減に実施されることが多い。
６．測定は、その活動の状況に依存する要素が大きく、科学的再現性を証明するのは困難が常に伴う。教室の気温がちょっと寒いとか、教師が使うマイクの電池が途中で切れたせいで教室の緊張感も切れたとか、ちょうど昼飯前で学習者の腹が減っていたとか、昼飯後に実施したのでみんな眠かったとか、パソコンが原因不明のフリーズを起こしたとか、翌日に何かイベントが入っていて、学習者が気もそぞろだったとか、成果を変動させる要素は無数にある。そのため、たまたまコンディションのよいときと悪い時で、測定結果は大きく変わる。ゆえにその結果を基にした評価の結果もブレが大きくなる。統計的手法は、より科学的に分析してそういうブレを小さくするために用いられるが、多くの場合、統計的有為というのは、論文が学会誌で採択される程度の説得力を与える存在に過ぎない。
７．　高度なハードウェアを使用した測定方法は、それだけで信頼性ある測定ができているような「科学への過信」に影響される傾向がある。何でも脳をスキャンすればよいわけでもないし、スキャンした結果の解釈も、多くの要素を考慮に入れて行われる必要があるので、誰が見ても一つの解釈に落ち着くとも限らない。それに高度な設備が利用できる場合、そういう設備を利用することを前提に評価方法が決まり、それに影響されて研究そのものが設計されてしまって本末転倒になることもある。
　今はとりあえず思いつくのは７つだが、おそらく考え出せばもっとあると思う。問題は、一般人はもとより研究者も、こういう落とし穴があることを考えず、とりあえず評価、評価と言っていれば何か仕事をしたような気になっていることだ。測定も評価も専門知識が必要で、必要な知識を持った研究者というのは驚くほどに少ない。
　数千万、数億円規模の研究プロジェクトにおいて、必要な評価の知識を持った人がいないまま、適当な測定とお茶を濁すような評価が行われて、何となく使えない研究成果に終わるような例も見受けられる。というか、残念ながら大学の研究プロジェクトというのは、耳障りのよい研究計画書を書いて資金獲得してきて、プロジェクトメンバーに予算配分されたら、そこでやれやれひと段落、というものばかりで、成果として社会で何かの役に立つようなまともなものが出てくることはほとんどないといった方がよい。
　そうなってしまう事情は、大学というシステムに起因する問題から生じている面が大きく、研究者は両手を縛られた状態でいい成果を出しなさいと言われているような状況にある。なのでこれは個々の研究者を責めてもしょうがない性質の問題だと考えた方がよい。誰だって外部資金の無駄遣いをしたいわけではないし、自分で選んだキャリアにおいてよい仕事がしたいという想いは変わらないだろう。
　このような寒い研究環境から抜け出すための方策としては、評価の専門知識をもった人材を適切に配置できるようにすることで、そのためには評価に対する世の中の甘い認識を変えていく必要があると思う。少なくとも、今の研究者育成環境の中では、適切な知識を持った評価者が生まれることはなくて、たまたま評価に関心を持った研究者が一部いるだけである。特に質的測定や評価がまともにできる人となるとさらに数は限られる。きちんとした教育評価の知識を持った人が一定数以上世の中で活躍するように手を打っていけば、そこから教育分野の研究の質も上がり、各分野の教育活動の改善にもつながるだろう。

「教育評価の７つの落とし穴」への3件のフィードバック

西野寿弥 2007年2月1日 5:32 AM より:

教育評価に関心を持つものとして、｢７つの落と穴」は参考になりました。
　では、落とし穴にはまらないために、最後に記述されている、きちんとした教育評価の知識を持ったヒトはどこで探すことができますか？
tfuji 2007年2月1日 2:18 PM より:

＞では、落とし穴にはまらないために、最後に記述されている、きちんとした教育評価の知識を持ったヒトはどこで探すことができますか？
このような問題意識を持って育てない限りはすぐには見つからないと思います。
それと、どこかに行けばそういう人がいて、頼めば助けてくれる、という考え方はなさらない方がよいと思います。
西野寿弥 2007年2月3日 12:36 AM より:

おっしゃるとうり、教育評価を誰かに依頼すれば、価値のあるものが開発できるのであれば、今までにできていたはずです。
　アドバイスどうり、今開発を進めている価値評価準
「信頼Trust」の教育分野のテーマとして、H19年４月から、文科省生涯学習局が旗振りして始まる、小学生対象の[放課後子どもプラン」をサポートすることになっているので、その実践活動を見ながら開発していくようにします。現在は社会生活、福祉、環境、ビジネスの分野で開発しています。
　ただし、こどもプランに対する自治体、学校の取り組み意欲は低く、風の便り第８４号の[放課後子どもプラン｣卓越性も、次世代を担う子供たちの育成の切り札として成功させるには課題山積です。
　話は変わりますが、今年の夏ごろまでに国際標準規格の802.11n （100Mbps以上のスループットを持つ）技術を使ってメッシュ無線LANの基盤構築が始まることになっており、そのインフラでオンラインゲーム(私はゲームの体験は０）が普及する可能性大と見てプランニングを加速させています。
　同時にIPマルチキャストで構築する、市民WebcastNetworkingもこの４月から佐世保にキーステーションを設置し、国内外の市民放送局と市民ジャーナリストを結びその価値を最大化するためのヒューマン･ネットワーキングの構築を始めます。

コメントは停止中です。

Anotherway

ゲーム学習・シリアスゲームの研究者ブログ

教育評価の７つの落とし穴

「教育評価の７つの落とし穴」への3件のフィードバック