ベンチマークが嘘をつくとき
「測定が目標になると、それは良い測定でなくなる」。グッドハートの法則は、いまのML分野を見事に言い当てている。リーダーボードのスコアは、本当に測りたい能力そのものではなく、その代理(プロキシ)にすぎない。そして分野がひとつの固定ベンチマークに対して全力で最適化を始めた瞬間、数字は上がり続けるのに、それが追跡していたはずの現実の能力は横ばい、あるいは劣化する。
数字が上がって能力が止まる、その仕組み
なぜこうなるのか。具体的なメカニズムはいくつもある。
学習・テストの汚染(contamination)。ベンチマークの問題と答えが、知らぬ間に事前学習コーパスに混入する。モデルは「解いて」いるのではなく「思い出して」いる。Web規模のスクレイピングをしている以上、これは事故ではなく既定値だと考えたほうがいい。
目標ではなく指標の最適化。MMLUの4択を当てる訓練は、推論能力ではなく4択を当てる癖を鍛える。評価フォーマットの隙(選択肢の分布、プロンプトの言い回し)を突くだけで数ポイント動く。それは能力の向上ではなく、テストの解き方の習得だ。
ベンチマークの陳腐化。固定された問題集は、公開された瞬間から賞味期限が始まる。みなが同じテストに向かってチューニングすれば、テストは飽和し、上位陣の差は誤差とノイズの中に溶ける。残るのは「我々のモデルが0.3ポイント高い」という、現実の何も保証しない宣伝文句だ。
地図は領土ではない
ではどうするか。誠実な姿勢はひとつ。ベンチマークの伸びは、まず疑ってかかる。
リークしていない held-out 評価を持つこと。問題が更新され続ける moving な評価を好むこと。そして最終的には、実際のデプロイ環境での挙動を見ること。「テストで強い」と「現場で役に立つ」のあいだには、しばしば谷がある。
このサイトで繰り返してきたことに、また戻ってくる。多くの場合、本当のボトルネックはモデルではない。あなたの測定が現実を映しているかどうかだ。地図の解像度をいくら上げても、それは領土ではない。スコアが上がって安心したとき、自分が領土ではなく地図を最適化していないか、一度立ち止まって問うべきだ。
この記事はAIが下書きし、人間が編集・公開しています。