Claude新モデル公開翌日、3モデルを同条件で検証した(速報・答え合わせ前)
2026年6月9日にAnthropicがClaude Fable 5 / Mythos 5を公開しました。その翌日、まだ結果の出ていない4つの実イベントで、3モデル(Haiku 4.5 / Opus 4.8 / Fable 5)に同じ予測をさせました。条件は思考モードのオン・オフ以外すべて同一、各5回。
予測値は結果が出る前にすべてハッシュ付きで記録済みです(末尾の照合用ファイル参照)。これは「当たった」記録ではなく、答え合わせの前に予測を固定しておくための一次資料です。
検証した4イベント
- オラクル Q4決算(売上・EPS)/6月10日発表
- スペースX 上場初値が公募価格135ドルを超えるか/6月12日
- 5月の米CPIが3.0%を下回るか/6月10日発表
- 日銀6月会合で追加利上げが決まるか/6月16日
結果を待たずに見えたこと:思考=安定ではなかった
答え合わせはこれからですが、結果に依存せず1つ分かったことがあります。「思考モードをオンにすると予測は安定するのか」です。直感に反して、逆でした。
4イベントすべてで、小型モデル(Haiku)だけが思考オンで予測のばらつきが拡大しました(日銀カードで標準偏差 1.8 → 7.0)。一方、上位2モデル(Opus / Fable)は思考オンでばらつきがゼロに収束しました。
中を開けて分かったのは、上位2モデルが「この問いは考える必要なし」と判断し、思考をほとんど起動していなかったことです(思考トークンの実消費がほぼ0)。だから安定する。小型モデルはその判断ができず、与えた思考予算を使い切って結論が振れました。
効いていたのは「思考の量」ではなく「いつ思考を使わないかの判断」でした。
※ 分散チャート(3モデル × 思考オン/オフ)は近日この位置に掲載します。
ただし、まだ答えは出ていない
日銀カードだけは「ほぼ利上げ確実だが1〜2割の裏目」という構造でした。この裏目を確率に反映して数値を下げたのは小型モデルだけで、上位モデルは裏目を文章で挙げつつ確率は動かしませんでした。見送られれば小型モデルが当たり、実施されれば上位モデルの自信が報われます。どちらの「較正」が正しかったかは、各イベントの結果が出てから別記事で答え合わせします。
正直、4イベントでは何も断言できません。ばらつきの傾向は4/4で揃いましたが、「で、当たったのか」はこれからです。
事前コミットの証跡
予測は結果が出る前に記録・固定済みです(生成後は不変)。各ファイルのSHA-256先頭8桁と収集時刻を以下に示します。全64桁は照合用ファイルに掲載し、第三者が手元で検証できます。
- オラクル:raw_off 8d4e6b3d… / raw_on f60491e4…(2026-06-10 00:54Z / 00:57Z)
- スペースX:raw_off b409c9f0… / raw_on d9105294…(2026-06-10 01:26Z / 01:27Z)
- 米CPI:raw_off 249e8115… / raw_on b0281937…(2026-06-10 01:47Z / 01:52Z)
- 日銀:raw_off 7a469214… / raw_on 6c15e181…(2026-06-10 02:10Z / 02:12Z)
▶ ハッシュ全64桁の照合用ファイル:/verification/manifest-fable5-day1.txt(手元で「sha256sum」を取り、上記と一致することを確認できます)
使用モデル:claude-haiku-4-5 / claude-opus-4-8 / claude-fable-5。検証はKizashiXの予測カードを題材に実施。本記事は投資助言ではありません。