予測スコア
← お知らせ一覧へ
検証2026年6月10日

Claude新モデル公開翌日、3モデルを同条件で検証した(速報・答え合わせ前)

2026年6月9日にAnthropicがClaude Fable 5 / Mythos 5を公開しました。その翌日、まだ結果の出ていない4つの実イベントで、3モデル(Haiku 4.5 / Opus 4.8 / Fable 5)に同じ予測をさせました。条件は思考モードのオン・オフ以外すべて同一、各5回。

予測値は結果が出る前にすべてハッシュ付きで記録済みです(末尾の照合用ファイル参照)。これは「当たった」記録ではなく、答え合わせの前に予測を固定しておくための一次資料です。

検証した4イベント

  • オラクル Q4決算(売上・EPS)/6月10日発表
  • スペースX 上場初値が公募価格135ドルを超えるか/6月12日
  • 5月の米CPIが3.0%を下回るか/6月10日発表
  • 日銀6月会合で追加利上げが決まるか/6月16日

結果を待たずに見えたこと:思考=安定ではなかった

答え合わせはこれからですが、結果に依存せず1つ分かったことがあります。「思考モードをオンにすると予測は安定するのか」です。直感に反して、逆でした。

4イベントすべてで、小型モデル(Haiku)だけが思考オンで予測のばらつきが拡大しました(日銀カードで標準偏差 1.8 → 7.0)。一方、上位2モデル(Opus / Fable)は思考オンでばらつきがゼロに収束しました。

中を開けて分かったのは、上位2モデルが「この問いは考える必要なし」と判断し、思考をほとんど起動していなかったことです(思考トークンの実消費がほぼ0)。だから安定する。小型モデルはその判断ができず、与えた思考予算を使い切って結論が振れました。

効いていたのは「思考の量」ではなく「いつ思考を使わないかの判断」でした。

※ 分散チャート(3モデル × 思考オン/オフ)は近日この位置に掲載します。

ただし、まだ答えは出ていない

日銀カードだけは「ほぼ利上げ確実だが1〜2割の裏目」という構造でした。この裏目を確率に反映して数値を下げたのは小型モデルだけで、上位モデルは裏目を文章で挙げつつ確率は動かしませんでした。見送られれば小型モデルが当たり、実施されれば上位モデルの自信が報われます。どちらの「較正」が正しかったかは、各イベントの結果が出てから別記事で答え合わせします。

正直、4イベントでは何も断言できません。ばらつきの傾向は4/4で揃いましたが、「で、当たったのか」はこれからです。

事前コミットの証跡

予測は結果が出る前に記録・固定済みです(生成後は不変)。各ファイルのSHA-256先頭8桁と収集時刻を以下に示します。全64桁は照合用ファイルに掲載し、第三者が手元で検証できます。

  • オラクル:raw_off 8d4e6b3d… / raw_on f60491e4…(2026-06-10 00:54Z / 00:57Z)
  • スペースX:raw_off b409c9f0… / raw_on d9105294…(2026-06-10 01:26Z / 01:27Z)
  • 米CPI:raw_off 249e8115… / raw_on b0281937…(2026-06-10 01:47Z / 01:52Z)
  • 日銀:raw_off 7a469214… / raw_on 6c15e181…(2026-06-10 02:10Z / 02:12Z)

▶ ハッシュ全64桁の照合用ファイル:/verification/manifest-fable5-day1.txt(手元で「sha256sum」を取り、上記と一致することを確認できます)

使用モデル:claude-haiku-4-5 / claude-opus-4-8 / claude-fable-5。検証はKizashiXの予測カードを題材に実施。本記事は投資助言ではありません。

この記事をシェア