検証2026年6月10日

Claude新モデル公開翌日、3モデルを同条件で検証した（速報・答え合わせ前）

2026年6月9日にAnthropicがClaude Fable 5 / Mythos 5を公開しました。その翌日、まだ結果の出ていない4つの実イベントで、3モデル（Haiku 4.5 / Opus 4.8 / Fable 5）に同じ予測をさせました。条件は思考モードのオン・オフ以外すべて同一、各5回。

予測値は結果が出る前にすべてハッシュ付きで記録済みです（末尾の照合用ファイル参照）。これは「当たった」記録ではなく、答え合わせの前に予測を固定しておくための一次資料です。

検証した4イベント

オラクル Q4決算（売上・EPS）／6月10日発表
スペースX 上場初値が公募価格135ドルを超えるか／6月12日
5月の米CPIが3.0%を下回るか／6月10日発表
日銀6月会合で追加利上げが決まるか／6月16日

結果を待たずに見えたこと：思考＝安定ではなかった

答え合わせはこれからですが、結果に依存せず1つ分かったことがあります。「思考モードをオンにすると予測は安定するのか」です。直感に反して、逆でした。

4イベントすべてで、小型モデル（Haiku）だけが思考オンで予測のばらつきが拡大しました（日銀カードで標準偏差 1.8 → 7.0）。一方、上位2モデル（Opus / Fable）は思考オンでばらつきがゼロに収束しました。

中を開けて分かったのは、上位2モデルが「この問いは考える必要なし」と判断し、思考をほとんど起動していなかったことです（思考トークンの実消費がほぼ0）。だから安定する。小型モデルはその判断ができず、与えた思考予算を使い切って結論が振れました。

効いていたのは「思考の量」ではなく「いつ思考を使わないかの判断」でした。

※ 分散チャート（3モデル × 思考オン/オフ）は近日この位置に掲載します。

ただし、まだ答えは出ていない

日銀カードだけは「ほぼ利上げ確実だが1〜2割の裏目」という構造でした。この裏目を確率に反映して数値を下げたのは小型モデルだけで、上位モデルは裏目を文章で挙げつつ確率は動かしませんでした。見送られれば小型モデルが当たり、実施されれば上位モデルの自信が報われます。どちらの「較正」が正しかったかは、各イベントの結果が出てから別記事で答え合わせします。

正直、4イベントでは何も断言できません。ばらつきの傾向は4/4で揃いましたが、「で、当たったのか」はこれからです。

事前コミットの証跡

予測は結果が出る前に記録・固定済みです（生成後は不変）。各ファイルのSHA-256先頭8桁と収集時刻を以下に示します。全64桁は照合用ファイルに掲載し、第三者が手元で検証できます。

オラクル：raw_off 8d4e6b3d… / raw_on f60491e4…（2026-06-10 00:54Z / 00:57Z）
スペースX：raw_off b409c9f0… / raw_on d9105294…（2026-06-10 01:26Z / 01:27Z）
米CPI：raw_off 249e8115… / raw_on b0281937…（2026-06-10 01:47Z / 01:52Z）
日銀：raw_off 7a469214… / raw_on 6c15e181…（2026-06-10 02:10Z / 02:12Z）

▶ ハッシュ全64桁の照合用ファイル：/verification/manifest-fable5-day1.txt（手元で「sha256sum」を取り、上記と一致することを確認できます）

使用モデル：claude-haiku-4-5 / claude-opus-4-8 / claude-fable-5。検証はKizashiXの予測カードを題材に実施。本記事は投資助言ではありません。

この記事をシェア