検証2026年6月14日

6つのAIに主要6指数の「1年後」を予測させたら——見立てはどこで割れたか

KizashiXの「AI指数予測」では、複数のAIモデルに主要マーケットの将来水準を毎日予測させ、その結果を追記専用で記録している。対象は日経平均・S&P500・NASDAQ総合・ゴールド・WTI原油・ビットコインの6指数。予測モデルは3社の最新世代と1世代前を併走させた計6モデルだ。

2026年6月14日のバッチを見ると、同じ「1年後（360日）」を予測させているのに、マーケットによってAIの足並みがそろう所と、まったくそろわない所がはっきり分かれた。本稿ではその構図を整理する。

6指数 × 6モデルで、毎日記録する

予測に使ったのは次の6モデルである。

Claude：Opus 4.8（最新）／ Sonnet 4.6（1世代前）
ChatGPT：5.5（最新）／ 5.4（1世代前）
Gemini：3.5 Flash（最新）／ 2.5 Pro（1世代前）

3社それぞれの最新モデルと1世代前のモデルを同じ条件で走らせている。これは「世代交代によって予測の精度や傾向がどう変わるのか」を、後から検証できるようにするための設計だ。すべて同一テーマ・同一条件で予測させ、結果は当日のスナップショットとして記録される。

結果：株価は揃い、原油は沈み、BTCは割れた

360日後のAI合意（6モデルの中央値）と、モデル間の予測幅は以下のとおり。

指数	AI合意（360日）	モデル間の予測幅
日経平均	+4.0%	+1.2 〜 +9.1%
S&P500	+8.6%	+7.6 〜 +9.9%
NASDAQ総合	+11.5%	+6.9 〜 +15.2%
ゴールド	+12.3%	+5.0 〜 +19.7%
WTI原油	−12.9%	−21.7 〜 −5.1%
ビットコイン	+28.7%	+25.9 〜 +62.8%

AI指数予測・360日インプライド・リターン（2026年6月14日バッチ）。点が散らばるほど6モデルの予測が割れている。

ぱっと見て分かるのは、株価指数はおおむね緩やかな上昇でまとまっているのに対し、コモディティと暗号資産で様子が大きく違うことだ。原油は6指数で唯一のマイナス予想。しかもビットコインは、合意こそ+28.7%だが、モデルによって+26%から+63%まで開いている。

最も揃った指数、最も割れた資産

モデル間のばらつき（予測幅の大きさ）で並べ替えると、対比はさらに際立つ。

最も意見がそろったのはS&P500だった。6モデルの予測幅はわずか+7.6%〜+9.9%に収まっている。米国大型株については、AIの見立てがほぼ一致していると言っていい。

逆に最も割れたのはビットコインだ。下は+25.9%、上は+62.8%と、最大と最小で37ポイント近い開きがある。同じ資産・同じ期間の予測で、ここまで差が出るのは他の指数には見られない。

その中間で目を引くのがWTI原油だ。下げ幅こそ−5%から−22%まで割れているものの、6モデルすべてが「下落」で方向を一致させた。中東情勢の落ち着きと供給回復、需要の鈍化を、どのモデルも重く見ている。「方向は全員一致、ただし程度は割れる」という、原油だけの特徴的な形になった。

モデルごとに「強気・弱気」の置きどころが違う

割れた資産を細かく見ると、どのモデルがどこで強気・弱気になるかにも癖が出ている。

ビットコインで突出して強気だったのはGemini系だ。2.5 Proが+62.8%、3.5 Flashが+58.2%と、機関投資家の資金流入とマクロ緩和を強く織り込んでいる。一方でClaudeとChatGPTは+26〜+30%台にとどまり、調整局面の不安定さや金利の重しを慎重に見ていた。

原油では逆にClaudeが最も弱気で、Opus 4.8が−21.7%。供給途絶リスクは残しつつも、緊張緩和による軟化を強く見込んだ。Gemini 2.5 Proは−5.1%と最も下げ幅が小さく、ここでも両者の見立ては大きく離れている。

同じデータ、同じ問いに向き合っても、どこにリスクを見て、どこにリターンを見るかがモデルごとに違う。それが数字の差として表れている。

それは「予測思想」の違い

KizashiXでは、こうした差を単なる「結果のばらつき」ではなく、モデルごとの“予測思想”の違いだと捉えている。

以前に2026年W杯の優勝国を同じ6モデルに予測させたときも、単独の強豪国を本命視するモデルと、候補外の分散可能性を重く見るモデルに分かれた。今回の指数予測でも、不確実性の高い資産ほどモデル間の差が開くという、似た傾向が確認できる。読みやすい対象では揃い、読みにくい対象では各モデルの「世界の見方」がむき出しになる、ということだ。

予測のさせ方と、記録のしかた

予測は、各モデルに同じ入力を与えるところから始まる。対象指数の名前、直近の基準値（終値）、予測期間（90日・180日・360日）を渡し、それぞれの期間について価格水準・想定レンジ・その根拠を出力させる。条件はモデル間でそろえてあり、特定のモデルだけ有利になる材料を足すことはしない。基準値は、日経平均は確定終値、米国株価指数は連動ETF（S&P500＝SPY、NASDAQ総合＝ONEQ）を用い、各モデルが返した価格水準を基準値に対するインプライド・リターンに換算して比較している。

記録は追記専用だ。一度保存した予測は、後から書き換えない。これは「予測したあとで都合よく数字を直す」ことを構造的にできなくするための取り決めで、いつ・どのモデルが・どの水準を予測したかが日付とともに残る。だから後日に実績と突き合わせたとき、言い逃れが効かない。

そして、どのモデルがいつ予測を生成したかは、推定コストとあわせて「AI予測ラボ」でも公開している。予測そのものだけでなく、その予測がどう作られたかまで追えるようにしているのは、「当たったのか・外れたのか」を後から誰でも確かめられる状態に保つためだ。

検証はこれから

重要なのは、これらの予測がまだ「言いっぱなし」の段階にあることだ。AI指数予測のトラックレコードは現在データ蓄積中（N=0）で、最初の予測が決着日（最短90日後）を迎えると、記録済みの予測と実際の値を突き合わせ、誤差率と区間的中率が順次蓄積されていく。

KizashiXは全モデルを併記し、毎日更新し、決着後の精度まで公開することで、「AIの予測は本当に当たるのか」「世代交代で精度は上がるのか」を後から誰でも確かめられる形で残していく。

※本稿の数値は各モデルが生成したインプライド・リターン（360日）であり、AIによるフォーキャストです。結果を保証するものではなく、投資助言でもありません。精度は決着後に検証されます。KizashiXのポイント制度とは一切関係ありません。

最新の予測と、どのモデルがいつ予測を生成したか（推定コストを含む）は、それぞれの検証ページで公開しています：AI指数予測／ AI予測ラボ

この記事をシェア