予測スコア
← お知らせ一覧へ
検証2026年6月14日

6つのAIに主要6指数の「1年後」を予測させたら——見立てはどこで割れたか

AI指数予測・360日インプライド・リターン(2026年6月14日バッチ)。点が散らばるほど6モデルの予測が割れている。
AI指数予測・360日インプライド・リターン(2026年6月14日バッチ)。点が散らばるほど6モデルの予測が割れている。

KizashiXの「AI指数予測」では、複数のAIモデルに主要マーケットの将来水準を毎日予測させ、その結果を追記専用で記録している。対象は日経平均・S&P500・NASDAQ総合・ゴールド・WTI原油・ビットコインの6指数。予測モデルは3社の最新世代と1世代前を併走させた計6モデルだ。

2026年6月14日のバッチを見ると、同じ「1年後(360日)」を予測させているのに、マーケットによってAIの足並みがそろう所と、まったくそろわない所がはっきり分かれた。本稿ではその構図を整理する。

6指数 × 6モデルで、毎日記録する

予測に使ったのは次の6モデルである。

  • Claude:Opus 4.8(最新)/ Sonnet 4.6(1世代前)
  • ChatGPT:5.5(最新)/ 5.4(1世代前)
  • Gemini:3.5 Flash(最新)/ 2.5 Pro(1世代前)

3社それぞれの最新モデルと1世代前のモデルを同じ条件で走らせている。これは「世代交代によって予測の精度や傾向がどう変わるのか」を、後から検証できるようにするための設計だ。すべて同一テーマ・同一条件で予測させ、結果は当日のスナップショットとして記録される。

結果:株価は揃い、原油は沈み、BTCは割れた

360日後のAI合意(6モデルの中央値)と、モデル間の予測幅は以下のとおり。

指数AI合意(360日)モデル間の予測幅
日経平均+4.0%+1.2 〜 +9.1%
S&P500+8.6%+7.6 〜 +9.9%
NASDAQ総合+11.5%+6.9 〜 +15.2%
ゴールド+12.3%+5.0 〜 +19.7%
WTI原油−12.9%−21.7 〜 −5.1%
ビットコイン+28.7%+25.9 〜 +62.8%

ぱっと見て分かるのは、株価指数はおおむね緩やかな上昇でまとまっているのに対し、コモディティと暗号資産で様子が大きく違うことだ。原油は6指数で唯一のマイナス予想。しかもビットコインは、合意こそ+28.7%だが、モデルによって+26%から+63%まで開いている。

最も揃った指数、最も割れた資産

モデル間のばらつき(予測幅の大きさ)で並べ替えると、対比はさらに際立つ。

最も意見がそろったのはS&P500だった。6モデルの予測幅はわずか+7.6%〜+9.9%に収まっている。米国大型株については、AIの見立てがほぼ一致していると言っていい。

逆に最も割れたのはビットコインだ。下は+25.9%、上は+62.8%と、最大と最小で37ポイント近い開きがある。同じ資産・同じ期間の予測で、ここまで差が出るのは他の指数には見られない。

その中間で目を引くのがWTI原油だ。下げ幅こそ−5%から−22%まで割れているものの、6モデルすべてが「下落」で方向を一致させた。中東情勢の落ち着きと供給回復、需要の鈍化を、どのモデルも重く見ている。「方向は全員一致、ただし程度は割れる」という、原油だけの特徴的な形になった。

モデルごとに「強気・弱気」の置きどころが違う

割れた資産を細かく見ると、どのモデルがどこで強気・弱気になるかにも癖が出ている。

ビットコインで突出して強気だったのはGemini系だ。2.5 Proが+62.8%、3.5 Flashが+58.2%と、機関投資家の資金流入とマクロ緩和を強く織り込んでいる。一方でClaudeとChatGPTは+26〜+30%台にとどまり、調整局面の不安定さや金利の重しを慎重に見ていた。

原油では逆にClaudeが最も弱気で、Opus 4.8が−21.7%。供給途絶リスクは残しつつも、緊張緩和による軟化を強く見込んだ。Gemini 2.5 Proは−5.1%と最も下げ幅が小さく、ここでも両者の見立ては大きく離れている。

同じデータ、同じ問いに向き合っても、どこにリスクを見て、どこにリターンを見るかがモデルごとに違う。それが数字の差として表れている。

それは「予測思想」の違い

KizashiXでは、こうした差を単なる「結果のばらつき」ではなく、モデルごとの“予測思想”の違いだと捉えている。

以前に2026年W杯の優勝国を同じ6モデルに予測させたときも、単独の強豪国を本命視するモデルと、候補外の分散可能性を重く見るモデルに分かれた。今回の指数予測でも、不確実性の高い資産ほどモデル間の差が開くという、似た傾向が確認できる。読みやすい対象では揃い、読みにくい対象では各モデルの「世界の見方」がむき出しになる、ということだ。

予測のさせ方と、記録のしかた

予測は、各モデルに同じ入力を与えるところから始まる。対象指数の名前、直近の基準値(終値)、予測期間(90日・180日・360日)を渡し、それぞれの期間について価格水準・想定レンジ・その根拠を出力させる。条件はモデル間でそろえてあり、特定のモデルだけ有利になる材料を足すことはしない。基準値は、日経平均は確定終値、米国株価指数は連動ETF(S&P500=SPY、NASDAQ総合=ONEQ)を用い、各モデルが返した価格水準を基準値に対するインプライド・リターンに換算して比較している。

記録は追記専用だ。一度保存した予測は、後から書き換えない。これは「予測したあとで都合よく数字を直す」ことを構造的にできなくするための取り決めで、いつ・どのモデルが・どの水準を予測したかが日付とともに残る。だから後日に実績と突き合わせたとき、言い逃れが効かない。

そして、どのモデルがいつ予測を生成したかは、推定コストとあわせて「AI予測ラボ」でも公開している。予測そのものだけでなく、その予測がどう作られたかまで追えるようにしているのは、「当たったのか・外れたのか」を後から誰でも確かめられる状態に保つためだ。

検証はこれから

重要なのは、これらの予測がまだ「言いっぱなし」の段階にあることだ。AI指数予測のトラックレコードは現在データ蓄積中(N=0)で、最初の予測が決着日(最短90日後)を迎えると、記録済みの予測と実際の値を突き合わせ、誤差率と区間的中率が順次蓄積されていく。

KizashiXは全モデルを併記し、毎日更新し、決着後の精度まで公開することで、「AIの予測は本当に当たるのか」「世代交代で精度は上がるのか」を後から誰でも確かめられる形で残していく。

※本稿の数値は各モデルが生成したインプライド・リターン(360日)であり、AIによるフォーキャストです。結果を保証するものではなく、投資助言でもありません。精度は決着後に検証されます。KizashiXのポイント制度とは一切関係ありません。

最新の予測と、どのモデルがいつ予測を生成したか(推定コストを含む)は、それぞれの検証ページで公開しています:AI指数予測AI予測ラボ

この記事をシェア