6つのAIに主要6指数の「1年後」を予測させたら——見立てはどこで割れたか

KizashiXの「AI指数予測」では、複数のAIモデルに主要マーケットの将来水準を毎日予測させ、その結果を追記専用で記録している。対象は日経平均・S&P500・NASDAQ総合・ゴールド・WTI原油・ビットコインの6指数。予測モデルは3社の最新世代と1世代前を併走させた計6モデルだ。
2026年6月14日のバッチを見ると、同じ「1年後(360日)」を予測させているのに、マーケットによってAIの足並みがそろう所と、まったくそろわない所がはっきり分かれた。本稿ではその構図を整理する。
6指数 × 6モデルで、毎日記録する
予測に使ったのは次の6モデルである。
- Claude:Opus 4.8(最新)/ Sonnet 4.6(1世代前)
- ChatGPT:5.5(最新)/ 5.4(1世代前)
- Gemini:3.5 Flash(最新)/ 2.5 Pro(1世代前)
3社それぞれの最新モデルと1世代前のモデルを同じ条件で走らせている。これは「世代交代によって予測の精度や傾向がどう変わるのか」を、後から検証できるようにするための設計だ。すべて同一テーマ・同一条件で予測させ、結果は当日のスナップショットとして記録される。
結果:株価は揃い、原油は沈み、BTCは割れた
360日後のAI合意(6モデルの中央値)と、モデル間の予測幅は以下のとおり。
| 指数 | AI合意(360日) | モデル間の予測幅 |
|---|---|---|
| 日経平均 | +4.0% | +1.2 〜 +9.1% |
| S&P500 | +8.6% | +7.6 〜 +9.9% |
| NASDAQ総合 | +11.5% | +6.9 〜 +15.2% |
| ゴールド | +12.3% | +5.0 〜 +19.7% |
| WTI原油 | −12.9% | −21.7 〜 −5.1% |
| ビットコイン | +28.7% | +25.9 〜 +62.8% |
ぱっと見て分かるのは、株価指数はおおむね緩やかな上昇でまとまっているのに対し、コモディティと暗号資産で様子が大きく違うことだ。原油は6指数で唯一のマイナス予想。しかもビットコインは、合意こそ+28.7%だが、モデルによって+26%から+63%まで開いている。
最も揃った指数、最も割れた資産
モデル間のばらつき(予測幅の大きさ)で並べ替えると、対比はさらに際立つ。
最も意見がそろったのはS&P500だった。6モデルの予測幅はわずか+7.6%〜+9.9%に収まっている。米国大型株については、AIの見立てがほぼ一致していると言っていい。
逆に最も割れたのはビットコインだ。下は+25.9%、上は+62.8%と、最大と最小で37ポイント近い開きがある。同じ資産・同じ期間の予測で、ここまで差が出るのは他の指数には見られない。
その中間で目を引くのがWTI原油だ。下げ幅こそ−5%から−22%まで割れているものの、6モデルすべてが「下落」で方向を一致させた。中東情勢の落ち着きと供給回復、需要の鈍化を、どのモデルも重く見ている。「方向は全員一致、ただし程度は割れる」という、原油だけの特徴的な形になった。
モデルごとに「強気・弱気」の置きどころが違う
割れた資産を細かく見ると、どのモデルがどこで強気・弱気になるかにも癖が出ている。
ビットコインで突出して強気だったのはGemini系だ。2.5 Proが+62.8%、3.5 Flashが+58.2%と、機関投資家の資金流入とマクロ緩和を強く織り込んでいる。一方でClaudeとChatGPTは+26〜+30%台にとどまり、調整局面の不安定さや金利の重しを慎重に見ていた。
原油では逆にClaudeが最も弱気で、Opus 4.8が−21.7%。供給途絶リスクは残しつつも、緊張緩和による軟化を強く見込んだ。Gemini 2.5 Proは−5.1%と最も下げ幅が小さく、ここでも両者の見立ては大きく離れている。
同じデータ、同じ問いに向き合っても、どこにリスクを見て、どこにリターンを見るかがモデルごとに違う。それが数字の差として表れている。
それは「予測思想」の違い
KizashiXでは、こうした差を単なる「結果のばらつき」ではなく、モデルごとの“予測思想”の違いだと捉えている。
以前に2026年W杯の優勝国を同じ6モデルに予測させたときも、単独の強豪国を本命視するモデルと、候補外の分散可能性を重く見るモデルに分かれた。今回の指数予測でも、不確実性の高い資産ほどモデル間の差が開くという、似た傾向が確認できる。読みやすい対象では揃い、読みにくい対象では各モデルの「世界の見方」がむき出しになる、ということだ。
予測のさせ方と、記録のしかた
予測は、各モデルに同じ入力を与えるところから始まる。対象指数の名前、直近の基準値(終値)、予測期間(90日・180日・360日)を渡し、それぞれの期間について価格水準・想定レンジ・その根拠を出力させる。条件はモデル間でそろえてあり、特定のモデルだけ有利になる材料を足すことはしない。基準値は、日経平均は確定終値、米国株価指数は連動ETF(S&P500=SPY、NASDAQ総合=ONEQ)を用い、各モデルが返した価格水準を基準値に対するインプライド・リターンに換算して比較している。
記録は追記専用だ。一度保存した予測は、後から書き換えない。これは「予測したあとで都合よく数字を直す」ことを構造的にできなくするための取り決めで、いつ・どのモデルが・どの水準を予測したかが日付とともに残る。だから後日に実績と突き合わせたとき、言い逃れが効かない。
そして、どのモデルがいつ予測を生成したかは、推定コストとあわせて「AI予測ラボ」でも公開している。予測そのものだけでなく、その予測がどう作られたかまで追えるようにしているのは、「当たったのか・外れたのか」を後から誰でも確かめられる状態に保つためだ。
検証はこれから
重要なのは、これらの予測がまだ「言いっぱなし」の段階にあることだ。AI指数予測のトラックレコードは現在データ蓄積中(N=0)で、最初の予測が決着日(最短90日後)を迎えると、記録済みの予測と実際の値を突き合わせ、誤差率と区間的中率が順次蓄積されていく。
KizashiXは全モデルを併記し、毎日更新し、決着後の精度まで公開することで、「AIの予測は本当に当たるのか」「世代交代で精度は上がるのか」を後から誰でも確かめられる形で残していく。
※本稿の数値は各モデルが生成したインプライド・リターン(360日)であり、AIによるフォーキャストです。結果を保証するものではなく、投資助言でもありません。精度は決着後に検証されます。KizashiXのポイント制度とは一切関係ありません。
最新の予測と、どのモデルがいつ予測を生成したか(推定コストを含む)は、それぞれの検証ページで公開しています:AI指数予測 / AI予測ラボ