
目次
はじめに — Opus 4.8 は何が「最上位」なのか
2026 年 5 月 28 日、Anthropic が最新の最上位モデル Claude Opus 4.8 を公開しました。Claude Code でも同日のアップデート (v2.1.154) から選べるようになり、AI 駆動開発のクリエイティブスタジオである FIXIT でも、公開当日からクライアントワークと社内開発の両方で使い始めています。
モデルの世代交代は数か月おきに起きますが、今回の 4.7 → 4.8 は「賢くなった」だけではありません。料金を据え置いたままコーディング性能を引き上げ、さらに数百のエージェントを束ねて動かす新しい仕組みまで同時に投入された、開発のやり方そのものに効く更新でした。
本記事では、Opus 4.7 から何が変わったのかを、公式が公開したベンチマークと料金、そして新機能の観点で整理します。実際に使ってみた体感は Opus 4.8 を即日プロジェクト投入して分かったこと で、設定の使いこなしは Opus 4.8 を使いこなす要点 でそれぞれ掘り下げています。
ひと目でわかる 4.7 → 4.8 の変更点
まずは全体像です。細かい背景はこの後のセクションで順に補足します。
| 観点 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| コーディング性能 (SWE-Bench Pro) | 64.3% | 69.2% |
| 料金 (100 万トークンあたり) | $5 / $25 | $5 / $25 (据え置き) |
| Fast mode | 提供あり | 約 2.5 倍速・従来から大幅値下げ |
| システムプロンプト | 従来構成 | 軽量な lean 構成が既定 |
| 並列オーケストレーション | — | dynamic workflows (Claude Code 側) |
数字を一段深く見ていきましょう。
ベンチマーク — コーディングで前世代を明確に上回る
公式発表によると、エージェント型のコーディング能力を測る SWE-Bench Pro で、Opus 4.8 は 69.2% を記録しました。Opus 4.7 の 64.3% から約 5 ポイントの上積みで、他社の最新モデル (GPT-5.5 が 58.6%、Gemini 3.1 Pro が 54.2%) をいずれも上回っています。
実務で効くのは、この「コーディングに強い」という性格です。Claude Code を毎日の開発の中心に据えているチームでは、コーディング系ベンチの数ポイントが、長いタスクを最後までやり切れるかどうかの差として表れます。
もっとも、Opus 4.8 がすべてのベンチマークで首位というわけではありません。たとえばターミナル操作を測る Terminal-Bench 2.1 では、実行環境次第で GPT-5.5 が上回る結果も報告されています。「コーディングと長時間のエージェント作業に強いモデル」という捉え方が実態に近く、用途によって冷静に見極める前提で付き合うのが健全です。
なお、本記事のベンチマーク値は Anthropic の公開情報に基づくもので、比較対象のスコアは公開時点のものです。
料金は据え置き、Fast mode の料金が下がった
新モデルというと値上がりを警戒しがちですが、Opus 4.8 の通常料金は 100 万トークンあたり入力 $5・出力 $25 で、Opus 4.7 から据え置きです。性能が上がって価格が同じなら、同じ予算で得られる成果は実質的に増えます。
さらに大きいのが Fast mode です。Opus 4.8 の Fast mode は、同じモデルを約 2.5 倍の速度で動かしながら、以前のモデルの Fast mode のおよそ 3 分の 1 の料金になりました (通常料金の 2 倍にあたる入力 $10・出力 $50)。「速さは欲しいがコストは抑えたい」という日常のイテレーションで、十分に選びやすい選択肢になっています。
速度と料金のバランスは作業の性質で変わります。どの場面で Fast mode を使い、どこで通常モードに戻すかの目安は Opus 4.8 を使いこなす要点 にまとめました。
dynamic workflows — 数百のエージェントを束ねて動かす
Opus 4.8 と同じタイミングで、Claude Code には dynamic workflows が入りました。やりたいことを伝えると、Claude が裏側で数十〜数百のサブエージェントを編成し、大きな作業を分担して進めます。/workflows で進行中の実行を確認できます。
flowchart TD
R["1 つの依頼<br/>(例: 大規模リプレイス)"] --> W["dynamic workflow"]
W --> A1["サブエージェント"]
W --> A2["サブエージェント"]
W --> A3["サブエージェント"]
W --> An["… 数百規模"]
A1 --> M["結果を統合"]
A2 --> M
A3 --> M
An --> M
公式が例に挙げているのは、数十万行規模のコードベース横断のリプレイスのような、一度に抱えるには大きすぎるタスクです。これまで人手で分割していた「広く浅い一括変更」を、数百規模のエージェントに分担させられるようになります (執筆時点では Claude Code の Enterprise / Team / Max プランで利用可能)。
軽くなったシステムプロンプトと、「無駄に聞かない」改善
地味ながら効くのが、lean system prompt の既定化です。モデルに最初から渡される指示文が軽くなり、その分だけ本来のタスクに使える文脈の余地が広がります (Haiku・Sonnet・Opus 4.7 以前は従来構成のままです)。
あわせて、Claude が「自分で判断できる場面では選択肢を出して聞かない」ようになりました。以前は確認のために手を止めていた場面でも、文脈から判断できるならそのまま進めます。細かい挙動に見えますが、エージェントに長いタスクを任せるほど、この「いちいち止まらない」性質は効いてきます。
Anthropic が「最も honest」とうたう改善点
Anthropic は Opus 4.8 を、これまでで最も honest (正直) なモデルだと説明しています。なかでも開発者に関係が深いのが、コードの欠陥を見逃す確率が前世代の約 4 分の 1 に下がったという点です。
AI 駆動開発では、AI が書いたコードを AI 自身がレビューする場面が増えています。レビュー役のモデルが「問題なし」と流してしまう見逃しが減るのは、品質を保つうえで素直にありがたい改善です。とはいえ、これは人間のレビューを不要にするものではありません。最終的な責任は人が持つ、という距離感で受け止めるのが現実的です。AI を前提にしたレビュー体制の組み方は AI 駆動開発とは でも触れています。
FIXIT の受け止め — まず何から試すか
整理すると、Opus 4.8 は「料金据え置きでコーディングが伸び、長時間のエージェント作業と大規模な一括変更がやりやすくなったモデル」です。派手な万能感をうたうより、毎日の開発を一段スムーズにする実用的な更新だと捉えています。
乗り換えの第一歩としては、Fast mode を日常のイテレーションで試し、重いタスクだけ /effort xhigh に上げて使い分けるあたりが入りやすいはずです。具体的な設定は Opus 4.8 を使いこなす要点、実際の開発での体感は Opus 4.8 を即日プロジェクト投入して分かったこと を参照してください。
Claude Code そのものの導入・定着を体系立てて進めたい場合は Claude Code を実務に導入する完全ガイド が出発点になります。
新しいモデルやツールを自社の開発フローに取り込む支援は AI 開発ツール定着支援 で、個別のご相談は お問い合わせ から承っています。
