Claude Opus 4.6・4.7・4.8 をまず一望する

Claude Opus は 2025 年 11 月の 4.5 から、4.6・4.7・4.8 と短い間隔で世代を重ねてきました。ポイントは、どの世代も通常利用の料金が据え置きだということです。入力は 100 万トークンあたり 5 ドル、出力は 25 ドルのまま、性能だけが上がっています。

この前提があるので、4.6・4.7・4.8 の話は「コストで世代を使い分ける」ものではありません。同じ値段なら、できることが多い新しい世代を選ぶのが基本です。そのうえで、何がどう伸びたのかを知っておくと、自社のタスクに合うかどうかを落ち着いて判断できます。

この記事では、3 つの世代の違いと、用途別の選び方を Anthropic の一次情報をもとに整理します。利用比率のような社内の数字は出しませんが、どんな場面でどの世代やモードが向くか、その理由を実利の目線でまとめます。

世代ごとの違いを押さえる

まず大枠を表で並べます。公開時期と、その世代でいちばん効いた進化点です。

世代公開時期主な進化点
4.62026 年 2 月Opus で初の 1M トークン文脈 (ベータ)、エージェントチーム、effort 制御
4.72026 年 4 月難所のソフトウェア工学、視覚と指示追従の強化、長時間の自律タスク
4.82026 年 5 月判断力と正直さ、コンピュータ操作の伸長、dynamic workflows

4.6 — 文脈と段取りを広げた土台の世代

4.6 は、Opus クラスで初めて 1M トークンの文脈にベータ対応した世代です。長いコードベースや資料をまとめて読ませても、前半を忘れにくくなりました。あわせて Claude Code でエージェントチームを組めるようになり、API では文脈を自分で要約して長く走り続ける仕組みや、思考量を調整する effort 制御が入りました。

ベンチマークでも、エージェント型コーディングの Terminal-Bench 2.0 で当時の首位、分野横断の難問テストでもトップ水準と公表されています。派手さよりも、長く・安定して走るための土台を広げた世代という位置づけです。

4.7 — 難所のコードと視覚を伸ばした世代

4.7 は、4.6 の土台の上で、特に難しいソフトウェア工学のタスクを伸ばしました。指示追従の正確さが上がり、視覚も強くなって、長辺 2,576 ピクセルまでの大きな画像を扱えるようになっています。Anthropic は、これまで人の細かな監督が必要だった難しい問題でも、自律的に長く走らせる用途を想定していると説明しています。

実タスク寄りの評価でも伸びが見えていて、たとえば CursorBench は 4.6 の 58% から 70% へ上がったと公表されています。一方で、この世代は応答が短めになり、ツールの呼び出し回数が増える場面があるといった指摘もあり、出力の長さや手数を前提に組んでいたフローは少し調整が要りました。

4.8 — 判断力と正直さが軸の現行世代

4.8 は、賢さの数字を伸ばすより、協働相手としての質を上げた世代です。Anthropic は、自分の書いたコードの欠陥を見逃す確率が、ひとつ前の世代と比べておよそ 4 分の 1 になったと説明しています。聞かれていない前置きが減り、無理な計画には押し返してくる、といった判断の質も上がりました。

エージェント用途も強く、ブラウザやコンピュータを操作する評価の Online-Mind2Web では 84% と、Anthropic は検証時点で最も高い水準だと公表しています。さらに Claude Code には dynamic workflows が加わり、Claude が作業を計画して数百の並列サブエージェントを 1 つのセッションで走らせ、結果を自分で検証してから返す、という大きな仕事に踏み込めるようになっています。

FIXITFIXIT

同じ値段なら、いちばん新しいのを選んでおけばいいんじゃないの?

HayateHayate

基本はそれで正解です。同じ価格で判断力もコード品質も上ですから。

FIXITFIXIT
じゃあ、古い世代をあえて使う理由ってあるの?
HayateHayate

運用でバージョンを固定したいときですね。再現性を取りたい現場はあります。

FIXITFIXIT
ふーん。コスパ重視なら、何を見て選ぶの?
HayateHayate

使い分けの目安は、世代よりも effort と速度です。そこが効きます。

用途別の使い分けの目安

世代の違いがわかったら、次は自社のどの場面でどう選ぶかです。料金が据え置きである以上、基本線は「最新を使い、足回りで調整する」になります。

場面選び方の目安
通常の開発・エージェント作業最新の 4.8。同じ料金で判断力とコード品質が上
再現性・回帰確認を重視する運用検証を通した世代に固定する選び方もある
待ち時間が体験に効く対話・反復Fast mode で同じモデルを高速に動かす
難所・長時間の自律タスクeffort を高めに振り、必要なら Opus を維持
軽い反復・大量処理Opus より下位クラスへ寄せてコストを最適化

ここで効くのは、世代の番号より 2 つの軸です。1 つは effort と速度モードの調整で、難所は思考量を増やし、待ち時間が効く場面は Fast mode で速くします。もう 1 つはモデルクラスの選択で、重いタスクは Opus、軽い反復は下位クラスへ振ると、コストが素直に下がります。世代を 4.6 から 4.8 へ動かすより、この 2 軸のほうがコストと速度の振れ幅は大きいです。

Fast mode や effort、dynamic workflows を 4.8 で実際にどう動かすかは、Opus 4.8 を使いこなす要点 で手順に寄せて整理しています。Opus の上をいく Mythos クラスの使いどころは Claude Fable 5 が Claude Code に登場 も参考にしてください。

料金と速度の考え方

料金は、4.5 から 4.8 まで通常利用が据え置きです。入力は 100 万トークンあたり 5 ドル、出力は 25 ドルで、世代が新しくなっても変わりません。だからコストの観点では、古い世代を選ぶ動機は基本的に生まれません。

速度を上げたいときは Fast mode を使います。4.8 では出力の速度がおよそ 2.5 倍になり、Fast mode の料金も従来世代より 3 倍ほど安くなりました。料金は通常とは別建てで、入力 100 万トークンあたり 10 ドル、出力 50 ドルです。速さに対する追加コストなので、待ち時間がそのまま体験や生産性に効く場面に絞って使うのが、損得の合う使い方です。

fixit はこう見ている

私たちは、世代の番号を追うこと自体が目的にならないように気をつけています。料金が据え置きで性能が上がる以上、基本は最新を使い、タスクの難しさと待ち時間に応じて effort と速度を調整する、という原則で AI 駆動開発を進めています。

大事なのは、モデルが賢くなることそのものより、何を任せて何を人が保証するかを設計できるかどうかです。判断力が上がった 4.8 でも、テストと人のレビューを外す理由にはなりません。むしろ自律性が増したぶん、任せる範囲とレビューの仕組みを先に決めておくことが、本番で効いてきます。

AI エージェントを業務へ組み込む設計の考え方は AI エージェントの設計パターン で、Claude Code をチームへ広げる進め方は Claude Code を実務に導入する完全ガイド で整理しています。どのモデルをどの業務にどこまで任せるかを一緒に決めたい場合は、AI 駆動開発サービス のページや 無料相談 からご相談ください。

よくある質問

Q. 古い世代の 4.6 や 4.7 はもう使えなくなりますか?

A. 提供状況は時期によって変わるため、最新の対応はプラットフォームの公式情報で確認してください。考え方としては、料金が据え置きで性能が上がっている以上、通常は最新世代へ寄せるのが無理のない選択です。バージョンを固定したい運用がある場合だけ、固定先の世代の提供期間を確認しておくと安全です。

Q. ベンチマークの数字が高い世代を選べば間違いないですか?

A. ベンチマークは傾向を見る材料にはなりますが、自社のタスクとは一致しません。たとえば視覚やコード、エージェント操作で伸び方は世代ごとに違います。最後は、自社の代表的なタスクで小さく試し、速度とコスト、出力の質が見合うかで決めるのが確実です。

Q. 個人で試すときと組織で配るときで、選び方は変わりますか?

A. 変わります。個人で試す段階は最新世代で上限を確かめるのが早く、組織へ配る段階では、検証を通した世代やモードに固定して再現性を取るほうが回ります。順番としては、個人で試す、定着の型を作る、それから広げる、が崩れにくいです。

おすすめ参考リソース