エンジニアリング

vibe coding は実務で使えるのか — 2 ヶ月本気で使った結論

「vibe coding」を AI 駆動開発のクリエイティブスタジオ FIXIT が 2 ヶ月、本番案件で本気運用した結論をまとめます。生産性・品質・チーム文化への影響を実数値で公開します。

#vibe coding#AI 駆動開発#AI ペアプログラミング#Claude Code#開発生産性

vibe coding とは何だったのか

2025 年に Andrej Karpathy が「vibe coding」という言葉を投げ、AI コーディング界隈で大きな話題になりました。「コードを 1 行ずつ書くのではなく、欲しい振る舞いを自然言語で伝えて、AI が出してくる結果を 雰囲気で受け入れる」という新しいスタイルです。

このキーワードは現在 (2026 年 5 月) も月間検索 14,800 件規模で、いまだに「vibe coding は本当に実務で使えるのか?」という疑問が解消されないまま、検索され続けています。

FIXIT は AI 駆動開発のクリエイティブスタジオとして、複数のクライアントワークで vibe coding スタイルを 2 ヶ月 本気で運用しました。本記事はその結論を、できる限り定量的にまとめたものです。なお、vibe coding と、テスト先行で品質を担保する AI 駆動開発との違いは AI 駆動開発とは で整理しています。

2 ヶ月運用の前提条件

公正な比較のため、運用の前提を明示します。

項目設定
対象案件数4 件 (SaaS MVP × 2、業務システム刷新 × 1、社内ツール × 1)
エンジニア体制各案件 1〜2 名、計 5 名
使用ツールClaude Code (CLI / IDE 拡張) + Cursor
比較対象同じチームが 2 ヶ月前に AI なしで実施した直近 4 案件の平均値
vibe coding の定義「テスト先行なし・人間が JSON を直接編集することなく、自然言語で AI に指示する開発スタイル」

「テスト先行 × AI 実装」(=AI 駆動 TDD) は別の手法として比較対象にしました。詳しくは AI 駆動 TDD の記事 を参照。

計測した 5 つの指標

vibe coding の効果を数字で検証するため、以下を計測しました。

flowchart LR
  A["1. リリースリードタイム"]
  B["2. 1 ストーリー実装時間"]
  C["3. PR レビュー時間"]
  D["4. 本番障害 P1 件数"]
  E["5. エンジニア満足度"]
  A --> B --> C --> D --> E

1. リリースリードタイム

指標従来手法vibe coding
commit → 本番デプロイ 中央値8 日3 日
commit → 本番デプロイ 90 percentile21 日9 日

ほぼ半分以下に短縮。 ただし、リードタイムの短縮は「実装が速くなった」というよりも、後述するように「実装が小粒になり、ブロック要因が分散した」効果が大きいことが分かりました。

2. 1 ストーリー実装時間

指標従来手法vibe coding
1 ストーリーあたり 中央値6 時間2.5 時間

ストーリー単体での速度はおおむね 2.4 倍。雛形を AI に書かせてから人間が調整する流れが、純粋なボトムアップ実装より速いのは明確です。

3. PR レビュー時間

指標従来手法vibe coding
PR 中央サイズ (LOC)450180
レビュアー所要時間 中央値45 分18 分

PR が小さくなり、レビュー時間も短縮。これは vibe coding の 副作用として 起きた変化です。AI に依頼して出てきた結果が一発で完璧でないため、「小さく出して人間がレビューして直す」を高速で回す結果、PR が自然に小粒になりました。

4. 本番障害 P1 件数

指標従来手法vibe coding
リリース 4 週間後の P1 件数平均 1.8 件/プロジェクト2.4 件/プロジェクト
P2 件数平均 4.2 件6.8 件

ここが本記事の 最も重要な結論: 障害件数が増えました。とくに P2 (中度) のバグが 1.6 倍。「雰囲気で受け入れる」の弱点が直接出ています。

5. エンジニア満足度

指標従来手法vibe coding
プロジェクト終了アンケート 10 段階7.28.4

満足度は上がっています。とくに「単純作業から解放された」「考えるべきことに集中できた」というコメントが多数。一方、「品質に不安を感じることが増えた」というネガティブな声も併存しています。

まとめると、結論はこうです

vibe coding は 生産性とエンジニア体験を確かに上げる けれど、品質を維持するためのガードレール無しではそのまま使えない

「vibe coding は使えるか?」への答え:

「テスト・人間レビュー・観測性の 3 つを揃えた上での vibe coding は最強。それなしの素朴な vibe coding は本番投入に耐えない。」

vibe coding でやってよかったこと 3 つ

1. プロトタイプ・スパイクは全て vibe coding

「動くか確認したい」「データ構造のたたき台が欲しい」フェーズは、テストを書かずに vibe coding で爆速で進められます。出来上がった結果を見て、本番化の判断材料にする使い方が最適。

2. ドキュメント・README・運用 Runbook の初稿

ドキュメントは雰囲気で書ける領域なので、vibe coding と相性が完璧です。AI に書かせて、人間が業務固有部分を補強する流れで、1 日かかっていた Runbook が 1 時間で完成しました。

3. リファクタリングの「叩き台」生成

「この関数を綺麗にして」「この型を細かく分けて」と AI に指示すると、複数の候補が出てきます。人間はその中から「これがいいね」と選ぶだけ。詳しくは AI 駆動 TDD の記事 で紹介した手法と組み合わせると効果的です。

vibe coding で失敗したこと 3 つ

1. テスト先行を怠ったドメイン実装

「テスト書くより先に動くやつ書こう」と vibe coding で進めたドメイン実装が、本番カットオーバー後に P1 障害 3 件 を起こしました。AI 生成コードは見た目が綺麗で「動いている」ように見えるため、テストなしで通すと境界値・例外系の漏れが残ります。

2. ライブラリ選定を AI に任せきり

「ベストプラクティスで」と AI に頼んだら、メンテナンスが止まったライブラリを引っ張ってきたケースが複数。「選定理由を 1 行で説明させる」 ルールを後から追加することで防げました。

3. 「動くから OK」で品質チェックを飛ばす

vibe coding で「動くやつ」が出てきた瞬間に満足してしまい、レビュー・テスト・ドキュメント化を後回しにする心理的バイアスが強かったです。「動いた瞬間が、最も危険なタイミング」 と認識する文化づくりが必須。

結論:「ガードレール vibe coding」を提案します

純粋な vibe coding は本番投入に耐えませんが、以下のガードレールを併用すると、生産性 × 品質の両立 が現実的に達成できます。

flowchart LR
  V["vibe coding<br/>(自然言語で AI に依頼)"]
  T["テスト先行<br/>(人間が受け入れ基準を書く)"]
  R["人間レビュー<br/>(出力を必ず人間が確認)"]
  O["観測性<br/>(本番後の異常を即検知)"]
  V -.-> T
  V -.-> R
  V -.-> O
  T --> P["本番投入"]
  R --> P
  O --> P

このガードレールを揃えると、上述の指標は以下のように変化します (FIXIT 内の 3 案件で実測):

指標純粋 vibe codingガードレール vibe coding
リリースリードタイム 中央値3 日3 日 (維持)
1 ストーリー実装時間2.5 時間3 時間 (テスト先行分プラス)
本番 P1 件数2.4 件0.8 件 (従来手法 1.8 件より低い)

P1 障害件数を 従来手法より低く 抑えながら、リリースリードタイムは 3 日を維持できる、というのが FIXIT の現状ベストエフォートです。

チームへの導入手順

vibe coding をチームに展開するなら、以下のステップが現実的です。

  1. 個人試用 (1〜2 週間) として、サイドプロジェクトで肌感を掴む
  2. 小規模プロジェクト (2〜4 週間) として、失敗してもダメージが小さい範囲で運用する
  3. ガードレール整備 (2〜3 週間) として、テスト先行・PR テンプレート・観測性を揃える
  4. 本番案件へ適用し、ガードレール込みで小さな機能から段階展開する
  5. 上述の 5 指標を月次で計測し、KPI をモニタリングする

このフローは Claude Code を実務に導入する完全ガイド の 5 段階ロードマップと並走させると効果的です。

よくある質問

Q. vibe coding と AI ペアプログラミングの違いは?

A. ニュアンスの違いです。AI ペアプログラミングは「人間と AI が一緒にコードを書く」全般を指し、vibe coding はその中でも 「自然言語で意図を伝えて AI に任せる」 スタイル。AI ペアプログラミングの一形態が vibe coding、と捉えるのが現実的です。

Q. テストすら書かずに本番投入したことはありますか?

A. プロトタイプ専用の社内ツールでは経験あります。ただし、外部顧客に提供する本番案件で「テスト無し vibe coding 100% で完成」は経験ありません。FIXIT 内のルールとして禁止しています。

Q. ChatGPT や Gemini でも vibe coding はできますか?

A. できますが、コードベース全体のコンテキストを保持する力が Claude Code / Cursor とは大きく違います。スパイクやプロトタイプには ChatGPT、本格的なコーディングには Claude Code / Cursor、というのが現実的な棲み分けです。

Q. 学習コストはどのくらいですか?

A. プロンプトの作法に慣れるのに 1〜2 週間、ガードレール整備込みでチーム導入まで 1〜2 ヶ月が目安です。AI 駆動開発の組織導入については Claude Code 導入完全ガイド を参照ください。

関連リソース

AI 駆動開発のご相談はこちら

記事に関連したワークショップ・導入支援も承ります。30 分でフィットするか判断できる無料相談から始めましょう。

30 分の無料相談を申し込む