vibe coding は実務で使えるのか — 2 ヶ月本気で使った結論

vibe coding とは何だったのか

2025 年に Andrej Karpathy が「vibe coding」という言葉を投げ、AI コーディング界隈で大きな話題になりました。「コードを 1 行ずつ書くのではなく、欲しい振る舞いを自然言語で伝えて、AI が出してくる結果を 雰囲気で受け入れる」という新しいスタイルです。言葉の定義ややり方を基礎から押さえたい方は vibe coding とは？意味・やり方・実務の境界線をあわせてご覧ください。

このキーワードは現在 (2026 年 5 月) も月間検索 14,800 件規模で、いまだに「vibe coding は本当に実務で使えるのか？」という疑問が解消されないまま、検索され続けています。

FIXIT は AI 駆動開発のクリエイティブスタジオとして、複数のクライアントワークで vibe coding スタイルを 2 ヶ月 本気で運用しました。本記事はその結論を、できる限り定量的にまとめたものです。なお、vibe coding と、テスト先行で品質を担保する AI 駆動開発との違いは AI 駆動開発とはで整理しています。

2 ヶ月運用の前提条件

公正な比較のため、運用の前提を明示します。

項目	設定
対象案件数	4 件 (SaaS MVP × 2、業務システム刷新 × 1、社内ツール × 1)
エンジニア体制	各案件 1〜2 名、計 5 名
使用ツール	Claude Code (CLI / IDE 拡張) + Cursor
比較対象	同じチームが 2 ヶ月前に AI なしで実施した直近 4 案件の平均値
vibe coding の定義	「テスト先行なし・人間が JSON を直接編集することなく、自然言語で AI に指示する開発スタイル」

補足

本記事の「vibe coding」は、テスト先行なしで自然言語のみ AI に指示する素朴なスタイルを指します。テスト先行と AI 実装を組み合わせる AI 駆動 TDD は別の手法として、比較対象に置いています。

「テスト先行 × AI 実装」(=AI 駆動 TDD) は別の手法として比較対象にしました。詳しくは AI 駆動 TDD の記事を参照。

計測した 5 つの指標

vibe coding の効果を数字で検証するため、以下を計測しました。

flowchart LR
  A["1. リリースリードタイム"]
  B["2. 1 ストーリー実装時間"]
  C["3. PR レビュー時間"]
  D["4. 本番障害 P1 件数"]
  E["5. エンジニア満足度"]
  A --> B --> C --> D --> E

1. リリースリードタイム

指標	従来手法	vibe coding
commit → 本番デプロイ中央値	8 日	3 日
commit → 本番デプロイ 90 percentile	21 日	9 日

ほぼ半分以下に短縮。 ただし、リードタイムの短縮は「実装が速くなった」というよりも、後述するように「実装が小粒になり、ブロック要因が分散した」効果が大きいことが分かりました。

2. 1 ストーリー実装時間

指標	従来手法	vibe coding
1 ストーリーあたり中央値	6 時間	2.5 時間

ストーリー単体での速度はおおむね 2.4 倍。雛形を AI に書かせてから人間が調整する流れが、純粋なボトムアップ実装より速いのは明確です。

3. PR レビュー時間

指標	従来手法	vibe coding
PR 中央サイズ (LOC)	450	180
レビュアー所要時間中央値	45 分	18 分

PR が小さくなり、レビュー時間も短縮。これは vibe coding の 副作用として 起きた変化です。AI に依頼して出てきた結果が一発で完璧でないため、「小さく出して人間がレビューして直す」を高速で回す結果、PR が自然に小粒になりました。

4. 本番障害 P1 件数

指標	従来手法	vibe coding
リリース 4 週間後の P1 件数	平均 1.8 件/プロジェクト	2.4 件/プロジェクト
P2 件数	平均 4.2 件	6.8 件

ここが本記事の 最も重要な結論: 障害件数が増えました。とくに P2 (中度) のバグが 1.6 倍。「雰囲気で受け入れる」の弱点が直接出ています。

5. エンジニア満足度

指標	従来手法	vibe coding
プロジェクト終了アンケート 10 段階	7.2	8.4

満足度は上がっています。とくに「単純作業から解放された」「考えるべきことに集中できた」というコメントが多数。一方、「品質に不安を感じることが増えた」というネガティブな声も併存しています。

まとめると、結論はこうです

vibe coding は 生産性とエンジニア体験を確かに上げる けれど、品質を維持するためのガードレール無しではそのまま使えない。

「vibe coding は使えるか？」への答え:

「テスト・人間レビュー・観測性の 3 つを揃えた上での vibe coding は最強。それなしの素朴な vibe coding は本番投入に耐えない。」

vibe coding でやってよかったこと 3 つ

1. プロトタイプ・スパイクは全て vibe coding

「動くか確認したい」「データ構造のたたき台が欲しい」フェーズは、テストを書かずに vibe coding で爆速で進められます。出来上がった結果を見て、本番化の判断材料にする使い方が最適。

2. ドキュメント・README・運用 Runbook の初稿

ドキュメントは雰囲気で書ける領域なので、vibe coding と相性が完璧です。AI に書かせて、人間が業務固有部分を補強する流れで、1 日かかっていた Runbook が 1 時間で完成しました。

3. リファクタリングの「叩き台」生成

「この関数を綺麗にして」「この型を細かく分けて」と AI に指示すると、複数の候補が出てきます。人間はその中から「これがいいね」と選ぶだけ。詳しくは AI 駆動 TDD の記事で紹介した手法と組み合わせると効果的です。

vibe coding で失敗したこと 3 つ

1. テスト先行を怠ったドメイン実装

「テスト書くより先に動くやつ書こう」と vibe coding で進めたドメイン実装が、本番カットオーバー後に P1 障害 3 件 を起こしました。AI 生成コードは見た目が綺麗で「動いている」ように見えるため、テストなしで通すと境界値・例外系の漏れが残ります。

2. ライブラリ選定を AI に任せきり

「ベストプラクティスで」と AI に頼んだら、メンテナンスが止まったライブラリを引っ張ってきたケースが複数。「選定理由を 1 行で説明させる」 ルールを後から追加することで防げました。

3. 「動くから OK」で品質チェックを飛ばす

vibe coding で「動くやつ」が出てきた瞬間に満足してしまい、レビュー・テスト・ドキュメント化を後回しにする心理的バイアスが強かったです。「動いた瞬間が、最も危険なタイミング」 と認識する文化づくりが必須。AI 生成コードを安全にマージするためのレビュー観点の切り分けは AI 生成コードのレビュー設計で詳しく整理しています。

FIXIT

速くなって満足度も上がったのに、品質だけ下がったのはなんで？

結果から見ます。速さの裏で、品質が落ちていました。

Dodai

生成コードは見た目が綺麗で動きます。だから境界値や例外系の漏れに気づきにくいんです。

FIXIT

満足度が高いと、かえって危ないってこと？

Dodai

そこが事故ります。動いた瞬間が最も危険なので、テストとレビューで締めます。

結論：「ガードレール vibe coding」を提案します

純粋な vibe coding は本番投入に耐えませんが、以下のガードレールを併用すると、生産性 × 品質の両立 が現実的に達成できます。本番投入できる進め方と品質担保を体系立てて押さえたい方は Vibe Coding 完全ガイドを出発点にしてください。

flowchart LR
  V["vibe coding<br/>(自然言語で AI に依頼)"]
  T["テスト先行<br/>(人間が受け入れ基準を書く)"]
  R["人間レビュー<br/>(出力を必ず人間が確認)"]
  O["観測性<br/>(本番後の異常を即検知)"]
  V -.-> T
  V -.-> R
  V -.-> O
  T --> P["本番投入"]
  R --> P
  O --> P

このガードレールを揃えると、上述の指標は以下のように変化します (FIXIT 内の 3 案件で実測):

指標	純粋 vibe coding	ガードレール vibe coding
リリースリードタイム中央値	3 日	3 日 (維持)
1 ストーリー実装時間	2.5 時間	3 時間 (テスト先行分プラス)
本番 P1 件数	2.4 件	0.8 件 (従来手法 1.8 件より低い)

P1 障害件数を 従来手法より低く 抑えながら、リリースリードタイムは 3 日を維持できる、というのが FIXIT の現状ベストエフォートです。

チームへの導入手順

vibe coding をチームに展開するなら、以下のステップが現実的です。

個人試用 (1〜2 週間) として、サイドプロジェクトで肌感を掴む
小規模プロジェクト (2〜4 週間) として、失敗してもダメージが小さい範囲で運用する
ガードレール整備 (2〜3 週間) として、テスト先行・PR テンプレート・観測性を揃える
本番案件へ適用し、ガードレール込みで小さな機能から段階展開する
上述の 5 指標を月次で計測し、KPI をモニタリングする

このフローは Claude Code を実務に導入する完全ガイドの 5 段階ロードマップと並走させると効果的です。

vibe coding は実務で使えるのか — 2 ヶ月本気で使った結論

vibe coding とは何だったのか

2 ヶ月運用の前提条件

計測した 5 つの指標

1. リリースリードタイム

2. 1 ストーリー実装時間

3. PR レビュー時間

4. 本番障害 P1 件数

5. エンジニア満足度

まとめると、結論はこうです

vibe coding でやってよかったこと 3 つ

1. プロトタイプ・スパイクは全て vibe coding

2. ドキュメント・README・運用 Runbook の初稿

3. リファクタリングの「叩き台」生成

vibe coding で失敗したこと 3 つ

1. テスト先行を怠ったドメイン実装

2. ライブラリ選定を AI に任せきり

3. 「動くから OK」で品質チェックを飛ばす

結論：「ガードレール vibe coding」を提案します

チームへの導入手順

よくある質問

Q. vibe coding と AI ペアプログラミングの違いは？

Q. テストすら書かずに本番投入したことはありますか？

Q. ChatGPT や Gemini でも vibe coding はできますか？

Q. 学習コストはどのくらいですか？

関連リソース

関連する Insights

AI 駆動開発の進め方が一目でわかる|工程・体制・成果物の全体像

AI 駆動 TDD - テストを AI に先に書かせる開発フロー

AI 駆動開発でのプロダクト開発をご相談ください

RECRUIT

CONTACT