ビジネス

AI 受託開発の会社を選ぶときの 5 つのチェックポイント

「AI 駆動開発を謳う受託会社」が急増しています。本当に AI を使いこなして品質と速度を両立できる会社の見分け方を、AI 駆動開発のクリエイティブスタジオが発注者目線で整理しました。

#AI 受託開発#AI 駆動開発#受託開発 比較#発注ガイド#DX 推進

「AI 駆動」という言葉が氾濫している

ここ 1 年で「AI 駆動開発」「AI 受託開発」を謳うプレイヤーが急増しました。FIXIT もその一員ですが、業界の中身を見ていると正直に申し上げて 看板だけ AI で、中身は従来通りの受託開発 という会社も少なくありません。そもそも AI 駆動開発とは何を指し、従来の開発と何が違うのかは AI 駆動開発とは?従来開発との違い・進め方 で定義しています。

発注者からよく相談されるのが、

「AI でやりますと言う会社が増えたけど、どれも同じに見える。何を基準に選べばいいの?」

という疑問です。本記事は、AI 駆動開発のクリエイティブスタジオとして 30 社以上の発注検討に関わってきた経験から、発注者が必ず聞くべき 5 つの質問 にまとめました。

質問の形で書いてあるので、見積もり面談のときにそのまま使えます。

5 つのチェックポイント

flowchart LR
  C1["1. AI ツールの<br/>実利用率"]
  C2["2. テスト先行の<br/>運用標準化"]
  C3["3. KPI 計測 / 開示"]
  C4["4. 機密データの<br/>取り扱い"]
  C5["5. 組織導入支援の<br/>実績"]
  C1 --> C2 --> C3 --> C4 --> C5

1. AI ツールの実利用率を聞く

Q.「御社では Claude Code / Cursor を、月の総コーディング時間のうち何 % で使っていますか?」

狙い: 「AI を使っている」と「AI が中核」を見分ける質問です。

経験上、本気で AI 駆動開発している会社は 70% 以上 の時間で AI ペアプログラミングを併用しています。一方、「個人で触っている人が一部いる」程度の会社では 20% を切るのが普通です。

加えて、次の 2 点も聞いておきたいところです。

  • 「全エンジニアが Claude Max / Cursor Business を使えますか?」
  • CLAUDE.md / .cursor/rules をリポジトリでバージョン管理していますか?」

ライセンス支給があるか・運用が組織化されているかで、本気度が透けて見えます。

2. テスト先行の運用が標準化されているか

Q.「AI が書いたコードの品質はどのように担保していますか?テスト先行は標準ですか?」

狙い: AI 駆動開発で 最大のリスクは「動いて見えるけれど品質が脆い」コード が量産されること。これを防ぐ唯一の手段がテスト先行の TDD です。

具体的な追加質問:

  • 「テストカバレッジの目標値は?」(80% 以上が望ましい)
  • 「Mutation Testing や Property-Based Testing を取り入れていますか?」
  • 「PR テンプレートに『受け入れテストの設計者』欄はありますか?」

ピンと来ないようなら、AI 駆動はまだ社内に根付いていない可能性が高いです。詳しくは AI 駆動 TDD の記事 を参照ください。

3. KPI を計測 / 開示しているか

Q.「AI 駆動開発の効果を示す KPI を月次で計測していますか?数字を見せてもらえますか?」

狙い: 「速くなった気がする」「品質が良くなった気がする」では、経営層への報告も内部改善もできません。定量化されているか を見抜くための質問です。

最低限見るべき指標:

  • リリースリードタイム (commit → 本番、中央値)
  • PR 中央サイズ (LOC)
  • 本番障害 P1 件数 / 月
  • テスト先行率 (テストを実装より先にコミットした PR 比率)

これらを月次でダッシュボード化している会社は、ほぼ間違いなく AI 駆動の運用が成熟しています。

指標業界平均 (従来手法)AI 駆動成熟組織
リリースリードタイム 中央値8 日3 日
PR 中央サイズ450 LOC180 LOC
本番障害 P1 / 月1.8 件0.8 件

(2 ヶ月の vibe coding 運用実証データ。詳しくは vibe coding 実務レポート を参照)

4. 機密データの取り扱いとセキュリティガバナンス

Q.「弊社の機密データを AI に渡すとき、どんなガバナンス設計を提案していただけますか?」

狙い: 法務・情シスが後で困らないための質問。AI ツール利用には固有の論点があります。

最低限確認したい項目:

  • Zero Data Retention 契約 の経験 (Anthropic 等との学習に使わない契約)
  • Privacy Mode の組織標準化 (Cursor の場合)
  • 機密情報の context 投入ルール (ホワイトリスト形式か)
  • 監査ログの取得方法
  • AI 利用に関する契約条項の雛形

「セキュリティは検討中です」と返ってきたら要注意。本番案件で AI を使うには、これらの整備は必須です。

5. 過去案件で組織導入 (Stage 4-5) まで支援した実績

Q.「クライアントの組織内に AI 駆動開発を浸透させた事例を 2〜3 件聞かせてください」

狙い: 「個別案件で AI を使う」までは多くの会社ができますが、クライアントの組織自体に AI 駆動を浸透させる ところまで支援できる会社は限られます。これが内製化フェーズで効いてきます。

具体的な質問:

  • CLAUDE.md のプレイブックをクライアントに提供したことは?」
  • 「Pre-commit hook で AI レビューを CI に組み込んだ事例は?」
  • 「クライアントの情シス / 法務とガバナンス整備を併走した経験は?」

詳しい組織導入フローは Claude Code 導入完全ガイド で公開しています。

比較しやすい質問テンプレート

複数社を比較するときに使えるよう、質問を 1 ページにまとめたテンプレートを置きます。コピーして見積もり面談で使ってください。

■ AI 受託開発 会社 比較チェックリスト
 
1. AI ツール実利用率
   - Claude Code / Cursor の組織全体での月間利用時間比率: __%
   - 全エンジニアへのライセンス支給: あり / なし
   - CLAUDE.md / .cursor/rules のバージョン管理: あり / なし
 
2. テスト先行・品質担保
   - テストカバレッジ目標: __%
   - PR テンプレートに受け入れテスト設計者欄: あり / なし
   - Mutation Testing 等の品質計測: あり / なし
 
3. KPI 計測 / 開示
   - リリースリードタイム計測: あり / なし
   - PR 中央サイズ計測: あり / なし
   - P1 障害件数の月次計測: あり / なし
   - 過去案件の KPI 数値開示: 可 / 不可
 
4. セキュリティガバナンス
   - Zero Data Retention 契約: 経験あり / なし
   - Privacy Mode の組織標準化: あり / なし
   - 監査ログ取得設計: あり / なし
   - AI 利用契約条項の雛形: あり / なし
 
5. 組織導入支援
   - プレイブック提供実績: __件
   - CI への AI レビュー組み込み実績: __件
   - 情シス・法務との併走経験: あり / なし
   - 過去 1 年のクライアント内製化案件: __件

このテンプレートで 3 社を比較すれば、AI 駆動の 本気度 の違いが一目で見えるはずです。

避けたい「ダメな会社の特徴」3 つ

逆に「AI 駆動」と言いつつも実態が伴わない会社の典型的なパターンも整理しておきます。

特徴 1. 「AI 使えば安くなります」を売り文句にする

AI 駆動開発の本質は 「短い期間に高密度で集中する」 ことであり、「安い」ではありません。AI 駆動を売り文句に 異常に安い見積もり を出してくる会社は、ほぼ確実に品質を犠牲にしています。

正しい価格感は

  • SaaS MVP (12 人日相当): 400 万〜600 万円
  • 業務システム刷新 (4〜5 人月): 1,500 万〜2,400 万円
  • AI エージェント実装 (6 週間): 800 万〜1,200 万円

このレンジを大きく下回る場合は、何か削っている可能性があります。価格レンジの詳細は サービス一覧 を参照ください。

特徴 2. 過去事例の数値を一切開示しない

「過去にこんな会社の案件をやりました」と社名やロゴだけ並べる会社は珍しくありません。重要なのは 「何が、どのくらい速く、どのくらい品質で完成したか」 という数値。

数値開示しない会社は、十中八九 計測していない ので、AI 駆動の運用は形だけです。FIXIT のケーススタディは 実績一覧 で実数値とともに公開しています。

特徴 3. ツール名だけ並べて運用設計を語れない

「Claude Code / Cursor / Devin / LangGraph / RAG / 評価ハーネス」と専門用語だけ並べる会社は、これらの 運用設計 を語れません。発注者が「具体的にどう品質担保しますか?」と聞くと、急に抽象論になる。

良い会社は

「テスト先行で受け入れ基準を人間が書き、AI に実装させ、Pre-commit hook で 1 段階レビューしてから人間レビューに回します。リリースリードタイムは中央値 3 日、P1 障害件数は 0.8 件/月で運用しています」

くらいの具体性で答えられます。

よくある質問

Q. AI 駆動開発と従来の受託、見積もりはどう違いますか?

A. 同規模の案件で 30〜50% 程度安くなるケースが多いです。ただし、AI 駆動は「短期間に集中」型なので、稼働率が高く、発注側にも準備工数 (要件レビュー・画面確認・デプロイ承認) が同期して必要になります。

Q. AI が書いたコードでエンタープライズ品質を担保できますか?

A. テスト先行 + 人間レビュー + 観測性の 3 つを揃えれば担保できます。実証データでは、AI 駆動成熟組織は 本番障害 P1 件数が業界平均より低い 水準を維持しています。

Q. 既存システムの刷新でも AI 駆動は使えますか?

A. むしろレガシー刷新こそ AI 駆動が効きます。ドキュメント化されていない既存システムを AI に読み解かせ、人間が判断する協業が機能するからです。詳しくは 10 年もののレガシーシステムをリプレイス を参照ください。

Q. 営業会議でこのチェックリストを使っていいですか?

A. むしろ歓迎です。テンプレート部分はそのままコピーしてご利用ください。比較で FIXIT が選ばれなかった場合でも、発注先を見極める判断材料になれば本記事の目的は達成です。

関連リソース

AI 駆動開発のご相談はこちら

記事に関連したワークショップ・導入支援も承ります。30 分でフィットするか判断できる無料相談から始めましょう。

30 分の無料相談を申し込む