Gemma 4 12B は商用利用できますか？

はい。Apache 2.0 ライセンスで公開されており、商用利用・改変・ファインチューニングした派生モデルの再配布まで認められています。モデルの重みは Hugging Face や Kaggle から無料で取得できます。プロダクトへ組み込む際は、念のため原文のライセンス条項もあわせて確認してください。

どのくらいのスペックのマシンで動きますか？

16GB の VRAM またはユニファイドメモリが目安です。Apple Silicon 搭載の Mac や、16GB クラスの GPU を積んだノート PC でローカル実行できます。コミュニティからは量子化版も多数公開されており、必要メモリをさらに抑える選択肢もあります。

日本語には対応していますか？

はい。公式モデルカードによると 140 以上の言語で学習されており、日本語を含む多言語の入出力に対応します。音声入力でも多言語の文字起こしと翻訳をサポートしています。

Gemini と Gemma は何が違いますか？

Gemini は Google がクラウド API として提供する商用モデル群で、Gemma は重みが公開されたオープンモデルのファミリーです。Gemma は自社のマシンやインフラで動かせるため、機密データを外部に出せない用途や推論コストを固定したい用途に向きます。最高水準の推論品質が要る処理はクラウドの上位モデル、ローカルで完結させたい処理は Gemma、という使い分けが現実的です。

Gemma 4 12B で画像生成はできますか？

いいえ。Gemma 4 12B は画像・音声・動画を入力として理解し、テキストで応答するモデルで、画像そのものを生成する用途には対応していません。画像生成が必要な場合は、Imagen など画像生成に特化したモデルと組み合わせて使い分けてください。

GPU がなくても CPU だけで動かせますか？

llama.cpp などで量子化版を使えば CPU のみでも動作しますが、応答速度は実用域から外れやすくなります。快適に使うには 16GB クラスの GPU メモリ、または Apple Silicon のユニファイドメモリを推奨します。量子化の程度を上げると、必要メモリと速度のバランスを調整できます。

Ollama での使い方を教えてください。

Ollama を導入済みなら ollama run gemma4:12b の 1 コマンドで対話を始められます。初回はモデルのダウンロードが走ります。OpenAI 互換 API として使う場合は ollama serve でサーバを起動し、既存クライアントの接続先を差し替えるだけで移行できます。

ツール導入

Gemma 4 12B とは — 16GB メモリのノート PC で動くマルチモーダル AI の実力と使い方

2026 年 6 月 3 日に Google が発表したオープンモデル Gemma 4 12B を解説します。16GB メモリのノート PC で動くサイズながら、画像・音声・動画まで扱うマルチモーダル対応と 256K トークンの長文処理を備え、性能は上位の 26B MoE 版に迫ります。何ができるのか、エンコーダを持たない統一アーキテクチャはなぜすごいのか、Ollama や LiteRT-LM でどう使い始めるのかまで、AI 駆動開発のクリエイティブスタジオが現場目線で整理しました。

FIXIT/ AI 駆動開発クリエイティブスタジオ·2026年6月4日公開·約 9 分で読めます·2026年6月13日更新

#Gemma 4 12B#Gemma 4#ローカル LLM#マルチモーダル AI#Google

はじめに — ノート PC で動くマルチモーダル AI が現実になった

2026 年 6 月 3 日 (米国時間)、Google が新しいオープンモデル Gemma 4 12B を発表しました。画像・音声・動画まで扱えるマルチモーダルモデルでありながら、16GB のメモリを積んだノート PC でローカル実行できるサイズに収まっている点が特徴です。

ここ数年、「高性能な AI はクラウドの巨大モデルを API で呼ぶもの」という前提が業界の標準でした。Gemma 4 12B は、その前提を「手元のマシンでもここまで動く」方向へ一歩進めたモデルです。AI 駆動開発のクリエイティブスタジオである FIXIT でも、プロダクトに組み込む推論基盤の選択肢として発表直後から動向を追っています。

本記事では、Gemma 4 12B に何ができるのか、なぜ注目に値するのか、そしてどう使い始めるのがよいのかを整理します。一次情報は Google 公式ブログの発表、開発者向けガイド、Hugging Face のモデルカードで、本記事の数値はこれらの公開情報に基づきます。

ひと目でわかる Gemma 4 12B

まずは全体像です。

項目	内容
開発元	Google (Google DeepMind)
発表日	2026 年 6 月 3 日 (米国時間)
パラメータ数	約 12B (dense 構成)
入力モダリティ	テキスト・画像・音声・動画
コンテキスト長	入力 256K トークン
対応言語	140 以上の言語で学習、日本語を含む多言語に対応
動作要件の目安	16GB の VRAM またはユニファイドメモリ
ライセンス	Apache 2.0
入手先	Hugging Face・Kaggle (Ollama・LM Studio からも可)

Gemma 4 ファミリーには、スマートフォンなどのエッジ端末向けの E2B / E4B と、ハイエンド向けの 26B (MoE 構成)・31B が先行して存在します。12B はその中間、「開発者が普段使いするノート PC」を狙ったポジションです。

何ができるのか — テキスト生成からエージェントまで

画像・音声・動画をひとつのモデルで扱う

Gemma 4 12B は、テキストの読み書きに加えて、画像・音声・動画の入力をモデル単体で受け付けます。モデルカードによると、音声は最大 30 秒、動画は毎秒 1 フレームで最大 60 秒まで入力でき、音声の文字起こしや多言語の音声翻訳もこなします。中型サイズのモデルとしては初めて、音声をネイティブ入力として扱える点も発表で強調されました。なお、これらはあくまで入力として扱えるという意味で、モデルの出力はテキストです。画像そのものを生成するモデルではない点は押さえておきましょう。

スクリーンショットを読ませて UI の文言を直す、会議音声の要点を書き起こす、製品写真から説明文を起こす。こうした処理を、データを 1 バイトも外部に送らずに手元のマシンで完結させる構成が現実的になります。

256K トークンの長文コンテキスト

入力コンテキストは 256K トークンまで広がっています。リポジトリのコード一式や長い議事録、複数のドキュメントをまとめて渡すような使い方が、ローカル環境でも視野に入るサイズです。

エージェント用途を見すえた設計

マルチステップの推論やツール呼び出しを前提にした調整が入っており、あわせてエージェント開発向けのスキル集「Gemma Skills」リポジトリも公開されました。公開されたモデルは次の 3 種類です。

gemma-4-12B — ファインチューニングの起点になるベースモデル
gemma-4-12B-it — 対話向けに調整された instruction-tuned 版
gemma-4-12B-it-assistant — 投機的デコードで応答を高速化するためのドラフトモデル

3 つ目のドラフトモデルは Multi-Token Prediction (MTP) という仕組みの実装で、本体モデルと組み合わせるとローカル推論のレイテンシを下げられます。「ローカルで動くだけ」ではなく「ローカルで速く動かす」ための部品まで、公式がひととおり揃えています。

なぜすごいのか — エンコーダを捨てた統一アーキテクチャ

画像も音声も直接言語モデルに流し込む

これまでのマルチモーダルモデルは、画像にはビジョンエンコーダ、音声には音声エンコーダと、モダリティごとに専用の変換器を前段に置くのが定石でした。先行する Gemma 4 の E2B / E4B もこの構成です。

Gemma 4 12B はここを設計から変えました。画像は約 35M パラメータの軽量な埋め込みモジュールでパッチを直接投影し、音声は 16kHz の波形を 40 ミリ秒ごとのフレームに切って、線形変換でそのまま言語モデルの入力空間へ流し込みます。数億パラメータ規模のエンコーダを足す代わりに、言語モデル本体がモダリティをまとめて引き受ける構成です。

flowchart TB
  subgraph before["従来のマルチモーダル構成"]
    I1["画像"] --> E1["ビジョンエンコーダ<br/>(数億パラメータ)"]
    A1["音声"] --> E2["音声エンコーダ<br/>(数億パラメータ)"]
    E1 --> L1["言語モデル"]
    E2 --> L1
  end
  subgraph unified["Gemma 4 12B の統一アーキテクチャ"]
    I2["画像"] --> P1["軽量埋め込み<br/>(約 35M)"]
    A2["音声 (16kHz 波形)"] --> P2["線形投影"]
    P1 --> L2["言語モデルが直接処理"]
    P2 --> L2
  end

この設計の利点は 3 つあります。エンコーダ分のメモリが浮くこと、エンコード処理が消えてレイテンシが下がること、そしてファインチューニング時にテキスト・画像・音声を同じ重みで一度に更新できることです。

ベンチマーク — 1 世代前の 27B を半分以下のサイズで上回る

公式モデルカードが公開しているスコアを、ファミリー内の他モデルと並べます。

ベンチマーク	Gemma 4 12B	Gemma 4 E4B	Gemma 4 31B	Gemma 3 27B
MMLU Pro (知識・推論)	77.2	69.4	85.2	67.6
AIME 2026 (数学、ツールなし)	77.5	42.5	89.2	20.8
LiveCodeBench v6 (コード生成)	72.0	52.0	80.0	29.1
GPQA Diamond (科学系の難問)	78.8	58.6	84.3	42.4
MMMU Pro (画像理解)	69.1	52.6	76.9	49.7
MATH-Vision (図版つき数学)	79.7	59.5	85.6	46.0

読み方はシンプルです。1 世代前の Gemma 3 27B を半分以下のサイズで全項目で上回り、最上位の 31B にも一定の距離まで迫っています。さらに公式は、表にない兄弟モデルの 26B (MoE 構成) と比べても「近い性能を半分未満のメモリフットプリントで実現した」と説明しており、サイズあたりの性能効率がこのモデルの売りです。

補足

ベンチマークの数値は公開時点の公式モデルカードに基づきます。実務での体感は量子化の程度やタスクの種類で変わるため、採用判断では自社ユースケースでの評価をあわせて行ってください。

Apache 2.0 ライセンスという扱いやすさ

Gemma 4 12B は Apache 2.0 ライセンスで公開されています。商用利用、改変、ファインチューニングした派生モデルの再配布まで広く認められる、企業利用と相性のよいライセンスです。自社プロダクトへの組み込みも、クライアントワークでの提案にも載せやすくなりました。

16GB という現実的なライン

動作要件の目安は 16GB の VRAM またはユニファイドメモリです。Apple Silicon 搭載の Mac や 16GB クラスの GPU を積んだノート PC、つまり「開発者がいま使っているマシン」がそのまま実行環境になります。専用サーバを調達せずに PoC を始められることは、検証のスピードに直結します。

どう使うのがよいのか — 目的別の始め方

FIXIT

こういうのって、結局 GPU マシンがないと試せないんじゃないの？

Tsumiki

16GB のユニファイドメモリで足りるので、最近の Mac ならそのまま動きます。まず触ってみるのが早いです。

FIXIT

クラウドの API と比べて、何がうれしいの？

Tsumiki

データを外に出さずに済むことと、推論コストがマシン代に固定されることですね。

FIXIT

じゃあ、もう全部ローカルでいいの？

Tsumiki

高難度の推論はまだクラウドの上位モデルに分があります。向く仕事から任せるのが現実的ですね。

まず触ってみる — Ollama / LM Studio

手元で試すだけなら、Ollama なら 1 コマンドで始められます。

ollama run gemma4:12b

LM Studio を使う場合は、GUI のモデル検索から Gemma 4 12B を選んでダウンロードするだけです。スマートフォンやタブレットで試したい場合は、Google AI Edge Gallery アプリも用意されています。

コツ

公式モデルカードでは temperature 1.0、top_p 0.95、top_k 64 が推奨されています。出力が安定しないときは、まずこの推奨値に合わせてから調整すると比較がぶれません。

アプリに組み込む — LiteRT-LM / vLLM

ローカル実行をアプリへ組み込む経路として、Google は LiteRT-LM を案内しています。OpenAI 互換の API サーバとして動くため、既存の LLM クライアントコードは接続先を差し替えるだけで移行できます。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm
litert-lm serve

サーバサイドでまとまったトラフィックをさばくなら、vLLM や SGLang での配信が定番です。Hugging Face Transformers、llama.cpp、MLX といった主要フレームワークも公開初日から対応しています。

自社データに合わせる — LoRA / Unsloth

統一アーキテクチャの恩恵が最も出るのはファインチューニングです。従来のように凍結されたエンコーダを別建てで扱う必要がなく、テキスト・画像・音声をまたぐ学習を単一パスで回せます。軽量に始めるなら LoRA、効率を重視するなら Unsloth の利用が公式ドキュメントでも案内されています。

本番運用に載せる — Google Cloud

Vertex AI の Model Garden、Cloud Run、GKE と、Google Cloud 側のデプロイ経路も最初から整備されています。ローカルで検証したモデルをそのままクラウドの推論基盤へ載せ替えられるため、PoC から本番までの距離が短い点も採用しやすいところです。

クラウドモデルとの使い分け — ローカル LLM をどこに置くか

Gemma 4 12B が向くのは次のような場面です。

機密データや個人情報を外部 API に出せない処理 (オンプレミス・閉域環境での推論)
大量の定型処理で推論コストを固定したいバッチ的な用途
オフライン環境やエッジ端末での推論
音声・画像を入り口にしたオンデバイスのアシスタント機能

一方で、複雑な要件の設計判断や長時間のエージェント作業など、最高水準の推論品質が要る場面では、クラウドの上位モデルにまだ分があります。クラウド側の現在地は Claude Opus 4.8 とはで整理しています。

実務では「開発作業は Claude Code などのクラウドモデル、プロダクトに組み込む推論はオープンモデル」のような役割分担が現実的です。API 利用料の構造と削減手順は LLM コスト最適化で、機密データを扱う検索拡張の設計は RAG 構築の実践ガイドで詳しく扱っています。

まとめ — まず手元で動かしてから判断する

整理すると、Gemma 4 12B は「ノート PC で動くサイズに、マルチモーダル対応と 256K コンテキストとエージェント適性を詰め込んだオープンモデル」です。エンコーダを捨てた統一アーキテクチャと Apache 2.0 ライセンスが、その実用性を支えています。

幸い、試すコストはほぼかかりません。ollama run gemma4:12b で動かして、自社のユースケースに当てて評価する。この順番が遠回りに見えて確実です。評価の組み立て方は LLM 評価ハーネスの作り方にまとめています。

ローカル LLM やオープンモデルを組み込んだ AI エージェント・プロダクトの開発は AI エージェント開発で、AI ツールの導入・定着の支援は AI 開発ツール定着支援で承っています。個別のご相談はお問い合わせからどうぞ。

よくある質問

Q. Gemma 4 12B は商用利用できますか？: はい。Apache 2.0 ライセンスで公開されており、商用利用・改変・ファインチューニングした派生モデルの再配布まで認められています。モデルの重みは Hugging Face や Kaggle から無料で取得できます。プロダクトへ組み込む際は、念のため原文のライセンス条項もあわせて確認してください。
Q. どのくらいのスペックのマシンで動きますか？: 16GB の VRAM またはユニファイドメモリが目安です。Apple Silicon 搭載の Mac や、16GB クラスの GPU を積んだノート PC でローカル実行できます。コミュニティからは量子化版も多数公開されており、必要メモリをさらに抑える選択肢もあります。
Q. 日本語には対応していますか？: はい。公式モデルカードによると 140 以上の言語で学習されており、日本語を含む多言語の入出力に対応します。音声入力でも多言語の文字起こしと翻訳をサポートしています。
Q. Gemini と Gemma は何が違いますか？: Gemini は Google がクラウド API として提供する商用モデル群で、Gemma は重みが公開されたオープンモデルのファミリーです。Gemma は自社のマシンやインフラで動かせるため、機密データを外部に出せない用途や推論コストを固定したい用途に向きます。最高水準の推論品質が要る処理はクラウドの上位モデル、ローカルで完結させたい処理は Gemma、という使い分けが現実的です。
Q. Gemma 4 12B で画像生成はできますか？: いいえ。Gemma 4 12B は画像・音声・動画を入力として理解し、テキストで応答するモデルで、画像そのものを生成する用途には対応していません。画像生成が必要な場合は、Imagen など画像生成に特化したモデルと組み合わせて使い分けてください。
Q. GPU がなくても CPU だけで動かせますか？: llama.cpp などで量子化版を使えば CPU のみでも動作しますが、応答速度は実用域から外れやすくなります。快適に使うには 16GB クラスの GPU メモリ、または Apple Silicon のユニファイドメモリを推奨します。量子化の程度を上げると、必要メモリと速度のバランスを調整できます。
Q. Ollama での使い方を教えてください。: Ollama を導入済みなら ollama run gemma4:12b の 1 コマンドで対話を始められます。初回はモデルのダウンロードが走ります。OpenAI 互換 API として使う場合は ollama serve でサーバを起動し、既存クライアントの接続先を差し替えるだけで移行できます。

AI 開発ツールの組織定着をご相談ください

記事で扱ったツールをチームの標準にするまでの導入・運用設計を支援します。30 分でフィットするか判断できる無料相談から始めましょう。

30 分の無料相談を申し込む →発注ガイドの資料を無料ダウンロード

← Insights 一覧に戻る

Gemma 4 12B とは — 16GB メモリのノート PC で動くマルチモーダル AI の実力と使い方

はじめに — ノート PC で動くマルチモーダル AI が現実になった

ひと目でわかる Gemma 4 12B

何ができるのか — テキスト生成からエージェントまで

画像・音声・動画をひとつのモデルで扱う

256K トークンの長文コンテキスト

エージェント用途を見すえた設計

なぜすごいのか — エンコーダを捨てた統一アーキテクチャ

画像も音声も直接言語モデルに流し込む

ベンチマーク — 1 世代前の 27B を半分以下のサイズで上回る

Apache 2.0 ライセンスという扱いやすさ

16GB という現実的なライン

どう使うのがよいのか — 目的別の始め方

まず触ってみる — Ollama / LM Studio

アプリに組み込む — LiteRT-LM / vLLM

自社データに合わせる — LoRA / Unsloth

本番運用に載せる — Google Cloud

クラウドモデルとの使い分け — ローカル LLM をどこに置くか

まとめ — まず手元で動かしてから判断する

よくある質問

関連する Insights

2026 年度の AI 開発・DX 関連補助金まとめ｜IT 導入補助金の活用法

AI エージェント設計パターン入門 - 実務で使う 6 つの型

AI 開発ツールの組織定着をご相談ください

RECRUIT

CONTACT