はじめに — ノート PC で動くマルチモーダル AI が現実になった

2026 年 6 月 3 日 (米国時間)、Google が新しいオープンモデル Gemma 4 12B を発表しました。画像・音声・動画まで扱えるマルチモーダルモデルでありながら、16GB のメモリを積んだノート PC でローカル実行できるサイズに収まっている点が特徴です。

ここ数年、「高性能な AI はクラウドの巨大モデルを API で呼ぶもの」という前提が業界の標準でした。Gemma 4 12B は、その前提を「手元のマシンでもここまで動く」方向へ一歩進めたモデルです。AI 駆動開発のクリエイティブスタジオである FIXIT でも、プロダクトに組み込む推論基盤の選択肢として発表直後から動向を追っています。

本記事では、Gemma 4 12B に何ができるのか、なぜ注目に値するのか、そしてどう使い始めるのがよいのかを整理します。一次情報は Google 公式ブログの発表開発者向けガイドHugging Face のモデルカード で、本記事の数値はこれらの公開情報に基づきます。

ひと目でわかる Gemma 4 12B

まずは全体像です。

項目内容
開発元Google (Google DeepMind)
発表日2026 年 6 月 3 日 (米国時間)
パラメータ数約 12B (dense 構成)
入力モダリティテキスト・画像・音声・動画
コンテキスト長入力 256K トークン
対応言語140 以上の言語で学習、日本語を含む多言語に対応
動作要件の目安16GB の VRAM またはユニファイドメモリ
ライセンスApache 2.0
入手先Hugging Face・Kaggle (Ollama・LM Studio からも可)

Gemma 4 ファミリーには、スマートフォンなどのエッジ端末向けの E2B / E4B と、ハイエンド向けの 26B (MoE 構成)・31B が先行して存在します。12B はその中間、「開発者が普段使いするノート PC」を狙ったポジションです。

何ができるのか — テキスト生成からエージェントまで

画像・音声・動画をひとつのモデルで扱う

Gemma 4 12B は、テキストの読み書きに加えて、画像・音声・動画の入力をモデル単体で受け付けます。モデルカードによると、音声は最大 30 秒、動画は毎秒 1 フレームで最大 60 秒まで入力でき、音声の文字起こしや多言語の音声翻訳もこなします。中型サイズのモデルとしては初めて、音声をネイティブ入力として扱える点も発表で強調されました。

スクリーンショットを読ませて UI の文言を直す、会議音声の要点を書き起こす、製品写真から説明文を起こす。こうした処理を、データを 1 バイトも外部に送らずに手元のマシンで完結させる構成が現実的になります。

256K トークンの長文コンテキスト

入力コンテキストは 256K トークンまで広がっています。リポジトリのコード一式や長い議事録、複数のドキュメントをまとめて渡すような使い方が、ローカル環境でも視野に入るサイズです。

エージェント用途を見すえた設計

マルチステップの推論やツール呼び出しを前提にした調整が入っており、あわせてエージェント開発向けのスキル集「Gemma Skills」リポジトリも公開されました。公開されたモデルは次の 3 種類です。

  • gemma-4-12B — ファインチューニングの起点になるベースモデル
  • gemma-4-12B-it — 対話向けに調整された instruction-tuned 版
  • gemma-4-12B-it-assistant — 投機的デコードで応答を高速化するためのドラフトモデル

3 つ目のドラフトモデルは Multi-Token Prediction (MTP) という仕組みの実装で、本体モデルと組み合わせるとローカル推論のレイテンシを下げられます。「ローカルで動くだけ」ではなく「ローカルで速く動かす」ための部品まで、公式がひととおり揃えています。

なぜすごいのか — エンコーダを捨てた統一アーキテクチャ

画像も音声も直接言語モデルに流し込む

これまでのマルチモーダルモデルは、画像にはビジョンエンコーダ、音声には音声エンコーダと、モダリティごとに専用の変換器を前段に置くのが定石でした。先行する Gemma 4 の E2B / E4B もこの構成です。

Gemma 4 12B はここを設計から変えました。画像は約 35M パラメータの軽量な埋め込みモジュールでパッチを直接投影し、音声は 16kHz の波形を 40 ミリ秒ごとのフレームに切って、線形変換でそのまま言語モデルの入力空間へ流し込みます。数億パラメータ規模のエンコーダを足す代わりに、言語モデル本体がモダリティをまとめて引き受ける構成です。

flowchart TB
  subgraph before["従来のマルチモーダル構成"]
    I1["画像"] --> E1["ビジョンエンコーダ<br/>(数億パラメータ)"]
    A1["音声"] --> E2["音声エンコーダ<br/>(数億パラメータ)"]
    E1 --> L1["言語モデル"]
    E2 --> L1
  end
  subgraph unified["Gemma 4 12B の統一アーキテクチャ"]
    I2["画像"] --> P1["軽量埋め込み<br/>(約 35M)"]
    A2["音声 (16kHz 波形)"] --> P2["線形投影"]
    P1 --> L2["言語モデルが直接処理"]
    P2 --> L2
  end

この設計の利点は 3 つあります。エンコーダ分のメモリが浮くこと、エンコード処理が消えてレイテンシが下がること、そしてファインチューニング時にテキスト・画像・音声を同じ重みで一度に更新できることです。

ベンチマーク — 1 世代前の 27B を半分以下のサイズで上回る

公式モデルカードが公開しているスコアを、ファミリー内の他モデルと並べます。

ベンチマークGemma 4 12BGemma 4 E4BGemma 4 31BGemma 3 27B
MMLU Pro (知識・推論)77.269.485.267.6
AIME 2026 (数学、ツールなし)77.542.589.220.8
LiveCodeBench v6 (コード生成)72.052.080.029.1
GPQA Diamond (科学系の難問)78.858.684.342.4
MMMU Pro (画像理解)69.152.676.949.7
MATH-Vision (図版つき数学)79.759.585.646.0

読み方はシンプルです。1 世代前の Gemma 3 27B を半分以下のサイズで全項目で上回り、最上位の 31B にも一定の距離まで迫っています。さらに公式は、表にない兄弟モデルの 26B (MoE 構成) と比べても「近い性能を半分未満のメモリフットプリントで実現した」と説明しており、サイズあたりの性能効率がこのモデルの売りです。

補足

ベンチマークの数値は公開時点の公式モデルカードに基づきます。実務での体感は量子化の程度やタスクの種類で変わるため、採用判断では自社ユースケースでの評価をあわせて行ってください。

Apache 2.0 ライセンスという扱いやすさ

Gemma 4 12B は Apache 2.0 ライセンスで公開されています。商用利用、改変、ファインチューニングした派生モデルの再配布まで広く認められる、企業利用と相性のよいライセンスです。自社プロダクトへの組み込みも、クライアントワークでの提案にも載せやすくなりました。

16GB という現実的なライン

動作要件の目安は 16GB の VRAM またはユニファイドメモリです。Apple Silicon 搭載の Mac や 16GB クラスの GPU を積んだノート PC、つまり「開発者がいま使っているマシン」がそのまま実行環境になります。専用サーバを調達せずに PoC を始められることは、検証のスピードに直結します。

どう使うのがよいのか — 目的別の始め方

FIXITFIXIT

こういうのって、結局 GPU マシンがないと試せないんじゃないの?

TsumikiTsumiki

16GB のユニファイドメモリで足りるので、最近の Mac ならそのまま動きます。まず触ってみるのが早いです。

FIXITFIXIT
クラウドの API と比べて、何がうれしいの?
TsumikiTsumiki

データを外に出さずに済むことと、推論コストがマシン代に固定されることですね。

FIXITFIXIT
じゃあ、もう全部ローカルでいいの?
TsumikiTsumiki

高難度の推論はまだクラウドの上位モデルに分があります。向く仕事から任せるのが現実的ですね。

まず触ってみる — Ollama / LM Studio

手元で試すだけなら、Ollama なら 1 コマンドで始められます。

ollama run gemma4:12b

LM Studio を使う場合は、GUI のモデル検索から Gemma 4 12B を選んでダウンロードするだけです。スマートフォンやタブレットで試したい場合は、Google AI Edge Gallery アプリも用意されています。

コツ

公式モデルカードでは temperature 1.0、top_p 0.95、top_k 64 が推奨されています。出力が安定しないときは、まずこの推奨値に合わせてから調整すると比較がぶれません。

アプリに組み込む — LiteRT-LM / vLLM

ローカル実行をアプリへ組み込む経路として、Google は LiteRT-LM を案内しています。OpenAI 互換の API サーバとして動くため、既存の LLM クライアントコードは接続先を差し替えるだけで移行できます。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm
litert-lm serve

サーバサイドでまとまったトラフィックをさばくなら、vLLM や SGLang での配信が定番です。Hugging Face Transformers、llama.cpp、MLX といった主要フレームワークも公開初日から対応しています。

自社データに合わせる — LoRA / Unsloth

統一アーキテクチャの恩恵が最も出るのはファインチューニングです。従来のように凍結されたエンコーダを別建てで扱う必要がなく、テキスト・画像・音声をまたぐ学習を単一パスで回せます。軽量に始めるなら LoRA、効率を重視するなら Unsloth の利用が公式ドキュメントでも案内されています。

本番運用に載せる — Google Cloud

Vertex AI の Model Garden、Cloud Run、GKE と、Google Cloud 側のデプロイ経路も最初から整備されています。ローカルで検証したモデルをそのままクラウドの推論基盤へ載せ替えられるため、PoC から本番までの距離が短い点も採用しやすいところです。

クラウドモデルとの使い分け — ローカル LLM をどこに置くか

Gemma 4 12B が向くのは次のような場面です。

  • 機密データや個人情報を外部 API に出せない処理 (オンプレミス・閉域環境での推論)
  • 大量の定型処理で推論コストを固定したいバッチ的な用途
  • オフライン環境やエッジ端末での推論
  • 音声・画像を入り口にしたオンデバイスのアシスタント機能

一方で、複雑な要件の設計判断や長時間のエージェント作業など、最高水準の推論品質が要る場面では、クラウドの上位モデルにまだ分があります。クラウド側の現在地は Claude Opus 4.8 とは で整理しています。

実務では「開発作業は Claude Code などのクラウドモデル、プロダクトに組み込む推論はオープンモデル」のような役割分担が現実的です。API 利用料の構造と削減手順は LLM コスト最適化 で、機密データを扱う検索拡張の設計は RAG 構築の実践ガイド で詳しく扱っています。

まとめ — まず手元で動かしてから判断する

整理すると、Gemma 4 12B は「ノート PC で動くサイズに、マルチモーダル対応と 256K コンテキストとエージェント適性を詰め込んだオープンモデル」です。エンコーダを捨てた統一アーキテクチャと Apache 2.0 ライセンスが、その実用性を支えています。

幸い、試すコストはほぼかかりません。ollama run gemma4:12b で動かして、自社のユースケースに当てて評価する。この順番が遠回りに見えて確実です。評価の組み立て方は LLM 評価ハーネスの作り方 にまとめています。

ローカル LLM やオープンモデルを組み込んだ AI エージェント・プロダクトの開発は AI エージェント開発 で、AI ツールの導入・定着の支援は AI 開発ツール定着支援 で承っています。個別のご相談は お問い合わせ からどうぞ。