Transformers.js Chrome拡張機能：ブラウザでAIモデルを実行する方法

Hugging Faceは、Transformers.jsをChrome拡張機能内で動作させるための完全なガイドを公開した。これにより、AIモデルはブラウザ内で完全にローカルかつプライベートに、一切のAPIコールなしで実行できるようになった。

主なポイント

Transformers.jsはHugging FaceのJavaScriptライブラリで、WebAssemblyとWebGPUを使ってHugging Faceのモデルをブラウザ上で直接実行できる。
Transformers.jsを使ったChrome拡張機能はAI推論をローカルで実行できる。バックエンドサーバー不要、APIキー不要、生成ごとのコストもかからない。
セットアップではChrome拡張機能のService Workerを使ってモデルを一度だけ読み込み、ブラウザのタブ間で共有することでメモリのオーバーヘッドを削減する。
AIアート制作者にとって、これはブラウザネイティブのカスタムツール——プロンプトアシスタント、スタイルタガー、画像分類器など、オフラインで動作するツール——への扉を開く。
WebGPUアクセラレーションにより、モダンブラウザはクラウドへの往復なしに、軽量な生成・ビジョンモデルを実用的な速度で実行できる。

Hugging Faceが実際にリリースしたもの

Hugging Faceのブログ記事では、Service Worker内でTransformers.jsモデルを読み込む、完全に動作するChrome拡張機能の実装手順を解説している。Service Workerとは、Chrome拡張機能がタブをまたいだロジックに使う永続的なバックグラウンドスクリプトだ。モデルは一度だけ読み込まれてメモリ上に常駐し、毎回ウェイトを再読み込みすることなく、任意のタブやポップアップからのメッセージに応答する。このアーキテクチャは重要だ。従来のブラウザベースのAIデモは、ページ操作のたびにモデルを再読み込みすることが多く、実際には使い物にならないほど遅かった。

このガイドはエンドユーザーではなく開発者を対象としているが、実質的な成果物は、技術的な素養のあるクリエイターなら誰でも自分のブラウザネイティブAIツールを作るために活用できる設計図だ。

ブラウザ拡張機能でのローカル推論が見た目以上に重要な理由

今日クリエイターが使うAIツールのほとんどはクラウド依存だ。プロンプトを送信し、リモートサーバーがモデルを実行し、結果が返ってくる。このモデルは、プロバイダーが価格を変更したり、ダウンしたり、特定のコンテンツカテゴリを制限したりするまでは問題なく機能する。ローカル推論はそのすべてを回避できる。

Chrome拡張機能内でモデルを実行するということは、ウェイトがユーザーのマシン上に存在することを意味する。推論はブラウザの外に出ることはない。キャラクターのコンセプト、参照画像、プロンプトライブラリなど、サードパーティのサーバーに送りたくないデータを扱うクリエイターにとって、これは意味のあるプライバシーの向上だ。

また、推論ごとの追加コストがゼロになることも意味する。拡張機能をインストールしてモデルをキャッシュすれば、プロンプトの提案も、スタイルタグも、画像分類の呼び出しもすべて永続的に無料だ。

クリエイターが実際に作れるツールとは？

このアーキテクチャは、フル画像生成よりも軽量なアシスタントツールに適している（Stable Diffusionスケールのモデルを高速で動かすには、ブラウザのハードウェアはまだ追いついていない）。現実的な近い将来のユースケースとしては以下が挙げられる：

プロンプト強化サイドバー：下書きのプロンプトを分析し、任意の生成プラットフォームで入力中にスタイルキーワード、ライティングの記述子、構図の用語を提案する
画像タガー：アップロードした参照画像を読み取り、プロンプトに直接貼り付けられる構造化されたタグリストを返す
スタイル分類器：保存した画像の支配的な美的スタイルを識別する——キャラクターやシーンシリーズ全体の一貫性を保つのに役立つ
ネガティブプロンプトジェネレーター：下書きをスキャンし、特定のモデルファミリーでアーティファクトを生成しやすい用語にフラグを立てる

これらはいずれも強力なGPUを必要としない。Hugging Faceカタログの小型ビジョン言語モデルやテキストモデルは、モダンブラウザのWebGPU上で十分に動作する。JavaScriptに慣れているクリエイター、あるいはオープンソースAIコーディングモデルを使ってボイラープレートを生成する意欲のあるクリエイターなら、午後一杯で動作するプロトタイプを作れるだろう。

WebGPUという要因

Chrome 113以降で安定版となったChromeのWebGPU APIが、これを実用的なものにしている。ブラウザのJavaScriptにGPUコンピュートへの直接アクセスを与え、Transformers.jsはそれを行列演算の高速化に利用する。結果として、WebAssemblyのみのフォールバックよりも明らかに高速な推論が実現し、ミドルレンジのコンシューマーハードウェアでもリアルタイムのプロンプトアシスタンスが可能なほど速い。

ブラウザベースのAI推論は専用GPUワークステーションと比べるとまだ制約があるが、Charmloopのジェネレーターのようなプラットフォームでクリエイターの作業を効率化する小型のアシスタントモデルのカテゴリにとっては、パフォーマンスの上限は十分に実用的だ。

今後の注目点

次の論理的なステップは、このパターンをベースにした実際の拡張機能をコミュニティが公開することだ。Hugging Face Hubにはすでに、Transformers.jsと互換性のある数千もの小型ビジョン・言語モデルがホストされている。WebGPUのサポートがFirefoxとSafariにも広がるにつれ——両者ともに実装が進行中だ——ブラウザネイティブAIツールのリーチはさらに広がるだろう。今このスタックで構築することを学ぶクリエイターは、まだ存在しないツールのカテゴリで大きなアドバンテージを得ることになる。