出典
- Hugging Face Blog

Hugging Faceは、Transformers.jsをChrome拡張機能内で動作させるための完全なガイドを公開した。これにより、AIモデルはブラウザ内で完全にローカルかつプライベートに、一切のAPIコールなしで実行できるようになった。
Hugging Faceのブログ記事では、Service Worker内でTransformers.jsモデルを読み込む、完全に動作するChrome拡張機能の実装手順を解説している。Service Workerとは、Chrome拡張機能がタブをまたいだロジックに使う永続的なバックグラウンドスクリプトだ。モデルは一度だけ読み込まれてメモリ上に常駐し、毎回ウェイトを再読み込みすることなく、任意のタブやポップアップからのメッセージに応答する。このアーキテクチャは重要だ。従来のブラウザベースのAIデモは、ページ操作のたびにモデルを再読み込みすることが多く、実際には使い物にならないほど遅かった。
このガイドはエンドユーザーではなく開発者を対象としているが、実質的な成果物は、技術的な素養のあるクリエイターなら誰でも自分のブラウザネイティブAIツールを作るために活用できる設計図だ。
今日クリエイターが使うAIツールのほとんどはクラウド依存だ。プロンプトを送信し、リモートサーバーがモデルを実行し、結果が返ってくる。このモデルは、プロバイダーが価格を変更したり、ダウンしたり、特定のコンテンツカテゴリを制限したりするまでは問題なく機能する。ローカル推論はそのすべてを回避できる。
Chrome拡張機能内でモデルを実行するということは、ウェイトがユーザーのマシン上に存在することを意味する。推論はブラウザの外に出ることはない。キャラクターのコンセプト、参照画像、プロンプトライブラリなど、サードパーティのサーバーに送りたくないデータを扱うクリエイターにとって、これは意味のあるプライバシーの向上だ。
また、推論ごとの追加コストがゼロになることも意味する。拡張機能をインストールしてモデルをキャッシュすれば、プロンプトの提案も、スタイルタグも、画像分類の呼び出しもすべて永続的に無料だ。
このアーキテクチャは、フル画像生成よりも軽量なアシスタントツールに適している(Stable Diffusionスケールのモデルを高速で動かすには、ブラウザのハードウェアはまだ追いついていない)。現実的な近い将来のユースケースとしては以下が挙げられる:
これらはいずれも強力なGPUを必要としない。Hugging Faceカタログの小型ビジョン言語モデルやテキストモデルは、モダンブラウザのWebGPU上で十分に動作する。JavaScriptに慣れているクリエイター、あるいはオープンソースAIコーディングモデルを使ってボイラープレートを生成する意欲のあるクリエイターなら、午後一杯で動作するプロトタイプを作れるだろう。
Chrome 113以降で安定版となったChromeのWebGPU APIが、これを実用的なものにしている。ブラウザのJavaScriptにGPUコンピュートへの直接アクセスを与え、Transformers.jsはそれを行列演算の高速化に利用する。結果として、WebAssemblyのみのフォールバックよりも明らかに高速な推論が実現し、ミドルレンジのコンシューマーハードウェアでもリアルタイムのプロンプトアシスタンスが可能なほど速い。
ブラウザベースのAI推論は専用GPUワークステーションと比べるとまだ制約があるが、Charmloopのジェネレーターのようなプラットフォームでクリエイターの作業を効率化する小型のアシスタントモデルのカテゴリにとっては、パフォーマンスの上限は十分に実用的だ。
次の論理的なステップは、このパターンをベースにした実際の拡張機能をコミュニティが公開することだ。Hugging Face Hubにはすでに、Transformers.jsと互換性のある数千もの小型ビジョン・言語モデルがホストされている。WebGPUのサポートがFirefoxとSafariにも広がるにつれ——両者ともに実装が進行中だ——ブラウザネイティブAIツールのリーチはさらに広がるだろう。今このスタックで構築することを学ぶクリエイターは、まだ存在しないツールのカテゴリで大きなアドバンテージを得ることになる。