Google、メモリ1GB未満で品質劣化少ないGemma 4が動くQATモデル無償提供
2026年6月8日 11:21
🤖 AI Summary
Google DeepMindは6月5日に、大規模言語モデル「Gemma 4」のメモリ要件を削減しつつ性能を最大化するため、「QAT(Quantization-Aware Training)」最適化チェックポイントを公開しました。これはHugging Faceなどから無料で利用可能です。
QATはモデルのトレーニング中に量子化をシミュレートして統合することで、一般的なPTQよりも高い品質を実現します。これにより、メモリ要件が大幅に削減され、エッジデバイスやコンシューマ向けGPUでローカルモデルを実行することが可能になりました。
また、Googleはエッジモデル「E2B」および「E4B」に対応する独自のモバイル量子化スキームを開発。データのスケーリング設定を事前計算したり、チャネルごとの量子化や高精度層の維持などにより効率的な動作が実現されています。
特に、「Gemma 4 E2B」はテキスト専用モデルであり、メモリ使用量が1GB未満に抑えられています。
QATはモデルのトレーニング中に量子化をシミュレートして統合することで、一般的なPTQよりも高い品質を実現します。これにより、メモリ要件が大幅に削減され、エッジデバイスやコンシューマ向けGPUでローカルモデルを実行することが可能になりました。
また、Googleはエッジモデル「E2B」および「E4B」に対応する独自のモバイル量子化スキームを開発。データのスケーリング設定を事前計算したり、チャネルごとの量子化や高精度層の維持などにより効率的な動作が実現されています。
特に、「Gemma 4 E2B」はテキスト専用モデルであり、メモリ使用量が1GB未満に抑えられています。