スマホでも213tok/sの爆速推論を実現するモデル「LFM2.5-230M」無料公開
2026年6月26日 18:48
🤖 AI Summary
Liquid AIは6月25日、同社最小のエージェントAIモデル「LFM2.5-230M」を公開しました。このモデルはツール呼び出しやデータ抽出などの軽量なエージェント用途に特化しています。パラメータ数は230兆で、Hugging Faceからダウンロード可能です。
編集部のテストでは、CPUでの4ビット量子化を適用した場合、スマートフォン「Galaxy S25 Ultra」では213tok/s、シングルボードコンピュータ「Raspberry Pi 5」では42tok/sという高速推論が確認されました。
このモデルは、LFM2.5-350Mからの蒸留による教師あり微調整、直接的な選好最適化、マルチドメイン強化学習の段階を経て作られました。液滴AIは、知識や指示追従、データ抽出などのタスクにおいて、同程度またはより大きなモデルと競合する性能があるとしています。
H100 GPUを使用した場合のレイテンシについては明記されていませんが、スマートフォンでの高速推論を可能にしている点が特徴です。
編集部のテストでは、CPUでの4ビット量子化を適用した場合、スマートフォン「Galaxy S25 Ultra」では213tok/s、シングルボードコンピュータ「Raspberry Pi 5」では42tok/sという高速推論が確認されました。
このモデルは、LFM2.5-350Mからの蒸留による教師あり微調整、直接的な選好最適化、マルチドメイン強化学習の段階を経て作られました。液滴AIは、知識や指示追従、データ抽出などのタスクにおいて、同程度またはより大きなモデルと競合する性能があるとしています。
H100 GPUを使用した場合のレイテンシについては明記されていませんが、スマートフォンでの高速推論を可能にしている点が特徴です。