Googleは、人工知能システムのメモリ需要を低減できる可能性のある圧縮アルゴリズム「TurboQuant」を発表しました。TurboQuantの圧縮技術は、大規模言語モデルやベクトル検索エンジンのメモリ使用量を削減することを目的としています。このアルゴリズムは、AIシステム内で高頻度アクセス情報を保存するためのキー値キャッシュ(key-value cache)のボトルネック問題に主に対応しています。コンテキストウィンドウが拡大するにつれて、これらのキャッシュは主要なメモリのボトルネックとなっています。TurboQuantは、モデルの再訓練や微調整を行うことなく、キー値キャッシュを3ビット精度に圧縮しつつ、モデルの精度をほぼ維持することが可能です。Gemmaなどのオープンソースモデルを用いたテストでは、この技術により約6倍のキー値キャッシュのメモリ圧縮効果が得られることが示されています。(財聯社)
Googleが圧縮アルゴリズムTurboQuantをリリース、約6倍のメモリ削減を実現したと発表
Googleは、人工知能システムのメモリ需要を低減できる可能性のある圧縮アルゴリズム「TurboQuant」を発表しました。TurboQuantの圧縮技術は、大規模言語モデルやベクトル検索エンジンのメモリ使用量を削減することを目的としています。このアルゴリズムは、AIシステム内で高頻度アクセス情報を保存するためのキー値キャッシュ(key-value cache)のボトルネック問題に主に対応しています。コンテキストウィンドウが拡大するにつれて、これらのキャッシュは主要なメモリのボトルネックとなっています。TurboQuantは、モデルの再訓練や微調整を行うことなく、キー値キャッシュを3ビット精度に圧縮しつつ、モデルの精度をほぼ維持することが可能です。Gemmaなどのオープンソースモデルを用いたテストでは、この技術により約6倍のキー値キャッシュのメモリ圧縮効果が得られることが示されています。(財聯社)