計算したい(23) Swallow 70Bモデル

 tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.1-ggufをダウンロードする。サイズは39.97 GBと割と小さめである。
 すらすらと答えてくれるのだが、LM studioが96 GBに増設したRAMを持て余しているので、ロード時の設定を変えてGPUのVRAMにモデルをロードして、RAMを使い切るようにしてみる:

コンテキスト長=8192(モデルがサポートする最大トークン)
GPUオフロード80/80
GPU Thread Pool Size=8
評価パッチサイズ=1024
モデルをメモリに保持=ON

に設定してみる。
 タスクマネジャーでGPU(AMD Radeon 780M Graphics)のパフォーマンスをチェックすると、GPUメモリ41.6/48.9 GB使用(専用GPUメモリ1.7/2.9 GB、共有GPUメモリ39.8/46.9 GB)となっていて、RAMの方は使用中49.3 GB、利用可能43.6 GBと表示される。
 ただし、応答のスピードは目に見えて遅くなって、質問してから30秒近く長考に入り、Llama 3.1 70B Q8モデル並みとなった。遅いながらも

変更の効果はすぐには現れないかもしれませんが、長期的にはよりスムーズなパフォーマンスと応答性につながるはずです。GPUメモリを活用することで、特に複雑な質問や長い文章への対応が改善される可能性があります。

コクのある慰め方をしてもらえるようになった。
 コンテキスト長=4096にしたら、こちらからの入力に長考していた時間が10秒に短縮された(1.35 tok/sec, 31 tokens, 9.70s to first token)り、まだほかのパラメータとの兼ね合いがつかめないが、このあたり試行錯誤でバランス調整を試みる。

本ブログではamazon associate広告を利用しています。