計算したい(6)あのお説教でベンチマークしてみると


 LM Studioを手持ちのWindows PCにインストールし、Meta Llama 3 Instruct 7B Q4_K_M.ggufを使って、小児虐待への対策を聞いてみた。回答の書き出しは昨年Llama 2で7Bモデルを試したときとそっくり同じで、表記に揺れはあるものの、様々な視点からのアプローチを10項目にまとめて総論するという基本的な構成やトークン数は同一のものといってよいくらい似かよっていた。
 回答の生成時間(generation time)を比較してみたら、いろいろ考えさせられる結果となった。
 90.04 s:MINISFORUM X400 (Ryzen 7 PRO 4750G with Radeon Graphics 3.60 GHz, RAM 16.0 GB, Windows 11 PRO 23H2)
 222.59 s:ONEXPlayer (Ryzen 7 5800U with Radeon Graphics 1.90 GHz, RAM 16.0 GB, Windows 11 PRO 23H2)
 1276.25 s:Panasonic Let's Note (Core i5-7200U CPU @ 2.50 GHz, RAM 8 GB, Windows 11 PRO 23H2)
 2937.05 s:Mac mini (M1 2020, RAM 8 GB, macOS Sonoma 14.5)
 6825.73 s:Llama2 7Bモデル参考記録 at Mac mini (M1 2020, RAM 8 GB)
 Apple Siliconプロセッサ劣勢のようにも見えるので、ぜひM2プロセッサ搭載のMBAで挽回させてほしいとCEOに頼んでいるが聞こえないふりをされている。
 後日記(2024-06-03)>LM StudioでMeta-Llama-3のモデルを探してみると、8Bの上に70B,120Bとあって、数字だけで見ると9倍、25倍鍛えられていると考えられる。しかしLM Studioによれば、これらの中で「イケる」のは8Bモデルの5種類のみで、そのうちの2つがFull GPU offload possible、3つがPartial GPU offload possibleにとどまる。せめて70Bモデルを使ってみたいものであるが、サイズは現在の8Bモデルの3倍から8倍になって、Likely too large for this computerと却下されてしまう。この世界の先達の西川氏は「VRAM 24GB、メモリ32GBが最低ライン(つまり超ハイエンドPC)となることをあらかじめご了承頂きたい。ここでは前回記事にした、Core i9-12900(64GB/1TB+1TB)+OCuLink接続GeForce RTX 3090」を使っておられるとのこと。
 後日記(2024-06-27)>ONEXPlayerにWindows 11クリーンインストールできたところで、LM StudioをAMD software Adrenalin edition にゲームソフトとして登録し、パフォーマンス優先のチューニングを施したら…
 75.95 s:ONEXPlayer (Ryzen 7 5800U with Radeon Graphics 1.90 GHz, RAM 16.0 GB, Windows 11 PRO 23H2)

本ブログではamazon associate広告を利用しています。