老显卡能否战大语言模型
Meta-Llama-3.1-8B-Instruct
TITAN X Pascal x 2
10.89 token/s 占用显存16.8G
Meta-Llama-3.1-8B-Instruct-GPTQ-INT4
TITAN X Pascal
10.36 token/s 占用显存6.5G
如果跑Meta-Llama-3.1-8B-Instruct需要一张大显存显卡,如果跑量化版本Meta-Llama-3.1-8B-Instruct-GPTQ-INT4一般显存显卡也能跑。