最近下载大模型,遇到很多后缀,比如qwen的大模型有以下后缀,请问都是些什么意思?
xxB-text
xxB-chat
xxB
q4
q5
K_M
K_S
K_L
fp16
_0
_1
有没有只针对文字的模型,因为我就想QWA,不搞图形、语音这些
只看到这么点,咋显示成这样了
多少B,就是多少参数
q指的是量化,比如4bit量化就是q4
命名方法遵循”q” +量化比特位+变种,如下基于Huggingface上TheBloke模型库列出了可行的量化方法和他们的使用例子。
q2_k:用Q4_k对attention.wv和feed_forward.w2量化,其他用Q2_K量化;
q3_k_l:用Q5_k对attention.wv、attention.wo和feed_forward.w2量化,其他用Q2_K量化;
q3_k_m:用Q4_k对attention.wv、attention.wo和feed_forward.w2量化,其他用Q2_K量化;
q3_k_s:用用Q3_K量化所有张量;
q4_0:原始4比特方法量化;
q4_l:准确度介于q4_0和q5_0之间,但是推理速度比q5模型快;
q4_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化,其他使用Q4_K量化
q4_k_s:使用Q4_K量化所有张量
q5_0:更高准确性,更高资源占用率,更慢的推理速度;
q5_1:相比q5_0,可能有更高准确性,更高资源占用率以及更慢的推理速度;
q5_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化,其他使用Q5_K量化
q5_k_s:使用Q5_K量化所有张量
q6_k_s:使用Q8_K量化所有张量
q8_0:几乎和半精度浮点float16一样,资源占用率和速度都很慢,对大多数用户是不推荐的;
fp16就是以fp16半精度加速推理
chat 是聊天模型,不带chat是微调预训练。 fp代表量化模型,_0、_1没见过。
花里胡哨的。。
text/chat/code等,针对不同任务做了特别调整
M/S/L 很明显应该是中/小/大的缩写吧
fp16 模型权重采用半浮点精度
From #develop:ai to #share