多少B,就是多少参数
q指的是量化,比如4bit量化就是q4
命名方法遵循”q” +量化比特位+变种,如下基于Huggingface上TheBloke模型库列出了可行的量化方法和他们的使用例子。
q2_k:用Q4_k对attention.wv和feed_forward.w2量化,其他用Q2_K量化;
q3_k_l:用Q5_k对attention.wv、attention.wo和feed_forward.w2量化,其他用Q2_K量化;
q3_k_m:用Q4_k对attention.wv、attention.wo和feed_forward.w2量化,其他用Q2_K量化;
q3_k_s:用用Q3_K量化所有张量;
q4_0:原始4比特方法量化;
q4_l:准确度介于q4_0和q5_0之间,但是推理速度比q5模型快;
q4_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化,其他使用Q4_K量化
q4_k_s:使用Q4_K量化所有张量
q5_0:更高准确性,更高资源占用率,更慢的推理速度;
q5_1:相比q5_0,可能有更高准确性,更高资源占用率以及更慢的推理速度;
q5_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化,其他使用Q5_K量化
q5_k_s:使用Q5_K量化所有张量
q6_k_s:使用Q8_K量化所有张量
q8_0:几乎和半精度浮点float16一样,资源占用率和速度都很慢,对大多数用户是不推荐的;
fp16就是以fp16半精度加速推理