请教大模型专业，恳请大佬回复

INNO · 2024 年5 月 13 日 11:20

多少B，就是多少参数
q指的是量化，比如4bit量化就是q4

命名方法遵循”q” +量化比特位+变种，如下基于Huggingface上TheBloke模型库列出了可行的量化方法和他们的使用例子。
q2_k:用Q4_k对attention.wv和feed_forward.w2量化，其他用Q2_K量化；
q3_k_l:用Q5_k对attention.wv、attention.wo和feed_forward.w2量化，其他用Q2_K量化；
q3_k_m:用Q4_k对attention.wv、attention.wo和feed_forward.w2量化，其他用Q2_K量化；
q3_k_s:用用Q3_K量化所有张量；
q4_0:原始4比特方法量化；
q4_l:准确度介于q4_0和q5_0之间，但是推理速度比q5模型快；
q4_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化，其他使用Q4_K量化
q4_k_s:使用Q4_K量化所有张量
q5_0:更高准确性，更高资源占用率，更慢的推理速度；
q5_1:相比q5_0，可能有更高准确性，更高资源占用率以及更慢的推理速度；
q5_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化，其他使用Q5_K量化
q5_k_s:使用Q5_K量化所有张量
q6_k_s:使用Q8_K量化所有张量
q8_0:几乎和半精度浮点float16一样，资源占用率和速度都很慢，对大多数用户是不推荐的；

fp16就是以fp16半精度加速推理

话题		回复	浏览量
这几种模型的区别在哪儿？搞七捻三人工智能 , 快问快答 , 纯水	8	309	2024 年11 月 20 日
Llama3来了，用Linux Ollama线下部署你自己的大模型羊驼资源荟萃 Llama3 , 人工智能	61	4929	2024 年11 月 12 日
关于向量模型的请教搞七捻三人工智能 , 快问快答	6	304	2024 年12 月 11 日
大模型提示语，怎么禁止输出某些关键词呢开发调优人工智能 , 快问快答	19	234	2024 年12 月 18 日
你们使用哪个模型进行翻译？开发调优 AFF , 人工智能 , 沉浸式翻译 , 纯水	14	621	2024 年11 月 8 日

请教大模型专业，恳请大佬回复

相关话题