请教大模型专业，恳请大佬回复

lbersl · 2024 年5 月 13 日 10:52

最近下载大模型，遇到很多后缀，比如qwen的大模型有以下后缀，请问都是些什么意思？
xxB-text
xxB-chat
xxB
q4
q5
K_M
K_S
K_L
fp16
_0
_1
有没有只针对文字的模型，因为我就想QWA，不搞图形、语音这些

baipiaodang · 2024 年5 月 13 日 11:18

github.com

QwenLM/Qwen/blob/main/README_CN.md

<p align="left">
    中文</a>&nbsp ｜ &nbsp<a href="README.md">English</a>&nbsp ｜ &nbsp<a href="README_JA.md">日本語</a> ｜ &nbsp<a href="README_FR.md">Français</a> ｜ &nbsp<a href="README_ES.md">Español</a>
</p>
<br><br>

<p align="center">
    <img src="https://qianwen-res.oss-cn-beijing.aliyuncs.com/logo_qwen.jpg" width="400"/>
<p>
<br>

<p align="center">
        🤗 <a href="https://huggingface.co/Qwen">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/organization/qwen">ModelScope</a>&nbsp&nbsp | &nbsp&nbsp 📑 <a href="https://arxiv.org/abs/2309.16609">Paper</a> &nbsp&nbsp ｜ &nbsp&nbsp🖥️ <a href="https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary">Demo</a>
<br>
<a href="assets/wechat.png">WeChat (微信)</a>&nbsp&nbsp | &nbsp&nbsp<a href="https://discord.gg/z3GAxXZ9Ce">Discord</a>&nbsp&nbsp ｜  &nbsp&nbsp<a href="https://dashscope.aliyun.com">API</a>&nbsp&nbsp | &nbsp&nbsp<a href="https://qianwen.aliyun.com">Web</a>&nbsp&nbsp | &nbsp&nbsp<a href="https://apps.apple.com/cn/app/%E9%80%9A%E4%B9%89%E5%8D%83%E9%97%AE/id6466733523">APP</a>
</p>
<br><br>

> [!Important]
> Qwen2已开，欢迎关注！看这里：[QwenLM/Qwen2](https://github.com/QwenLM/Qwen2)
>

此文件已被截断。显示原始文件

只看到这么点,咋显示成这样了

INNO · 2024 年5 月 13 日 11:20

多少B，就是多少参数
q指的是量化，比如4bit量化就是q4

命名方法遵循”q” +量化比特位+变种，如下基于Huggingface上TheBloke模型库列出了可行的量化方法和他们的使用例子。
q2_k:用Q4_k对attention.wv和feed_forward.w2量化，其他用Q2_K量化；
q3_k_l:用Q5_k对attention.wv、attention.wo和feed_forward.w2量化，其他用Q2_K量化；
q3_k_m:用Q4_k对attention.wv、attention.wo和feed_forward.w2量化，其他用Q2_K量化；
q3_k_s:用用Q3_K量化所有张量；
q4_0:原始4比特方法量化；
q4_l:准确度介于q4_0和q5_0之间，但是推理速度比q5模型快；
q4_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化，其他使用Q4_K量化
q4_k_s:使用Q4_K量化所有张量
q5_0:更高准确性，更高资源占用率，更慢的推理速度；
q5_1:相比q5_0，可能有更高准确性，更高资源占用率以及更慢的推理速度；
q5_k_m:使用Q6_K对attention.wv和feed_forward.w2张量的前一半量化，其他使用Q5_K量化
q5_k_s:使用Q5_K量化所有张量
q6_k_s:使用Q8_K量化所有张量
q8_0:几乎和半精度浮点float16一样，资源占用率和速度都很慢，对大多数用户是不推荐的；

fp16就是以fp16半精度加速推理

Chat · 2024 年5 月 13 日 11:22

chat 是聊天模型，不带chat是微调预训练。 fp代表量化模型，_0、_1没见过。

handsome · 2024 年5 月 13 日 11:23

花里胡哨的。。

zhong_little · 2024 年5 月 13 日 11:37

text/chat/code等，针对不同任务做了特别调整
M/S/L 很明显应该是中/小/大的缩写吧
fp16 模型权重采用半浮点精度

neo · 2024 年8 月 29 日 06:22

From #develop:ai to #share

话题		回复	浏览量
这几种模型的区别在哪儿？搞七捻三人工智能 , 快问快答 , 纯水	8	310	2024 年11 月 20 日
Llama3来了，用Linux Ollama线下部署你自己的大模型羊驼资源荟萃 Llama3 , 人工智能	61	4929	2024 年11 月 12 日
关于向量模型的请教搞七捻三人工智能 , 快问快答	6	304	2024 年12 月 11 日
大模型提示语，怎么禁止输出某些关键词呢开发调优人工智能 , 快问快答	19	235	2024 年12 月 18 日
你们使用哪个模型进行翻译？开发调优 AFF , 人工智能 , 沉浸式翻译 , 纯水	14	621	2024 年11 月 8 日

请教大模型专业，恳请大佬回复

相关话题