佬友们知道用什么样的本地大模型比较能符合需求吗?
要求就是本地电脑上装一个本地的大语言模型,然后给它灌Spec,Story这些,以及我们写过的test case,让它写出和我们相似的手工测试Case,或者对它说一些项目内的东西,让它能解答出来,然后其它人可以通过局域网使用到这个模型。
ollama,qwen,deepseek
这个需求应该算是个RAG的应用,可以用fastgpt来做知识库,ollama和qwen做本地的模型
蹲一个后续,这类需求实用。
找个开源项目部署一下就好了
服务器弄个环境,两种通用方式
1、llama.cpp直接启动
2、vllm加速
然后装dify、maxkb、fastgpt这类,配置agent,把模型接进去
写代码的话模型推荐Qwen-Coder-32B(32G+显存),Deepseek-coder-33b(40G显存)
显存估算是基于你不做量化的标准给你的,如果没那么多预算购入显卡,那么就选14b、7b的,只是准确度会大幅下降,这可以通过RAG应用来适当补全一些,不过无法完全弥补模型量级上的差距
没有代码需求,单出就是输出test case以及一些项目上的问答
开源项目找了好几个,不知道哪个更符合需求一些
那Qwen一般的都可以,我司用7b做了个数字人,回答点简单问题没难度
用dify,fastgpt做一个前端 ,然后olloma本地跑一个大模型即可。非常容易上手
可以看看我写的
写的不错,催更催更
先看看显卡配置
为下一步降本增效工作打下了坚实的基础。
进一步保证了开发队伍精干高效。
fastgpt应该可以满足了
ollama+ChatGPT-Next-Web
这两个都有Windows版,直接无脑安装,ollama用命令行还可以直接下模型,更是省心
而且装了ollama还可以做服务端,客户端只用装ChatGPT-Next-Web就行,地址填ollama的地址,整个局域网都可以使用
RTX3500 ADA 12GB
内存64GB
学习样例,仿写 test case 这个功能应该要微调。
这个就可以用RAG。qwen上这个文档把RAG原理写的蛮透:使用Qwen-Agent将上下文记忆扩展到百万量级 | Qwen
没有量化模型的话,你的这个配置可以用qwen2.5-14b