有佬会玩大模型本地做应用的吗,能指导一下路线和教程吗,最近看的有点乱,都不知道方向了
我也蹲一个,求佬们指点
同蹲一个~~~
不知道我有没有资格答… 这论坛上大佬云集我也不太敢大声说话…
写了个跟本地可断网运行的LLM语音对话+Live2D数字人+长期记忆的程序,就是个开源neuro-sama,叫 Open-LLM-VTuber。到现在差不多600多个star了,不过目前问题还很多…
我其实觉得大模型他… 没有很难… 这说白了就是用程序跟LLM聊天嘛。知道什么是系统提示词,知道LLM的记忆就是一个List,直接从OpenAI的sdk入手就好了。想做什么就直接做,剩下的东西需要再去看。
框架,比如langchain,llamaindex之类的,我个人建议是入门时先别碰,以后有需要再去看。它们的学习成本比直接用sdk要高非常多,这些框架喷的人多是有原因的…
剩下就是要做什么看什么了吧。大模型其实就是个喷字的东西,我们能玩的花无非就是在边上做点逻辑耍耍宝。
你如果发现你需要让AI使用工具,比如发送什么api请求或做网络搜索,可以看看function calling (简单来说就是告诉AI你有一个炫酷的函数可以用,AI想用的时候就大喊关键字 “函数A!!”,然后支持的LLM后端就会暂时停下来,找你要函数运行的结果,你的程序逻辑运行完函数后把结果丢回去,LLM后端把结果塞到暂停的地方,然后继续喷字)。如果要加载文档就去看RAG,如果你觉得让多个AI互相合作自己规划解决问题可以去看看crewAI和类似的框架。
后端可以用huggingface的transformer库自动load模型,追求极致性能和体积用llama.cpp
前端可以vue搓一个,或者gradio快速搭建demo
基础模型有chatGLM系列,千问系列,Yi系列等等,本地应用主要还是需要微调吧(?
进阶一点的比如说三段式的VTuber(ASR + LLM + TTS),RAG以及LLM和Stable Diffusion那些联动
再高阶的有端到端多模态(输入语音 + 文字,输出改变音色后的语音 + 文字,这个我也不懂 ),CoT等等
b站应该有教程
瞎掰的:贡献算力?
给llm写各种tool
本地的话,就ollama就很方便了,转换成gguf