佬友们,我主职java,但领导要求搞模型,要从哪学起啊?(已解决)

其实工作中大部分都是基于开源的模型或者算法做的,主要还是会用会训 不过没人带确实难受

1 个赞

太强了,这也能看出来,领导确实不懂技术

调开源模型就够了

1 个赞

都调用api罢了。 搞清楚老板想要干什么就行。 你要有个概念,是想自己跑大模型(为什么要自己跑模型,有没有足够的钱用来跑),还是买模型自己做微调(搞行业预料库,弄弄助手啥的?)。 最后想要做出什么东西来? 这样才能搞清楚你到底是要做什么, 如果是前者,那你可能作为牵头人,拉一群搞大模型的一期做。后者,那就是个简单的ai in work的探索项目,看ai结合后能否做出更好的项目或者辅助工作

1 个赞

调用api 不用在乎语言, 都一样。

1 个赞

API工程师而已,别想得太高大上,高大上的你公司也没实力干

1 个赞

无他,唯眼熟尔。
这种领导只能劝你当心。 搞不好你费心费力弄个东西,丫觉得一般般甚至还觉得你能力不行难堪大用

1 个赞

通用模型公司数据中心已经做好了,现在是要我们弄一个小模型适配部门的业务,然后整合公司的通用模型让功能更全面,然后我就知道模型分大小,其他的我也不懂啊 :disappointed_relieved:

先学python 然后看看 和 yolo这方面
我还发了训练环境的教程可以看看 :tieba_025:

1 个赞

我们有专职搞AI的,说实话大部分时间都是在调用现成的大模型或者API,联模型微调都不做,单位没有那么高级的GPU算力设备,训练素材也没有,调用一下现成的开源模型基本够用了。

1 个赞

可以先把python语言简单看一下,然后再熟悉下tranformer,大模型底层的embedding都是基于这个的,然后再看看大模型微调,差不多这些。推荐一个非常好的github资源

3 个赞

差不多, 领导小嘴一张就让人去搞大模型,
基础设施实际工作上就是玩各种开源模型, 以及按照各家提供的example实践一下微调之类的,

应用层面就是调用各种大模型, 组装Agent
这块工作非常抽象 , 一个工作场景你做到70~80%的效果非常容易, 想做到90~95%都很困难, 绝大多数的应用都只是一个玩具
如果你自己对这方面不感兴趣建议别深入, 建议等待科技进步, 等待OpenAI 变强

1 个赞

可以的,那正好学一学,然后弄个70~80%的出来练练手

确实,调用api差不多得了,又不是大公司,哪来的能力搞大模型

1 个赞

那就是调用公司训练的模型的api ,其他的没必要,直接找他们要api文档,然后自己做个demo, 调用api喂喂 数据啥的。比如做个 业务相关的问答机器人啥的。或者嵌入自己的业务系统,比如一些复杂的规则计算文案解释啥的都可以尝试结合ai。

2 个赞

我倒是想遇到这种需求,java开发搞烦了,转行去大模型也不错

1 个赞

模型相关具体是指哪些方面?训练模型还是使用模型
模型是指 llm 还是其他模型

1 个赞

只知道公司的通用模型是和华为合作研发的,里面有盘古模型,但是我不清楚这是不是llm

语言Python就可以了,我了解的公司已经没人用R了……

如果以干活为目的,主要了解各类API的使用就可以了,关注各类模型性能的排名网站(也要关注调用费用,除了不差钱的公司,一般大家都还是重视的性价比)。

机器学习和深度学习了解常见的名词,遇到领域内知识大概知道是哪个的,然后再用AI去查详细内容就好了。
(Transformer,CNN,RNN,预训练模型,过拟合,欠拟合…… 这些干活过程中你可能都用不上,领导想要的使用可能就是给用户用起来,除非要做底层优化,那就不是一天两天还要懂C++和CUDA编程)

底层数学原理其实没必要学了,最多学习一下梯度下降和常见优化器算法,其他过深的内容不影响干活,如果真的感兴趣,有时间可以再补起来。

针对各类任务需求的模型,关注HuggingFace就够了,在上面针对各种领域的模型已经足够细分和丰富了,个人或小公司的预训练已经没有什么太大意义了。

1 个赞

我感觉大概率就是佬说的这种玩法了