佬友们，我主职java，但领导要求搞模型，要从哪学起啊？（已解决）

Lin_Xiao · 2024 年12 月 25 日 02:13

其实工作中大部分都是基于开源的模型或者算法做的，主要还是会用会训不过没人带确实难受

hubery97 · 2024 年12 月 25 日 02:13

太强了，这也能看出来，领导确实不懂技术

noodle · 2024 年12 月 25 日 02:13

调开源模型就够了

skymilong · 2024 年12 月 25 日 02:15

都调用api罢了。搞清楚老板想要干什么就行。你要有个概念，是想自己跑大模型（为什么要自己跑模型，有没有足够的钱用来跑），还是买模型自己做微调（搞行业预料库，弄弄助手啥的？）。最后想要做出什么东西来？这样才能搞清楚你到底是要做什么，如果是前者，那你可能作为牵头人，拉一群搞大模型的一期做。后者，那就是个简单的ai in work的探索项目，看ai结合后能否做出更好的项目或者辅助工作

skymilong · 2024 年12 月 25 日 02:16

调用api 不用在乎语言，都一样。

nimabibi · 2024 年12 月 25 日 02:16

API工程师而已，别想得太高大上，高大上的你公司也没实力干

franking · 2024 年12 月 25 日 02:17

无他，唯眼熟尔。
这种领导只能劝你当心。搞不好你费心费力弄个东西，丫觉得一般般甚至还觉得你能力不行难堪大用

hubery97 · 2024 年12 月 25 日 02:19

通用模型公司数据中心已经做好了，现在是要我们弄一个小模型适配部门的业务，然后整合公司的通用模型让功能更全面，然后我就知道模型分大小，其他的我也不懂啊

ZuiFengTing · 2024 年12 月 25 日 02:21

先学python 然后看看和 yolo这方面
我还发了训练环境的教程可以看看

feelfree · 2024 年12 月 25 日 02:21

我们有专职搞AI的，说实话大部分时间都是在调用现成的大模型或者API，联模型微调都不做，单位没有那么高级的GPU算力设备，训练素材也没有，调用一下现成的开源模型基本够用了。

FantasticCode2025 · 2024 年12 月 25 日 02:26

可以先把python语言简单看一下，然后再熟悉下tranformer，大模型底层的embedding都是基于这个的，然后再看看大模型微调，差不多这些。推荐一个非常好的github资源

SAY · 2024 年12 月 25 日 02:28

差不多, 领导小嘴一张就让人去搞大模型,
基础设施实际工作上就是玩各种开源模型, 以及按照各家提供的example实践一下微调之类的,

应用层面就是调用各种大模型, 组装Agent
这块工作非常抽象 , 一个工作场景你做到70~80%的效果非常容易, 想做到90~95%都很困难, 绝大多数的应用都只是一个玩具
如果你自己对这方面不感兴趣建议别深入, 建议等待科技进步, 等待OpenAI 变强

hubery97 · 2024 年12 月 25 日 02:30

可以的，那正好学一学，然后弄个70~80%的出来练练手

shangguan · 2024 年12 月 25 日 02:30

确实，调用api差不多得了，又不是大公司，哪来的能力搞大模型

skymilong · 2024 年12 月 25 日 02:31

那就是调用公司训练的模型的api ，其他的没必要，直接找他们要api文档，然后自己做个demo，调用api喂喂数据啥的。比如做个业务相关的问答机器人啥的。或者嵌入自己的业务系统，比如一些复杂的规则计算文案解释啥的都可以尝试结合ai。

shuiyihan · 2024 年12 月 25 日 02:33

我倒是想遇到这种需求，java开发搞烦了，转行去大模型也不错

Melaton · 2024 年12 月 25 日 02:34

模型相关具体是指哪些方面？训练模型还是使用模型
模型是指 llm 还是其他模型

hubery97 · 2024 年12 月 25 日 02:45

只知道公司的通用模型是和华为合作研发的，里面有盘古模型，但是我不清楚这是不是llm

2h4ndr01d · 2024 年12 月 25 日 02:45

语言Python就可以了，我了解的公司已经没人用R了……

如果以干活为目的，主要了解各类API的使用就可以了，关注各类模型性能的排名网站（也要关注调用费用，除了不差钱的公司，一般大家都还是重视的性价比）。

机器学习和深度学习了解常见的名词，遇到领域内知识大概知道是哪个的，然后再用AI去查详细内容就好了。
(Transformer，CNN，RNN，预训练模型，过拟合，欠拟合…… 这些干活过程中你可能都用不上，领导想要的使用可能就是给用户用起来，除非要做底层优化，那就不是一天两天还要懂C++和CUDA编程)

底层数学原理其实没必要学了，最多学习一下梯度下降和常见优化器算法，其他过深的内容不影响干活，如果真的感兴趣，有时间可以再补起来。

针对各类任务需求的模型，关注HuggingFace就够了，在上面针对各种领域的模型已经足够细分和丰富了，个人或小公司的预训练已经没有什么太大意义了。

hubery97 · 2024 年12 月 25 日 02:45

我感觉大概率就是佬说的这种玩法了

话题		回复	浏览量
坐标上海，目前自己创业，有想法招一些会全栈的，先来了解一下👀！非我莫属人工智能 , 职场	29	1644	2024 年12 月 14 日
你都会什么技术栈搞七捻三快问快答	118	1374	2024 年12 月 30 日
deepseek疑似偷偷升级V3，速度快的吓人搞七捻三人工智能	105	2171	2024 年12 月 27 日
本贴尝试无偿为佬友们提供软件和编程有关的咨询（包括用软件实现一些小需求）搞七捻三软件开发	172	6706	2024 年12 月 17 日
使用大模型的五大「暴论」搞七捻三人工智能	13	425	2024 年12 月 26 日

佬友们，我主职java，但领导要求搞模型，要从哪学起啊？（已解决）

相关话题