求推荐双卡或四卡的主板

nightying · 2025 年2 月 5 日 02:51

想弄一个深度学习服务器直接买全新的太贵了打算弄2080ti 22G * 4（或者2卡）来跑一些深度学习的东西，但是没玩过多卡主板，这一方面属于知识盲区，求大佬给几个推荐，最好是具体型号，性价比越高越好，短期想法是跑个70B的来体验一下

baipiaodang · 2025 年2 月 5 日 02:51

这就不得不
@xiaolinkangna

nightying · 2025 年2 月 5 日 03:08

佬没来。。

baipiaodang · 2025 年2 月 5 日 03:10

问题不大，小林佬专业又热心，等等就好

hrpxdzl · 2025 年2 月 5 日 03:22

坐等大佬

aouhreg · 2025 年2 月 5 日 03:24

觉得真的要跑就租云，70B就丢api，可能成本还比较低

nightying · 2025 年2 月 5 日 03:28

租云有点贵了，API的话会把本地一些隐私数据弄上去，不太想这样操作，本地搭70B主要是想弄一个个人的全能助理，然后再通过内网穿透的方式，跟我所有设备连在一起，试过14B和32B的，效果都不太理想，他们说个人至少要从70B开始。当然后面不只跑70B 有些时候还需要训练一些东西

tdou · 2025 年2 月 5 日 04:36

自己组照电费最便宜地方吧，有的地方托管好像400一个月还是多少

yhp666 · 2025 年2 月 5 日 04:41

首先佬要明白一个问题就是4卡能run的推理显存可不是22x4=88GB啊
然后呢你要考虑下是只做推理还是训练、推理都要搞
其次还要知道每颗cpu的pcie通道数是有限的
最后建议佬如果对速度要求不那么苛刻的话，看看隔壁的mac m4（32、64G内存）的配置

nightying · 2025 年2 月 5 日 06:18

emmm第一点我不是太理解，我看他们双2080ti跑70B说的都是44G，逻辑说的好像是单卡推理，双卡存储，加起来就是44G的一张2080ti，然后第二点我的想法是推理和训练都弄，第三点我也知道每颗cpu的PICE是有限的，有考虑过双U平台，第四点速度的话我其实大差不差，70B能有个5到10token就差不多了，mac m4我有考虑过，但是价格太贵了，丐版不是pro芯片，跑70B的效率太低，雷电4接口又不如pro芯片的雷电5接口，pro芯片价格又翻倍，加上内存也贵，一个48G要1W5以上了64好像2W起步

nightying · 2025 年2 月 5 日 06:44

这种会很吵吗，电费的话，应该不用担心，我打算蹭公司的电，反正公司也有好多个服务器，跟领导说清楚，同意就好

yhp666 · 2025 年2 月 5 日 07:02

ollama在推理过程中是支持多GPU的，但是我为什么说不能这样算呢？因为多GPU推理的时候，速度是伴随GPU数量指数下降的。多卡之间要频繁的进行device to device的操作，而这些又是完全通过pcie来实现的，进而发现因为pcie之间的io都是cpu负责的，反馈到前端命令的结果就是一个字一个字的往外蹦。
就因为这个弊端，nvidia最初在民用级gpu上搞了nvlink，后来nvlink被广泛使用在企业级gpu上（v100、a100、a800、h100等等吧）他们就是为了让cuda再做运算的时候，实现gpu——gpu之间的高速io互联，避免去用牛车一样的pcie，也不会被cpu羁绊。
假如佬你有条件可以自己试试看无nvlink环境多卡推理ollama的70b模型速度如何，我可以告诉你的就是m4-mini-64g环境ollama推理70b-4bit的r1大概是5tokens/s

Taich · 2025 年2 月 5 日 07:04

Nvlink双卡70b也很卡

yhp666 · 2025 年2 月 5 日 07:07

我觉得卡就是因为模型被ollama平均分配到2张GPU上了，而推理的时候只能是一个gpu去做运算，虽然显存没有oom，但是速度肯定是会慢的。因为原理就是需要海量的数据在两张gpu之间的pcie通道或者nvlink通道来回来去的copy

Taich · 2025 年2 月 5 日 07:08

是的个人本地部署基本没有意义
不过双卡32b 速度还行就是 4bit 32b 到底能干吗也不好说了
最后 70b 的推理效果也很一般完全不能当作助理使用

yhp666 · 2025 年2 月 5 日 07:09

本地耍一耍是可以的，学习原理，体验搭建环境的乐趣，自娱自乐还不受管控

nightying · 2025 年2 月 5 日 07:20

那佬，买个macmini m4 pro 24G+macmini m4 32G，这样可以通过集群调用跑70B的模型吗，我看他们说mac集群是通过雷电接口来传输数据的，但是pro是雷电5，丐版是雷电4，不太清楚能不能做到我想要的效果：m4pro芯片运算，24+32G的内存容纳70B模型

nightying · 2025 年2 月 5 日 07:21

我好像，忽略了一个重要的问题，70B效果在咋样我没体验过。。32B我觉得蠢蠢的，我应该先去租一个云环境体验一下，在考虑搭建本地是用macmini还是用多卡2080ti，还是放弃这个想法

yhp666 · 2025 年2 月 5 日 07:23

m4适合我个人验证自娱自乐，反正2-3个字/秒的推理输出速度我也能忍。用n卡跑模型推理的确比m4快，但因为我最高配置就是单卡3090，所以没法体验70b的ollama推理场景。

nightying · 2025 年2 月 5 日 07:25

佬，你m4买的是pro还是丐的m4，内存多大啊

话题		回复	浏览量
7000-8000预算，小白自己组装电脑，请大佬指点一二搞七捻三快问快答	59	842	2025 年1 月 18 日
16G显存运行满血DeepSeek 搞七捻三人工智能	55	1023	2025 年2 月 12 日
装机配置求推荐开发调优装机 , 快问快答	14	580	2024 年12 月 10 日
今天买了台新PC，本地部署了Open WebUI+Ollama 搞七捻三 ollama , 人工智能 , OpenWebUI , 纯水	107	2340	2025 年1 月 30 日
大概需要一台高性能低价mini主机来跑虚拟机搞七捻三快问快答 , 计算机网络 , 纯水	55	778	2025 年2 月 12 日

求推荐双卡或四卡的主板

相关话题