清华团队开源大模型推理引擎“赤兔 Chitu”,实现 DeepSeek 推理成本降低一半、性能翻番

IT之家 3 月 14 日消息,清华大学高性能计算研究所翟季冬教授团队、清华系科创企业清程极智今日联合宣布,大模型推理引擎“赤兔 Chitu”现已开源。

据介绍,该引擎首次实现在非英伟达 Hopper 架构 GPU 及各类国产芯片上原生运行 FP8 精度模型,实现 DeepSeek 推理成本降低一半、性能翻番。其定位为“生产级大模型推理引擎”,提供如下特性:

  • 多元算力适配:不仅支持 NVIDIA 最新旗舰到旧款的多系列产品,也为国产芯片提供优化支持。
  • 全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。
  • 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。

官方表示,当前开源的赤兔引擎在部署 DeepSeek-R1-671B 满血版时,在 A800 集群的测试中,相比部分国外开源框架,实现了 GPU 使用量减少 50% 的同时,推理速度提升 3.15 倍。

IT之家附开源地址:GitHub - thu-pacman/chitu: High-performance inference framework for large language models, focusing on efficiency, flexibility, and availability.
清华团队开源大模型推理引擎“赤兔 Chitu”,实现 DeepSeek 推理成本降低一半、性能翻番 - IT之家

8 Likes

进来看看

是这样的我想看看论坛有没有人发来 佬发了我就不发了
看了下 GitHub上已开源的内容支持的模型目前不多
正好手头有 H20 等明后天有空可以测试一下̋(ˊ•͈ꇴ•͈ˋ) 虽然我不大会性能测试(⋟﹏⋞)

@Cimix @Bennett1987 大佬们也来看看

另外我看腾讯云也搞了个东西不知道怎么获取,如下公众号截取的

腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境 !实测多个场景调用性能相较vLLM提升80% ,3分钟开箱即用的算力服务,完成环境创建,并使用兼容 openai 的api格式对模型进行调用,企业级AI应用开发效率直接拉满。

4 Likes

drepseek update when

这名字起的。。。让我想起我的种子

7 Likes

细说种子

期待一下

搜一下 chitu gay emmm !NSFW! !NSFStraight!

1 Like

这个名字,感觉是男男 :tieba_033:

4 Likes

男男怎么了你 :hot_face: :face_with_steam_from_nose: :bili_086:

3 Likes

我只喜欢女女 :tieba_006:

4 Likes

搬个椅子慢慢看

2 Likes

我喜欢男女 :bili_086:你是个百合fufu :hot_face:

2 Likes

俺周一用测试环境搞一个瞧瞧 :tieba_001:

现在ds的新框架,解决并发问题是最重要的

vllm的并发支持就挺好的吧?

另外佬怎么测最大并发数?赤兔文档里有个性能测试工具用那个测最大支持并发数吗?

vllm 模启动日志里的那个不是最大并发数吧? 比如 Maximum concurrency for 64000 tokens per request: 11.17x 这个 11.17x 是指啥?

vLLM并发处理不错,ktransformer和ollama差不多。

chitu等我周一再搞搞试试

1 Like

嗯嗯 编译 tiktoken的时候遇到错误记得装rust 我还在装rust的路上麻了
参考 win11环境下使用python3.12的conda环境无法编译 tiktoken,无法通过环境部署 · Issue #5 · thu-pacman/chitu · GitHub

1 Like