250324 三花AI日报:RF-DETR 开源实时目标检测模型;LHM:快速将照片转换为动画; 腾讯混元 T1 推理模型;字节 InfiniteYou 人物一致性技术;Wan 2.1 特效 LoRA 集合; Grok-2-Image 模型 API;

开源实时目标检测模型 RF-DETR

RF-DETR 是由 Roboflow 开发的实时目标检测模型,基于 Apache 2.0 开源许可。该模型提供了两个版本:RF-DETR-base 和 RF-DETR-large。RF-DETR-base 参数量为 29M,适合资源受限的场景;而 RF-DETR-large 参数量为 128M,拥有更高的精度。

总的来说这是一个能和 YOLO 模型扳扳手腕的检测模型,部分场景检测速度不如YOLO,但在精确度上要更好一些。佬们有需要的可以看看。

阿里通义实验室 LHM :快速将照片转换为动画

LHM是阿里通义实验室推出的能在几秒内将单人照片转换成可动画化的 3D 模型。不仅支持真人,还能处理二次元角色,生成的人物模型能够按照参考视频中的动作进行复刻。

又一个类 AnimateAnyone 的技术,不过代码这次开源了,有需要的佬可以看看。

腾讯混元 T1:首个 Mamba 与 Transformer 结合的推理模型

腾讯近日发布了混元 T1 模型,这是业内首个将 Mamba 和 Transformer 结合的推理模型。

在数学和编程方面比DeepSeek R1要差点,其他指标基本持平或略超R1。

这个模型没有开源,不过提供了 API ,而且价格相当便宜,每百万输入 tokens 1 元,每百万输出 tokens 4 元,约为 DeepSeek R1 标准时段价格的四分之一。

字节 InfiniteYou:基于 FLUX 模型的人物一致性技术

字节 InfiniteYou 是基于 FLUX 模型的身份保留模型,能够在保持人物一致性的同时,根据提示词生成多样化的图片。

个人感觉一致性方面相比主流方法 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的话还是要差点。

官方也提供了Demo,佬们可以自己试试。

Remade AI 再次开源 Wan 2.1 特效 LoRA 集合

继上次 Remade AI 开源了 8 款 Wan 2.1 特效 LoRA 之后,他们又开源了一系列新的特效 LoRA,包括变身赛亚人、机械人等多样化的特效。

佬们可以直接关注这个 LoRA 集合,包含了其所有特效 LoRA。。

xAI 发布 Grok-2-Image 模型 API

xAI 正式推出了 Grok-2-Image 模型 API,该接口风格与 OpenAI 类似,单图生成费用为 $0.07。

有需要的佬可以去看官方接口文档

32 个赞
  1. grok 总算出 API 了
  2. 我可以生成各种大幂幂了
  3. 三花日报每天读,快乐少不了
6 个赞

前排看报 :clap:

每日看报,要是API免费就好了

先赞后看

签个到 :yum:

居然结合了mamba?那怎么不测测长上下文。还是说只是降低了成本

看报看报:eyes:

看报看报 :tieba_091:

看下报,好像不是每天都有看

每日看报

1 个赞

来每日看报了

来看报了,感谢分享

来了,周一看报

每天读报 三花继续

看报看报

然而依然不是大家期待的Grok3 api

1 个赞

周一看报

tieba_042 已阅

flux的 ipa,是小红书出的那个吗?刚出的时候我记得被吐槽过。