24812 三花 AI 日报

各位佬友们大家好,我在做一个AI日报,今天是第100期,每次整理都是Markdown格式,打算在咱们社区也发一下,每周一到周五都会发,喜欢的可以点个赞。只要我没发过,链接都是直链,欢迎监督!

我不知道能不能发我自己的网站,先不发了,能发的话下期我发个网站,主要是有搜索功能,好了不多bb,开始 linux do 的第一期!。


今天周一,含周末的内容:

省流:
:package: 字节 LLaVA-OneVision:开源多模态大模型
:ice_cube: Meta VFusion3D:利用视频扩散模型生成 3D
:framed_picture: Master Comfy:按需求查找 ComfyUI 自定义节点
:framed_picture: sd-webui-comfyui:将工作流集成到 WebUI
:microphone: 阿里 Qwen2-Audio:开启语音对话
:grinning: Deep-Live-Cam:最火实时换脸
:framed_picture: ComfyUI-Veevee:Video2Video 框架
:framed_picture: XLabs-AI/flux-lora-collection:Flux LoRA 大集合
:bulb: 大语言模型可视化:3D 交互式 GPT 工作原理
:framed_picture: 谷歌 Imagen 3:现已面向所有人开放使用


字节 LLaVA-OneVision:开源多模态大模型

LLaVA-OneVision 是之前介绍的LLaVA-NeXT 的进化版本,支持单图、多图和视频,比上一代实现了显著的性能提升和更广泛的应用能力,在各种基准测试上接近 GPT4,可以在这里免费试用。

Meta VFusion3D:利用视频扩散模型生成 3D

今天这个 VFusion3D 是由 Meta 提出并开源的创新方法,即通过利用大量数据训练的视频扩散模型来解决 3D 数据获取困难的问题,进而训练出一个能够从单图生成 3D 的模型,在用户偏好度测试中,获得了 90% 的选择率,可以在这里免费试用。

Master Comfy:按需求查找 ComfyUI 自定义节点

Master Comfy 是由 ComfyDeploy 推出一个用于查找自定义节点的小工具,你可以直接输入你的需求然后就会返回推荐的自定义节点,当然也可以当作节点文档大集合。

此前我一直在用的是 ComfyUI 作者推荐的一个文档:SaltAI Docs,与上面的不同,这个是传统的基于关键词查找的,当然好处是数据也是开源的,你可以基于它做二次开发,例如做一个你的 Master Comfy

sd-webui-comfyui:将工作流集成到 WebUI

sd-webui-comfyui 是一个开源的 A1111 webui 扩展,它支持将 ComfyUI 的工作流嵌入到 WebUI 的流程中,例如预处理或后置处理等,极大的提升了 WebUI 的可玩性。

阿里 Qwen2-Audio:开启语音对话

阿里 Qwen2-Audio 是 Qwen-Audio 的下一代版本。这个新版本能够接受音频和文本输入,并生成文本输出,可以在Qwen2-Audio Collections下载模型和试用演示。

主要特性如下:

  • 语音聊天:使用语音直接向模型发出指令,而无需自动语音识别(ASR)模块。
  • 音频分析:支持分析包括语音、声音、音乐等在内的音频信息,并结合文本指令进行处理。
  • 多语言支持:支持超过 8 种语言/方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

Deep-Live-Cam:最火实时换脸

Deep-Live-Cam 是这两天最火的一个换脸软件,只需要一张照片即可进行换脸直播,需要 6G 显存。支持 Nvidia 或者 AMD 显卡,GitHub Releases 只提供了 CUDA 版本,DML 版本可以在这里下载,有需要国内网盘的话评论一下我上传下。

ComfyUI-Veevee:Video2Video 框架

ComfyUI-Veevee 是一个用于 ComfyUI 中文本图像模型的 Video2Video 框架。项目目前还非常早期,支持 SD1.5 和 SDXL,有需要的可以尝试下。

XLabs-AI/flux-lora-collection:Flux LoRA 大集合

由 XLabs-AI 训练的 Flux LoRA 大集合,包括福瑞、MJv6、动漫、迪士尼、风景、艺术共 6 个 LoRA 模型

大语言模型可视化:3D 交互式 GPT 工作原理

LLM 可视化允许用户以 3D 交互式观察和理解一个 GPT 风格的大语言模型在进行推理时的工作原理,对学习了解 LLM 非常有帮助,也可用于教学演示。这里还有一个中文版

这个项目源自 llm-viz,作者还有一个正在开发的 CPU 模拟器

谷歌 Imagen 3:现已面向所有人开放使用

谷歌 Imagen 3,8 月 2 号才收到测试权限,10 号就全面公开了,生成速度非常的快,质量感觉不如测试时的高,支持英文文字,手部效果非常不错,提示词交互也很不错。

似乎还有一个检测模型,如果生成的质量不好或者令人不适就会提示“此处似乎没有任何内容”

9 个赞

感谢分享

前排围观

前排围观~

整挺好,claude啥时候有动静啊

不错

1 个赞

围观

谢谢佬,又看到了不少有意思的东西

前排围观 ::

虽噗通,但日报整挺好

就喜欢看这些 AI 日报

From #develop:ai to 资源荟萃