罗永浩 Jarvis 发布 J1 Assistant:安卓用户的 AI 新助手
罗永浩旗下的 AI 初创项目 Jarvis 近日发布了名为 J1 Assistant 的聚合类 AI 助理软件。目前,该软件仅支持部分安卓机型。用户可以通过长按发送语音至联系人、谷歌搜索引擎、ChatGPT 或创建备忘录。UI 设计颇具锤子科技风格,当前版本为 0.8.3-beta1。感兴趣的朋友可以在J1 Assistant 官网下载体验。
Create AI 开源 Ruyi-Mini-7B 图生视频模型,专为消费级 GPU 设计
Create AI (原图森未来)开源了Ruyi-Mini-7B图生视频模型。这款模型专为消费级 GPU 设计,支持生成 360p 和 720p 分辨率、最长 5 秒的视频。
据Create AI官网介绍,Create AI 似乎正在利用大模型技术开发 AAA 级开放世界游戏《金庸群侠传》。
ebook2audiobook 2.0 发布:全新WebUI与 1000 种语言
知名开源电子书转有声书项目ebook2audiobook 发布了 2.0 版本。新版本支持本地语音克隆与有声书生成,覆盖了 1000 种语言,并配备了全新的 WebUI 界面。
此外,安装脚本也得到了优化,使用更加便捷。想体验新功能的佬友,可以访问在线版本进行试用。
DDUF:统一扩散模型分发与权重保存的单文件格式
DDUF(DDUF’s Diffusion Unified Format)是一种为扩散模型设计的单文件格式,旨在统一不同的模型分发方法和权重保存格式。它将模型的所有组件打包到一个文件中,并且与语言无关,支持远程解析。目前社区热门的模型已经有专门的 DDUF 格式了,之前看到一大堆文件就头疼,以后就好了。
TangoFlux:极速文本转音频生成模型
TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验 看看,速度确实飞快,生成的质量也算还行。
字节开源 LatentSync:高效口型同步扩散模型
LatentSync 是字节开源的用于口型同步的扩散模型,只需提供角色视频和要同步的音频即可生成。该模型对硬件的要求适中,仅需 6.5 GB 的 GPU 即可运行,适合大多数开发者和研究人员使用。此外,@fffiloni大佬还提供了一个在线演示可以玩一下。