241028 三花AI日报:谷歌 AI 驱动的无限角色养成游戏;一键生成诺贝尔奖风格头像;小熊猫模型:超越 FLUX.1.1-pro 的文生图新星; IC-Light V2: 基于 Flux 的图像重打光模型

谷歌 Unbounded:AI 驱动的无限角色养成游戏

Unbounded 是由谷歌推出的基于生成式 AI 的角色养成游戏系统,用户可以通过自然语言创建任意角色和环境,并直接与虚拟角色进行互动。
每个角色都具备体力、饥饿和心情等属性,它们会像真人一样生活、探索和成长。由于没有固定的剧情和玩法限制,一切都是生成式的,俺猜 R18 领域将会有大突破。

智谱 GLM-4.Voice:开源语音模型支持多语言实时对话

GLM-4.Voice 是智谱开源的端到端语音模型,能够直接理解和生成中英文语音,支持实时语音对话,并可根据用户指令调整语音的情感、语调、语速和方言等属性。目前,除了自行部署体验外,用户还可以在智谱的清言 app 中使用,有兴趣的可以尝试一下。

智谱 AutoGLM:网页与安卓的自主 AI 任务智能体

AutoGLM 是由智谱开发的 AI 智能体,能够在网页和手机上自主完成任务,包括社交媒体互动、外卖购物和酒店预订等,就像是 AutoJS 的 AI 版本。
官方还特别指出,在中国特色 APP 中,常见任务的成功率高达 89.7%!目前,该功能逐步开放,浏览器插件已可下载(不一定有这个功能),安卓客户端则需申请使用。

Cohere 开源 Aya-Expanse-32B:多语言大模型

Aya-Expanse-32B 是由 Cohere 开源的多模态多语言模型,包含数据集。该模型分为 8B 和 32B 两个版本,最高支持 128K 的上下文窗口,性能超越同规模的其他模型。我简单试用了下,其中文语音识别表现不错,文本生成速度也很快,但中文语音效果一般,带有一股‘大佐味’…

EveryoneNobel:一键生成诺贝尔奖风格头像

EveryoneNobel 是一个基于 SDXL 的 LoRA 模型,非常有趣且实用。提供了 ComfyUI 工作流,只需输入你的名字和获奖主题,即可生成今年的诺贝尔奖风格头像。这个人人都是诺贝尔奖话题在小红书又 18万+ 的浏览,作者已全套开源,并支持和鼓励商用。

小熊猫模型:超越 FLUX.1.1-pro 的文生图新星

昨天,又一个全新的文生图模型代号 red_panda(图标是只小熊猫)出现在了 Artificial 竞技场 中。其胜率高达 72%,ELO 得分更是超过了此前的蓝莓模型 FLUX.1.1-pro。现在的模型都喜欢发布前先丢竞技场中吵热度,哈哈哈。

IC-Light V2: 基于 Flux 的图像重打光模型

IC-Light V2 是一系列基于 Flux 的 IC-Light 模型,专门用于操作图像中的打光效果。这些模型还是由 ControlNet 的作者开发,目前正处于 WIP(工作进行中)阶段,仅发布了前景条件模型。关注我,我将为你持续跟进这一项目的最新进展哈。

15 个赞

今天我最快 :laughing: :laughing:

1 个赞

还是慢了,我来第二名。

1 个赞

这个不错。。。

前排第四来了哦

AI还可以这样
ocr+open cv+gpt-v+autojs?

这个思路可以有,但是底层有直接把GUI输出成结构化数据的模型(苹果和谷歌都有开源的),省了很多步

1 个赞

这么厉害了吗,我还停留在用大模型识别简单的图片 :laughing:

发现一个 typo: “由谷歌退出” => "由谷歌推出“

1 个赞

来了,每日看报

2 个赞

感谢佬,fixed!

:bili_040: 自动操作 AI 那个视频最关心的一步「AI 自动付款」那里就不录了。

1 个赞

可能是手动付款
在下单前手动确定一遍订单买的对不对?

:bili_040: 99.99% 是手动,就是关心自动操作 APP 的权限会不会大到能自动付款的程度,那就太牛逼了电诈群体狂喜。

1 个赞

还真是,如果是自动,我能够想象诈骗的情况了
这个给的权限真的是太多了,要是留个远程操作的情况,用户应该会挺担心的

诈骗的app可能也具有让用户给APP各种授权的特征?

真不错,我在RSS上只找到了三花的快讯,有没有这种日报形式的订阅呀