三花 AI 一觉醒来发生了什么?欢迎阅读
how2draw:生成绘图过程的 LoRA
OpenAI推出ChatGPT高级语音功能
字节跳动发布豆包视频生成模型
Gemini-1.5 更新:性能提升,价格减半
詹姆斯·卡梅隆加入 Stability AI 董事会
HuggingChat 推出 MacOS 原生客户端
BigQwen2.5-125B:超大参数量的自我合并模型
how2draw:生成绘图过程的 LoRA
一款非常有趣的 LoRA,how2draw,根据提示词能生成绘图过程视频,而不仅仅是最终结果。可以预见几天后的小红书平台了,不多说了,我也赶紧发一个去。在线体验:在线体验。
OpenAI 推出 ChatGPT 高级语音功能
OpenAI 官方宣布,ChatGPT Advanced Voice 将在本周内向所有 Plus 和 Team 用户推出。据观察,许多用户已经体验到了这一更新。经过长时间的等待,这一功能终于面世。此外,现在还支持自定义指令、记忆、5 种新语音以及改进的口音。如果尚未体验到,建议更新至最新版本。更多信息,请参阅ChatGPT Advanced Voice的FAQ。
字节跳动发布豆包视频生成模型
火山引擎正式发布豆包视频生成模型 PixelDance 和 Seaweed,两款大模型均基于 DiT 架构,主要面向企业市场。字节跳动正式宣告进军 AI 视频生成领域,目前除了发布的演示外,没啥特别多的信息,不过可以关注字节的“即梦 AI” 公众号,发“内测”俩字来获取申请表单链接。
我看好多人说比肩 Sora,确实和 Sora 一样都用不上,要我说不如开源模型 Cog 来的实在,起码能用上
Gemini-1.5 更新:性能提升,价格减半
谷歌发布了 Gemini-1.5 的更新版,Pro 版价格降低一半,Flash 版与 Pro 版的速率和输出速度均提升 2 倍,同时在数学、长文本上下文、视觉和代码处理性能方面均有改进。用户仍可在 aistudio 中直接使用。
詹姆斯·卡梅隆加入 Stability AI 董事会
著名导演詹姆斯·卡梅隆(执导了《终结者》、《泰坦尼克号》、《阿凡达》)现已正式加入 Stability AI 董事会。官方宣布,Stability AI 的 CEO 和詹姆斯·卡梅隆将于今天下午 1:40(太平洋时间)在 CNBC 上直播,讨论 AI 在创意产业中的未来。这标志着詹姆斯·卡梅隆成为首位公开支持生成式 AI 的奥斯卡获奖电影制作人。詹姆斯·卡梅隆在原文中强调,“生成式 AI 与 CGI 的结合将是下一代技术变革的关键”。
HuggingChat 推出 MacOS 原生客户端
HuggingChat 现已推出原生 macOS 客户端,提供类似 Spotlight 的搜索体验,支持 Markdown 渲染、网页浏览和代码语法高亮。通过快捷键快速唤起,并直接输入问题,使用户体验更加便捷。目前仍处于早期 beta 阶段,能够免费使用所有顶级开源大模型,下周将增加对本地部署大模型的支持。应用目前尚未开源,未来是否开源将取决于社区反馈。
BigQwen2.5-125B:超大参数量的自我合并模型
BigQwen2.5-125B-Instruct 是一个使用 MergeKit 工具对 Qwen2-72B-Instruct 进行自我合并的模型。它借鉴了 Meta-Llama-3-120B-Instruct 的架构设计,通过将 10 层的模块重复 6 次构建而成。在创意写作任务上表现会更好,还有一个小参数量的 BigQwen2.5-Echo-47B-Instruct。作者还非常有意思的表示,他只管合并模型,也没测试,具体风险和效果你们自己测试…
那个啥
以后每天要不要附带下群里昨日的 top5 论文总结呢,虽然可能没啥用,不过万一能帮助到需要的人呢?避免信息干扰,今天先折叠住,佬友们可以给我说说有没有用
09/24 三花每日 AI 论文总结
-
谷歌 RACER:语言引导的机器人故障恢复策略
参与人数:4
研究方向:机器人、模仿学习、故障恢复、语言引导、视觉语言模型
官网:https://rich-language-failure-recovery.github.io -
初探 OpenAI o1 在医学领域:我们离 AI 医生更近了吗?
参与人数:9
研究方向:大语言模型、医学应用、推理能力、多语言、评估协议
官网:A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? -
PixWizard:基于开放语言指令的图像处理助手
参与人数:10
研究方向:图像生成、图像处理、视觉任务、扩散变换器、多分辨率处理
GitHub:GitHub - AFeng-x/PixWizard -
超越微调:释放临床 LLMs 连续预训练的潜力
参与人数:7
研究方向:大语言模型、临床应用、连续预训练、微调、提示工程 -
Phantom:适用于大语言和视觉模型的潜在空间优化
参与人数:5
研究方向:大语言和视觉模型、模型效率、潜在空间优化、多模态学习
GitHub:GitHub - ByungKwanLee/Phantom: [Under Review] Official PyTorch implementation code for realizing the technical part of Phantom of Latent representing equipped with enlarged hidden dimension to build super frontier vision language models.