24826 三花 AI 日报：开源实时换脸；快手虚拟试衣；全新交互代码编辑器；提示工程从入门到精通；Cursor AI Rules 提示词库；实时视频生成

ke_jun · 2024 年8 月 26 日 00:56

三花 AI 一觉醒来发生了什么？欢迎阅读

ReHiFace-S：硅基智能开源的实时换脸项目

Haystack：基于图的全新交互代码编辑器

Anthropic：提示工程从入门到精通

Cursor AI Rules 提示词库

快手：可图虚拟试衣项目

Chrome 内置 Google Lens 和 Gemini

马斯克 Grok2 超越 GPT-4o

AiM：首个基于 Mamba 的图片生成模型

Meta sapiens：全新以人为中心的视觉模型

VideoSys：实时视频生成技术

ReHiFace-S：硅基智能开源的实时换脸项目

ReHiFace-S 又一个实时换脸项目，只需一张照片就能将视频中的人脸实时替换。

官方宣称无需高性能显卡，只需要 GTX 1080Ti 就能进行高保真的实时换脸。所有需要的模型加起来 842MB，内置 Gradio 界面，还非常贴心的提供了百度云的下载地址…

不过似乎真实运行效果一般，Readme 提供的 Demo 更像是 deepfacelive 出来的效果，但官方没人回应。

Haystack：基于图的全新交互代码编辑器

最近 Cursor 编辑器打的 Github Copilot 抬不起头，最近又出来一个新的编辑器，Haystack，一样是基于 VSCode，只不过彻底改了交互方式，不在局限于传统的 Tab 而是类似流程图那样，直接将所有代码摆在画布中。

我简单测试了一下，同样支持 AI，也能一键从 VSCode 导入插件，交互非常的新奇和不适，能可视化不同文件的关系，非常酷的方式，建议没事干的时候玩一下，需要一段时间来适应…

Anthropic：从入门到精通交互式提示工程教程

由 Anthropic 官方推出的系列教程，皆在让人们能轻松设计适用于 Claude 的最佳提示词。

提供了基础、入门、进阶的教程，全部是由 Jupyter Notebook 写的，需要 PY 环境。

直达：Prompt Engineering Interactive Tutorial

Cursor AI Rules 提示词库

我们知道 Cursor 有非常方便的 Chat 和 CMD+k 功能，对于不同技术栈的项目还可以通过 .cursorrules 文件指定其 “AI 规则”。

有人整理了适用于 Cursor 的不同语言和项目的 Rules，非常方便的复制粘贴到 .cursorrules 文件中即可。

快手可图虚拟试衣

Kwai-Kolors/Kolors-Virtual-Try-On 是快手推出全新虚拟试穿演示，选择人物，上传服装即可生成非常自然的试穿效果。

可惜的是，虽然打着 Kolors 的旗号但是模型和代码并没有开源，而且官方人员也表示暂时不会。

截至到目前，因为用的人太多，这个 Space 暂不可用，不过可以先收藏，等快手修复。

Chrome 最新版内置 Google Lens 和 Gemini

如果你用过谷歌的搜图功能或 Pixel 系列手机，那么对这个功能不会陌生，现在 Chrome 也内置了该功能，通过框选网页上的任何东西都可以进行搜索和翻译。

你可以自己试试，就在右上角三个点里，支持中文，功能的话目前只有搜图和翻译功能。

除此之外，现在可以直接在地址栏输入 @gemini promt 来自动跳转到 Gemini 官方并聊天。

算是很保守的植入方式了，另外这是我第一次知道可以用 @ 搜索历史记录、书签和已经打开的网页，学到了。

马斯克 Grok2 超越 GPT-4o

老马家的最新的 grok-2-2024-08-13 现在在 Chatbot Arena 排行榜上已经超过 gpt-4o 和 gemini-1.5pro，如果你有订阅 X 的会员可以直接用上。

感觉现在发布大模型不超越 gpt4 都不好意思发布。

AiM：首个基于 Mamba 的图片生成模型

AiM 是首个基于 Mamba 的自回归图像生成模型，与 diffusion 模型同质量下拥有更快的速度。

现在项目还很早期，想与 diffusion 模型竞争的话任重而道远。

Meta sapiens：全新以人为中心的视觉模型

“真 Open” 的 Meta 开源了他们的 Sapiens 模型，一个专门用来识别人的模型，包括：

2D 姿态估计（识别人身体的姿势）
身体部位分割（区分身体的各个部分）
深度估计（确定物体距离的远近）
表面法线预测（判断物体表面的方向）

我愿再称小札为赛博佛祖！可以预知，很快就会有相关的 ControlNet 预处理器出现了！

VideoSys：实时视频生成技术

VideoSys 的 Pyramid Attention Broadcast (PAB)，这是首个实现基于扩散模型（DiT）的实时视频生成技术。

PAB 在不损失质量的前提下，在 8 块 H100 上实现了高达 21.6 帧每秒的视频生成速度，这项技术适用于包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的多种流行的 DiT 视频生成模型。

最关键的是，这是一种无需训练的方法，PAB 能为任何 DiT 视频生成模型赋予实时生成的能力。

注意，对比视频中，左边是 1 块 H100，右边是 8 块。

hesir · 2024 年8 月 26 日 01:22

真贴心啊

handsome · 2024 年8 月 26 日 01:48

来了，每日读报

zhangdahao37 · 2024 年8 月 26 日 02:06

每天都来读日报

piratekmg · 2024 年8 月 26 日 02:23

这日报很扎实，感谢分享

Chris1990 · 2024 年8 月 26 日 02:32

已阅感谢分享～

EDWINCHENC · 2024 年8 月 26 日 02:40

不错，AI日报还是蛮好的

taobao_des · 2024 年8 月 26 日 03:20

这个是开源的模型吗，我打开跳进去抱抱脸

ke_jun · 2024 年8 月 26 日 08:20

请佬认真看报！

huangbaoleng · 2024 年8 月 26 日 08:28

很好的文章，这下不得不关注了，加油!

qiuyue · 2024 年8 月 26 日 08:39

Chrome 最新版内置 Google Lens 和 Gemini

我怎么没找到那个进行搜索和翻译。

yuyu1 · 2024 年8 月 26 日 09:01

已阅，感谢分享

taobao_des · 2024 年8 月 26 日 11:57

那真是太可惜了，我试用了一下效果过得去阿，没发现什么明显得瑕疵

ysen · 2024 年8 月 26 日 12:42

这个提示词库在哪儿呀

ke_jun · 2024 年8 月 27 日 00:46

ke_jun · 2024 年8 月 27 日 00:48

谢谢佬友提醒，忘记贴链接了…抱歉

qiuyue · 2024 年8 月 27 日 01:38

这个操作是怎么触发的呀，我找不到如何触发。

ysen · 2024 年8 月 27 日 03:51

感谢，感谢

neo · 2024 年8 月 29 日 05:53

From 人工智能 to 资源荟萃

话题		回复	浏览量
24912 三花AI日报：Adobe 视频模型；书生筑梦 2.0 视频模型；科学文献评审Agent；从 0 训练大模型；1分钟 16K 图片生成；最强开源中文 TTS；ComfyUI对口型节点；今天内容特别多，进来看吧前沿快讯人工智能	6	435	2024 年9 月 12 日
24919 三花AI日报：英伟达可商用角色扮演小模型；Logo 设计模型 Playground v3；YouTube Dream Screen；谷歌 NotebookLM：陪读小助手；CogVideoX-I2V：开源图生视频前沿快讯人工智能	10	400	2024 年9 月 19 日
241014 三花AI日报：把 L 站的 Shared Chat 设置为默认搜索引擎；实时渲染 CS:GO 的扩散模型；首个去中心化模型训练启动；开源 3D 数字人头框架；OpenAI 开源多智能体框架；开源可商用 TTS 模型；表情包自由LoRA 前沿快讯人工智能	27	1282	2024 年11 月 7 日
24906 三花 AI 日报：百大 AI 人物；Flux LoRA 画廊；提示词管理工具；Claude AI 企业版开源平替；字节数字人头技术前沿快讯人工智能	11	423	2024 年9 月 6 日
24829 三花 AI 日报；更好的风格迁移技术；开源首尾帧图生视频；真 AI 游戏“渲染”引擎；交互式文生图 3D 布局控制；谷歌 Gems：类似 GPTs 的功能前沿快讯人工智能	5	256	2024 年8 月 29 日

24826 三花 AI 日报：开源实时换脸；快手虚拟试衣；全新交互代码编辑器；提示工程从入门到精通；Cursor AI Rules 提示词库；实时视频生成

ReHiFace-S：硅基智能开源的实时换脸项目

Haystack：基于图的全新交互代码编辑器

Anthropic：从入门到精通交互式提示工程教程

Cursor AI Rules 提示词库

快手可图虚拟试衣

Chrome 最新版内置 Google Lens 和 Gemini

马斯克 Grok2 超越 GPT-4o

AiM：首个基于 Mamba 的图片生成模型

Meta sapiens：全新以人为中心的视觉模型

VideoSys：实时视频生成技术

Chrome 最新版内置 Google Lens 和 Gemini

相关话题