观前特别提醒
本文属于是 个人心得分享 而非 专业论证,欢迎各位佬友进行勘误。
并且本文不会讨论具体模型的架构(例如R1和V3的 MoE多头注意力机制
)(这不是文章的主旨以及我的核心想法)
我并非科研出身,所以并没有太高的造诣以及用词不太精准(词穷 ),佬友们尽管大胆发言讨论!
由于并非专业文章,所以我暂时不考虑贴一些专业词汇(例如 Top P
)的链接
【我的心得分享会尽可能保持让普通人能够轻松阅读,而不是靠专业词汇来输出(并不是反对)】
有兴趣的佬友可以自行查阅或者在主题下发帖等待其他佬友的回答
特别注意:本文的AIGC检测率不做 最终检测结果,具体AIGC率请以 自己的学校/单位检测率 为准(本文章不为任何形式以AIGC率太高被拒等而负责)
引入
自从ChatGPT3.5以来,我们的文本进入了 大生成时代 更高效率的模式。
但是有些平台似乎并不愿意让我们能够享受这种服务。(给我玩阴的是吧 )
于是 AIGC检测平台
开始应用于各个平台。(步豪,我的文章! )
那么本文也许会成为你的良药之一。
本文的目标:文章的目的不在于阐述模型的核心原理或者是教大家学习模型的架构,而是 如何去降低AIGC率!
需求
这种 AIGC检测平台
让我们不能再像以前那样随意生成了
那么有没有办法解决呢?
答案是有的:提示词工程(Prompt Engineering)。
通过为模型输入不同的 System Prompt
,我们能够让AI变得更加多样性
亦或是调整参数:Temperature (采样温度)
和 Top_K
以及 Top_P
等等。
究其根本,便是为了模型输出的文本能够变得更加 多样性。
而文章也正是因为 “多样性”,才能让AI率更低
就像之前的论文查重率一样,什么叫“重”,拥有类似的文本集合,那就是“重合”
如果查重率过高:你是直接复制粘贴吗?
如果查重率过低:你是随机生成的吗?
以人类的思考模式来看,这么多人写的东西,肯定有重复的。(就像程序员容易重复造轮子一样)
所以这也叫 共识(Consensus
),区块链也是基于此诞生。(有点偏题了)
AI也是一样,生成出来的东西过于重复的话,肯定是一秒检测(也就是我们常说的一股AI味)
模型的部分生成原理
了解模型是怎么生成文本的,我们才能更好地调试AI(调教也行 )。
模型跟人类的思维有点类似但不完全相同。
人类会根据 上下文(context) 和自己当前的情感以及自己的词汇库进行遣词造句。
最终组织起一个有逻辑的语言(当然没逻辑的也行,但是符合人类的“合理”)
而AI则是:根据 上一个Token 以及当前的 概率分布权重 进行 预测
下一个Token是什么。
这也就是为什么会有一个名为 温度
的参数,采样温度在采什么?就是在采集在概率中下一个Token该选择哪个。
就像上文的 多样性 一样,如果能给一个AI多样性的输入和输出格式。那么输出的Token将和原有的Token所不一致。
分析AIGC检测器
就像传统的 对抗生成神经网络(GAN) 一样(当然这个例子不算很好),有矛就会有盾。
就像曾经的验证码大战一样,攻防双方都在不断升级。
从最开始的暴力注册到验证码诞生。
又到随机验证码图案和OCR神经网络识别
到现在广为流传的各种变种滑块验证码
有了AI生成,自然有AIGC检测,那么AIGC的工作模式又是怎么样的呢?
很多人觉得是因为 “AI水印”,我认为并不是。
因为很多平台都有 最小字数限制,为什么要用这个限制呢?是检测不出来水印吗?
按照 “水印” 的理论,那么每句话都拿去检测不也能检测出来吗?
那么结果就是:检测的整体文本质量而不是一两句话的“水印”
我个人有以下拙见:
- 通过传统的 查重率 和 出处查询 来进行检测,因为写文章的时候AI比较喜欢引用一些奇怪的文章
- 通过相同的模型(例如GPT,Claude,Gemini等),通过生成类似的文本来进行检测。(这也符合对抗生成神经网络的模式)
- 对
Token集合
进行单项检测(例如一句话:“你今天吃饭了吗?”,在人类眼中可以拆成主谓宾等形式,而在AI眼中,他只是一个Token集合,例如(只是随便举例,这句话并不是真的这样划分Token) “你 / 今 / 天吃 / 饭了吗 / ?” )
而传统的平台正是基于此而诞生的。通过训练类似的模型,进行预测同一个Token
比如你输入一段话,他的预测模型预测率越高,你的文章AIGC检出率也就越高。
根据置信度和变异性进行综合评估,最后得出结论
什么在影响模型?
就像上文提到的 多样性 一样,让模型输出Token的影响因素在哪里?
-
模型的类型(一般的模型都是指令型模型,即你输入他遵循指令进行输出)
【一般目前的推理型模型(
Reasoner
)的AI检测率相较于指令型模型更低】 -
模型的参数(例如
采样温度
/Top K
/Top P
等)以及参数量。参数上文已经阐述过了,而参数量也会影响文本质量(当然得看架构了) -
思维链(CoT)。思维链通过给模型输入一些“不一样的思考信息”,来完成多样性的生成,并且这种模式会大规模地改变原有的 概率分布权重,让 多样性 变得特别广泛(所以大家有时候更接受推理模型而不是指令模型的纸张思维)
-
语料训练库
这是一个会极大影响模型生成文本质量的因素。
这时候就不得不提到 CloseAI和Grok以及其他诸多平台的一个奇怪行为 “我们想分享您的数据,并为您提供一些Token…”
为什么这些平台想要用户分享数据?难道是想盗取我们的隐私信息?
并不是,在如今大模型力大砖飞的时代已经逐渐显现其 边际效用递减(经济学概念)的状态。
像Grok这种,牢马根本不缺钱,但是为什么表现并没有太惊艳?
答案是:原有的高质量文本已经消化完毕,高质量文本已经开始逐步减少产量。(所以各大平台用共享数据得Token来吸引用户提供高质量文本数据以促进良性循环)
什么是高质量文本?能够完成一组情感对话,这就是高质量文本;能够完成一项任务,这就是高质量文本。
如果是和模型一起胡言乱语,这只能是 “垃圾文本”
试想一下,垃圾文本如果被 微调 或者是 预训练 进了模型的数据,会多搞笑?
你问一个:“今天天气咋样?”,他会回复:“饭很好吃!”
这其中还有一个比较特别的点,就是之前
DeepSeek-V3
模型在问起模型架构时,会提到自己是 “GPT-4架构”当时一度引起了(比较小众)圈内的质疑,认为就是抄袭GPT架构,所以才会有此输出。
不过深入一点研究后发现,DeepSeek使用的是一种名为
蒸馏技术
,可以通过降低本模型的成本的同时提升性能。【目前的70B,32B,8B等都不是真正的DeepSeek,而是
Qwen
和Llama
作为学生模型,学习了DeepSeek-R1
的一些特征后,变成的。其蒸馏模型实质根本没有变化(依旧是Qwen
和Llama
模型)】(备注:此处的Qwen并不是指最新的qwq).我个人想法是:DeepSeek用了CloseAI的GPT蒸馏出来的数据进行学习 → 所以DeepSeek-R1的幻觉问题是很多模型中最为严重的(因为学习的就是幻觉,输出只能更是幻觉了)
-
语料版本:正因为国外的模型都是采用大部分英文进行训练,国产模型一般采用中文训练。其语料版本肯定会不一样。
国外的模型就像曾经国内盛行的“翻译腔”(
Translate tone
)一样,国外的模型对中文的支持度比较低(因此重复度肯定很高,中文多样性肯定没有一些国产模型的高)【点名GeMini模型,我叫他给我翻译英文,结果给我输出的"“翻译”"也全是英文,不要太抽象了】
-
其他因素有待补充
让生成更加随机吧
Fork the World!(我的座右铭
)
那么如何做到多样性呢?
简单方案:往 Prompt
里面塞入一些词汇
- 让输出更加随机
- 用词更加随机
- 不要使用过于复杂的语言,用简单词汇即可(还要避免口语化)
这些是我实际操作过的,可以将AIGC率从95%以上降低至50~60%
更好的方案:
- 微调模型,让模型变成自己的专属写作模型(避免重复特征)(当然因为此项成本过大(整理数据集 + 微调成本),只是列表,所以不会详细说明)
- 使用
深度思考
(即激活思维链),生成相对更加随机且有逻辑的文本。 - 使用更为复杂的
Prompt
:比如规范格式(如果不规范格式很容易被检测到【比如经典的首先/其次/最后】) /内容格式化 (下文会提到) 等 - 明确一下文章的内容:在
Prompt
中加入类似【记住,主体是我的感受而不是客观描述】等语句(因为AI喜欢描述客观情感,有时候会忽略当事人自己的感受,所以显得很“虚伪”) - 尽可能使用国产模型:经过我的实际体验,国外模型有时候喜欢说废话,并且生成的中文语料质量不高(甚至重复用词很多次)
- 结合简单方案和以上的方法进行排列组合
- 使用其他的AIGC检测平台进行多方面评估(记得抹去敏感数据)【本文附录中有一个我常用的平台】
其他的一些方面
内容格式化
众所周知,像类似 json
这类都有个格式化。
并且在我的个人研究中发现,无论是 Kimi
还是 ChatGPT
以及其他的模型,其 System Prompt
都采用的是 Markdown格式
,也许这种表现更好?
来自 Kimi
的 System Prompt
【节选】
你是Kimi,诞生于2023年10月10日,是由 ~~~~~~~ 开发和提供的人工智能助手。
## 目标
在确保内容安全合规的情况下通过遵循指令和提供有帮助的回复来帮助用户实现他们的目标。
## 功能与限制
- 你具备多语言能力,其中更擅长中文和英文的对话。
- 你具备长文本能力,能够支持多轮总和最多20万字的输入和输出。因此,你支持长文本写作,翻译,完整代码编写等任务。
- 你具备文件处理能力,用户可以将文件(TXT、PDF、Word 文档、PPT 幻灯片、 Excel 电子表格等格式)、网址发送给你,你可以阅读相关内容后回复用户。当用户发给你网页/网址/链接的时候,你会先解析网页并输出内容,然后才看到用户的问题,接下来你会结合解析过的网页内容来回答用户的问题。你能处理多个文件,只要文件的总字数不超过20万字。
- 你具备搜索的能力,当用户的问题可以通过结合搜索的结果进行回答时,会为你提供搜索的检索结果;当有搜索的检索结果时,请结合这些结果为用户提供更好的回答。如果搜索到的不同信息源中的信息有冲突,应该分析和比较各种信息,选择正确的信息回答用户。
- 当用户要求你创建文档或文件时,告诉对方你无法创建文档。当需要生成文件才能解决用户的问题时,选用其他办法并告诉对方你暂时无法生成文件。
- 如果用户将包含链接的问题发送给你,按照下面的步骤回答问题:1. 分析用户的问题; 2. 在上文中找到链接的解析结果;3. 回答用户的问题。
- 你具备直接创建PPT文件的能力,当用户需要生成PPT时,告诉对方可以在网页端对话框中输入"@PPT助手",召出PPT助手Kimi+来帮忙创建PPT文件。
来自 ChatGPT
的 System Prompt
【节选】
You are ChatGPT, a large language model trained by OpenAI.
Knowledge cutoff: 2023-10
Current date: 2024-11-24
Image input capabilities: Enabled
Personality: v2
# Tools
## bio
The `bio` tool allows you to persist information across conversations. Address your message `to=bio` and write whatever information you want to remember. The information will appear in the model set context below in future conversations.
## dalle
// Whenever a description of an image is given, create a prompt that dalle can use to generate the image and abide to the following policy:
// 1. The prompt must be in English. Translate to English if needed.
// 2. DO NOT ask for permission to generate the image, just do it!
// 3. DO NOT list or refer to the descriptions before OR after generating the images.
// 4. Do not create more than 1 image, even if the user requests more.
// 5. Do not create images in the style of artists, creative professionals or studios whose latest work was created after 1912 (e.g. Picasso, Kahlo).
也许这样的格式能让模型表现的更好也说不定,这个我暂时还没有精力去做测试,只有请各位广大的佬友们进行测试啦~
标点符号的问题
AI喜欢用一些标准的标点符号,除了论文那样的严格要求格式外,如果有条件的话可以使用多个逗号进行连接一段话。【并且中文文本中,AI喜欢全部用中文标点符号,这点可以注意一下】
最后的一些碎碎念
本文的写作灵感来源于一个""查AIGC率"的帖子
本来只是想给佬们分享一下个人经历。没想到佬们太热情了让我开一个贴细讲一下。
于是本文就这样出炉了~
文章的降低AIGC率并非是空穴来风或者是纯理论指导
而是我自己慢慢尝试和测试出来的
(本文以实际出发)
【当然也可能是有平台的原因,但我觉得影响不大】
希望佬们能够共同友好讨论
附录
AIGC检测平台
这里是一个我常用的AI率检测平台(我个人使用来说非常可靠)【免费的】: