你说ChatGPT,它写的小东西精巧到心急搞不清?
说实话!
那时,它的“茹基夫”来了——
一名华裔老赵专门针对搞了那么两个中文网站,专门针对辨别文本究竟是出自于AI却是人类文明。
你只须要把适当的文本粘进来,几秒钟内就能预测出结论。
比如说这段:
它:“破天荒的人类文明~”
再者这段:
它:“就知道是AI。”
如此神器一出,可谓迅速俘获大家的芳心。
这不,直接把伺服器都给挤崩喽(好在还有个备用的)。
这下,那些用ChatGPT写作业的“熊孩子”也要惨啦?
是人却是ChatGPT?GPTZero:看我的
这个中文网站名叫GPTZero。
它主要靠“perplexity”,即文本的“困惑度”作为指标来判断所给文本究竟是谁写的。
NLP领域的朋友们都知道,那个指标就是用来评价两个语言模型的好坏的。
在这里,每当你喂给GPTZero一段测试文本,它就会分别计算出:
1、文本总困惑度
那个值越高,就越可能出自人类文明之手。
2、所有句子的平均困惑度
句子越长,那个值通常就越低。
3、每个句子的困惑度
通过条形图的方式呈现,鼠标悬浮到各个方块就可以查看适当的句子是什么(这里就两块,因为我此时输入的测试文本就俩句子)。
之所以要绘制这样的条形图,译者也作出了解释:
根据最新的一些研究:人类文明书写的一些句子可能具有较低的困惑度(前面说过,人类的困惑度是比较高的),但随着继续写,困惑度势必会出现峰值。
相反,用机器生成的文本,其困惑度是均匀分布的,并且总是很低。
除此之外,GPTZero还会挑出困惑度最高的那个句子(也就是最像人写的):
规则就是这些,接下来实际测一测。
测试1:成功
首先来一段最新的英文新闻报道(目前还不支持测中文):
将它粘贴进测试框(需注意每句至少5个单词,建议每段能有10个句子,结论会更准一些)。
很快,GPTZero计算出这段文本的总文本困惑度为27,句子平均困惑度为171.2,每条句子的困惑度图长这样:
以及困惑度最高的句子的值为476。
看那个结论,估计你也猜出了GPTZero的答案:
是人类文明写的。
答对了。
测试2:失败
来一段ChatGPT的。
将文本粘贴进测试框,得出这段文本的总文本困惑度为31,句子平均困惑度为76.67,每条句子的困惑度图长这样:
以及困惑度最高的句子的值为99。
看起来,每项困惑度值都和上面那段差距都挺大的,应该能猜出来是AI写的吧。
不过遗憾的是,GPTZero无法给出答案,还希望我们再多加一点文本试试。
显然,这段话字数够多,但句子不够多,无法让GPTZero一眼识破ChatGPT的“伪装”。
测试3:成功
那我们再来一段ChatGPT的试试。
这回文本够长,句子也够多。
果然没难题了,GPTZero直接答对:
好像确实摸出来一点门道:
那就是字多的同时,句子数量也一定要多,至少5句,好让GPTZero通过直方图的分布加码识别,最后的准确率就可以提高一些。
另外还须要提的是,我们发那时挑战失败的情况中,除了上面这种识别不出来的时候,也有直接识别错误的——
比如说把AI写的判断成人写的:
把人写的新闻报道判断成AI的:
这种情况按照上面所说的窍门,再多加点文本可能就能将结论扳回来。
(注意是可能哈,就上面这段新闻报道,我们把所有文本都粘进来了,它也说不行,还说要再多来点。)
普林斯顿华裔老赵出品
创建该中文网站的,是两个22岁的华人老赵Edward Tian,来自加拿大多伦多。
目前是美国普林斯顿CS专业大四学生,辅修认知科学和新闻报道学,对软件工程、机器学习等有浓厚的兴趣。
他那时微软实习,曾在BBC、贝灵猫等公司撰写过科技稿件,还曾加入到地图工具Representable的创始团队。
学习期间,他曾来到清华大学参加为期四周的城市研究研讨会。
据他表示,那个应用程序是新年假期在咖啡店完成的。
之所以想要开发这款应用程序,简而言之就是因为有太多ChatGPT炒作,人类文明应该知道有哪些是AI写的该文。
目前仍处于准系统阶段,预计在接下来几周内改进模型和预测。
除此之外,他还透露,正在测试由学生撰写的新闻报道该文数据集,并希望最终能发表论文。
更多ChatGPT杀手
事实上,也不只有这位老赵看ChatGPT不顺眼了。还有其他人类文明组织也适当开发了AI文本检测器,AKA ChatGPT杀手。
大体思路也都差不多,那就是“用魔法打败魔法”,用AI写的小东西来训练新AI。
前阵子,OpenAI自己联合哈佛等高校机构联合打造了一款检测器:GPT-2 Output Detector。
译者们先是发布了两个“GPT-2生成文本”和WebText(专门针对从国外贴吧Reddit上扒下来的)数据集,让AI理解“AI语言”和“人话”之间的差异。
随后,用那个数据集对RoBERTa模型进行微调,就得到了那个AI检测器。其中人话一律被识别为True,AI生成的文本则一律被识别为Fake。
(RoBERTa是BERT的改进版。原始的BERT使用了13GB大小的数据集,但RoBERTa使用了包含6300万条英文新闻报道的160GB数据集。)
另一名早年代表选手,也因为这次新进展再次被提及。
它就是MIT-IBM沃森AI实验室的以及哈佛NLP实验室开发的GLTR模型。
它主要通过对文本进行统计预测和可视化,而用来检测的是最初用来生成文本的相同or类似模型。目前主要支持GPT-2和BERT两个模型。
由于输出是模型知道的所有单词排名,根据排名对文本每个单词进行颜色编码,前10名是绿色,前100名是黄色,前1000名是红色,紫色则是不太可能出现的词。
如果一段文本黄绿色过多,那么这段文本主要是由AI生成的。
此番GPTZero再度亮相,不少网友惊叹:Incredible work!
但也有人表示,文本检测器根本就是一场失败的军备竞赛,他们的实际效果并不好。也阻挡不了ChatGPT的发展。
与此同时,还有网友探讨起关于「该文是否须要明确指示由AI却是人类文明编写」的必要性。
有位词曲创译者认为,这是有必要的,就像在看杂志时会标注“广告”,这应该是两个简单的要求。
但有网友立即表示反对,为什么要设置障碍?这就跟使用PS然后加上Adobe水印,对产品没有任何益处。
对那个难题,你是不是看呢?