如何知道文本是否由人工智能生成

2023-02-19 10:00:25

导读通过ChatGPT等工具， AI生成的文本的影响越来越多地体现在我们的日常生活中。这些生成器由课堂上的老师测试，寻找替换实习生的营销人员，

通过ChatGPT等工具， AI生成的文本的影响越来越多地体现在我们的日常生活中。这些生成器由课堂上的老师测试，寻找替换实习生的营销人员，以及疯狂使用它们的模因创作者。就个人而言，我不禁担心机器人最终会取代我成为一名作家。

既然生成人工智能工具已经为大众所用，我们很可能会在浏览互联网时遇到更多的合成内容。其中一些可能是积极的，例如 BuzzFeed 自动生成的测验，它会告诉您哪种油炸甜点符合您的政治信仰，但其他一些可能更加险恶，例如外国政府策划的复杂宣传活动。

学术研究人员正在寻找方法来检测一串单词是否由 ChatGPT 等程序生成。但是，什么是您正在阅读的内容是在这项技术的帮助下创建的明确指标?答案很简单：缺乏惊喜。

人类是随机的

一段时间以来，出现了能够模仿自然书写模式的算法。2019 年，麻省理工学院-IBM 沃森人工智能实验室和哈佛大学发布了一种实验工具，可以分析文本并根据随机性水平突出显示单词。

为什么有用?基本上，人工智能文本生成器是一种能够模仿模式的机器，但并不擅长出人意料。诚然，当我们给老板发电子邮件或向朋友发送群组消息时，我们的语气和节奏似乎是可以预见的，但我们人类的沟通方式中却有一种异想天开的品质。

今年早些时候，普林斯顿大学学生Edward Tian以其专注于教育工作者的实验工具GPTZero引起了人们的关注。该工具根据内容的“复杂性”(即随机性水平)和“爆炸性”(即发散性水平)评估内容由 ChatGPT 生成的概率。ChatGPT 背后的公司 OpenAI 发布了一个额外的工具来分析超过一千个字符的文本并发表意见。然而，该公司一直坦承该计划的局限性，例如误报及其在英语以外的语言中的有效性有限。尽管 AI 文本生成主要侧重于英语，

CNET是一个专门的技术网站，最近发表了几篇由算法在人工帮助下撰写的文章。尽管田认为这些生成的文本永远无法取代人类记者的工作，但他承认这些技术进步是有益的。但是，ChatGPT 仍有一些局限性，可能会产生一些错误，从而影响报告的可靠性。

AI模仿随机性

马里兰大学计算机科学教授汤姆戈德斯坦预测，随着自然语言处理变得更加复杂，当前的检测工具将变得不那么有效。然而，他最近合作开展了一项关于潜在水印方法的研究，该方法可以纳入 AI 文本生成器以识别潜在的合成材料。水印可以禁止生成器使用某些单词模式，并且通过扫描内容并注意到强加的规则被多次违反，这表明该作品可能是人写的。

乔治敦大学安全和新兴技术中心的研究分析师 Micah Musser 对水印作为检测 AI 生成的文本篡改的措施的有效性表示怀疑。Musser 是一项关于打击 AI 篡改的缓解策略研究的贡献者之一，该研究还包括 OpenAI 和斯坦福互联网天文台。该报告重点介绍了使用人工智能生成操纵文本的潜在滥用和检测机会示例。

这篇文章提出了一种基于 2020 元研究的合成文本检测策略，该研究侧重于检测 AI 生成的图像。开发商和出版商可以不依赖模型制造商所做的更改，而是将“中毒”数据添加到他们的在线内容中，然后等待它被集成到用于训练 AI 模型的大型数据集中。通过这种方式，计算机可以寻找掺假内容的证据并检测合成文本的存在。

该报告建议，防止滥用大型语言模型的最有效方法就是不创建它们。然而，由于这似乎不太可能，它着重于使用人工智能进行合成文本检测的独特挑战。尽管已经提出使用“放射性数据”等策略来训练模型，但检测合成文本仍然比检测合成图像或视频内容困难得多。“放射性数据”的概念很难应用于文字，因为一条推文只能包含五个词，不像包含数百万像素的图像。

华盛顿大学艾伦人工智能研究所自然语言处理教授兼研究员诺亚史密斯指出，尽管英语模型很流畅，但它们仍然缺乏意向性。“我们从来没有想过，如果没有休息，流利会意味着什么。他们让我们感到困惑，”史密斯说。随着技术的进步，可能需要新的工具来确定文本是否是合成的，但像人类一样写作的技巧将保持不变：避免重复并保持随机性和不可预测性。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！