写稿能“查重” 西湖大学团队研发AI生成文本检测模型

发布时间：2025-03-13 17:50:52

编辑:

来源:中国新闻网

字体：大中小

“你的稿子是不是由AI创作的，通过我们的大模型就可以判断出来。”近日，西湖大学终身教授、自然语言处理实验室负责人张岳接受中新网专访时表示，在人工智能大模型应用热潮下，他们团队设计了一种“无监督算法”，将实现开放领域的AI生成文本检测。

近日，张岳接受中新网专访。　曹丹摄

随着科技创新的不断推进，AI正成为新生创作力量。

张岳也试着用不同的人工智能大模型搜索并整理部分工作素材，这之中他也时常遇到“AI幻觉”问题，“我需要一篇文献，在搜索时，AI给出了相关推荐，里面标注了作者、标题，甚至是摘要，但当我上网查找时，却发现文章并不存在，这就是典型的幻觉问题”。

这种“虚构”现象被称为“AI幻觉”，即AI在遇到不熟悉或超出其知识范围的问题时，会编造出难以辨明真假的细节，生成与事实相悖的答案。

这也是近期用户与大模型交互时可能遇到的问题。

张岳注意到，在教育领域，若本科生的毕业设计大量使用AI撰写，可能会出现“AI幻觉”问题，引用不存在的参考文献，“这不仅无法真实反映学生的水平，还会传播错误知识”。

而在新闻领域，如果AI生成的虚假新闻被发表，可能对舆情造成负面影响。

“因此，检测文本是否由AI生成至关重要。”张岳解释道，如何确保AI生成内容的可控性，首先需要解决一个基础问题——准确判断一个文本是否由AI撰写，这被称为AI生成文本的自动检测。

如何对AI生成文本进行检测？

在张岳看来，传统方法，如有监督的机器学习算法，存在显著局限。它们依赖于收集的人写和机器写的训练数据，但只能准确判断训练数据中包含的模型或领域文本。对于新的模型或领域，如生物医药论文，其性能会大幅下降。

为了克服这一局限，张岳团队研究并设计了一种无监督的算法模型。

无监督算法是机器学习中的一种方法，它不需要预先标记的数据，而是通过算法自动发现数据中的模式、结构和关联。

张岳说：“AI在遣词造句时，会根据已出现的词汇选择概率较高或经验风险较低的词。而人类则先确定想表达的内容，再将其翻译成句子，不受统计分布的限制。”

利用这一本质差别，这一研发模型可以对任何文本进行概率判断和估算，从而判断其是否由AI撰写。

目前，张岳团队已经展示了Demo版本，并吸引了大量用户。同时，他们也在与一些实际应用场景合作，进行简单部署。

“请写一篇描写西湖的文章。”在现场，张岳团队成员鲍光胜在一个人工智能大模型中输入了这个请求。在生成文本后，他将内容拷贝在Demo版本的应用中。作者注意到“AI创作率”结果显示为“90%”。

未来，随着该模型的推广，它将有助于解决教育领域、新闻领域等实际问题。

关键词：

热门推荐

最近更新

酷图美文