写稿能“查重” 西湖大学团队研发AI生成文本检测模型
近日,张岳接受中新网专访。 曹丹 摄
随着科技创新的不断推进,AI正成为新生创作力量。
张岳也试着用不同的人工智能大模型搜索并整理部分工作素材,这之中他也时常遇到“AI幻觉”问题,“我需要一篇文献,在搜索时,AI给出了相关推荐,里面标注了作者、标题,甚至是摘要,但当我上网查找时,却发现文章并不存在,这就是典型的幻觉问题”。
这种“虚构”现象被称为“AI幻觉”,即AI在遇到不熟悉或超出其知识范围的问题时,会编造出难以辨明真假的细节,生成与事实相悖的答案。
这也是近期用户与大模型交互时可能遇到的问题。
张岳注意到,在教育领域,若本科生的毕业设计大量使用AI撰写,可能会出现“AI幻觉”问题,引用不存在的参考文献,“这不仅无法真实反映学生的水平,还会传播错误知识”。
而在新闻领域,如果AI生成的虚假新闻被发表,可能对舆情造成负面影响。
“因此,检测文本是否由AI生成至关重要。”张岳解释道,如何确保AI生成内容的可控性,首先需要解决一个基础问题——准确判断一个文本是否由AI撰写,这被称为AI生成文本的自动检测。
如何对AI生成文本进行检测?
在张岳看来,传统方法,如有监督的机器学习算法,存在显著局限。它们依赖于收集的人写和机器写的训练数据,但只能准确判断训练数据中包含的模型或领域文本。对于新的模型或领域,如生物医药论文,其性能会大幅下降。
为了克服这一局限,张岳团队研究并设计了一种无监督的算法模型。
无监督算法是机器学习中的一种方法,它不需要预先标记的数据,而是通过算法自动发现数据中的模式、结构和关联。
张岳说:“AI在遣词造句时,会根据已出现的词汇选择概率较高或经验风险较低的词。而人类则先确定想表达的内容,再将其翻译成句子,不受统计分布的限制。”
利用这一本质差别,这一研发模型可以对任何文本进行概率判断和估算,从而判断其是否由AI撰写。
目前,张岳团队已经展示了Demo版本,并吸引了大量用户。同时,他们也在与一些实际应用场景合作,进行简单部署。
“请写一篇描写西湖的文章。”在现场,张岳团队成员鲍光胜在一个人工智能大模型中输入了这个请求。在生成文本后,他将内容拷贝在Demo版本的应用中。作者注意到“AI创作率”结果显示为“90%”。
未来,随着该模型的推广,它将有助于解决教育领域、新闻领域等实际问题。
- 写稿能“查重” 西湖大学团队研发AI生成文
- 山东海阳:航天育种为农业注入“太空能量”
- 宁夏将与内蒙古、甘肃、陕西开展腾格里沙漠
- 最新研究:青藏高原中部千万年前历经三阶段
- 专家:认知障碍并非自然衰老必然结果 早期
- “大唐荔乡”广东高州荔枝成花率超九成 客
- 平陆运河马道枢纽上游航道停泊锚地顺利通水
- 探访秦岭脚下的“解忧杂货店”
- 广东遭遇强对流天气 雷暴大风冰雹登场
- 新一股冷空气来袭,局地将迎大幅度降温
- 任福耀科技大学校长,王树国:0工资,为了
- 美味不够滤镜凑 美图诱惑几时休
- 科研人员发现荷花香气主要来源于雄蕊
- 薅你没商量!微短剧精准“围猎”银发族
- “中药调酒”走俏 养生还是智商税?
- 今年春招就业形势有何变化?新兴行业哪些需
- 上海虹桥机场查获卷烟及加热卷烟共计5万余
- 冰雪运动展活力:吉林雪场“新职业”成热门
- 埃及商人亨利的泉州故事:用语言培训搭建友
- 广东部署近期全省强降雨防御工作
- 西藏林芝市桃花节推介会在南京举办 邀游客
- 武汉东湖樱花季启幕 花式赏樱解锁春日浪漫
- 棉衣先别收!冷空气将影响我国大部,江南华
- 国补叠加旧车回收多重优惠 “小电驴”市场
- 关节神药,谁给的神通?
- 便捷背后存在信息泄露风险 手机智能助手应
- “技能交换”、代际互学 中国年轻人解锁灵
- AI能预测彩票号码?套路太深,千万别上当!
- @想减肥的人,健康减肥怎么吃、睡、运动?
- 国补叠加旧车回收多重优惠 “小电驴”市场