AI 所生成文本的最权威评估者并非人类

（原标题：人类评估已不是 NLG 的最佳标准，华盛顿大学提出全新观点，网友：那是评估人水平不行）AI 生成的文本好不好，最权威的评估者竟然不是人类自己？最近，华盛顿大学和艾伦人工智能研究院的学者们在研究中发现：未经过训练的人类评估文本时，往往过分关注生成文本像不像人话，而忽略了生成文本更重要的问题，即它的内容是否正确、合乎逻辑。研究人员就给出了一个例子：他们分别让未经训练的人类和机器来评价一段 GPT-3 生成的文字。这段文字翻译过来为：从前，有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上，也不愿驶向外国港口寻找战利品的海盗。他是个好海盗，高尚的海盗，诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。人类评估员认为这段文字除了有些啰嗦外，没什么大毛病。这可能就是一个海盗想回家陪老婆孩子吧，AI 可能没理解，但是这也没什么稀奇的。机器评估也认为这段文字很啰嗦，不过它对文段的内容提出了质疑：海盗会有老婆孩子？还不和他一起在船上生活？对比两种判断，人类评估更看重这段话像不像人话，在检验过它的确非常流畅后，就会默认这段文本没什么大问题了。而机器的判断角度则更加多维，会考虑到文字传达的意思是否正确。很难分辨出 GPT-3 生成的文本为了验证自己的观点，研究人员让未经训练的评估人员来区分人类写的文本和 AI 生成的文本。他们选择了故事、新闻、菜谱三种不同的文体进行测试。具体测试中，受试人员不仅要判断给出的文本是否人类创作的，还要填写相应的理由。结果显示，在区分人类和 GPT-2 创作的文本时，被测试群体的正确率为 57.9%。但是在区分 GPT-3 生成的文本上，正确率就下降到了 49.9%。而二选一问题的随机概率就有 50%……显然，普通人已经很难识别出当下最先进的 NLG 模型所生成的文本。为了更进一步了解受试人员是如何做出判断的，研究人员对 150 个回答进行了分析。结果发现，受试人员在做出判断后，更加倾向于从文本的格式、风格、语法角度上给出理由。150 个回答中，基于文本形式的判断几乎是基于内容判断的 2 倍。但是，GPT-3 在文本流畅度方面的表现其实已经非常出色，这或许也是为什么人类很难分辨 GPT-3 生成文本。而且研究人员发现，受试人员给出判断的理由都不尽相同，这也表明人类评估文本没有一个明确的标准。既然 NLG 模型训练后可以变强，那培训一下评估人员呢？研究人员决定对一些受试人员进行了培训，提高他们评估文字的能力和速度。他们准备了 3 种不同的培训：第一种是给出明确的判断标准，让受试人员学习后来判断；第二种是通过大量的实例训练，也就是题海战术；第三种是通过不断对比来完成训练。然而结果表明，这好像并没有什么用。三种培训后的判断正确率分别为 52%、55%、53%，相较于未受训时的表现，没有显著提高。不过从受试人员的回答中可以看到，更多人现在会多维度判断文本了，还是有进步的。基于这样的实验结果，研究人员认为在评估最先进的 NLG 模型方面，人类可能真的不太靠谱了。这实验不太靠谱对于这样的结论，网友们提出了一些不同的看法：判断文本质量其实是一件非常艰巨的任务，需要专家来进行评估。或许是这项研究中的受试人员不太行？有人就指出了问题所在：他们用的 Amazon Mechanical Turk 的评估员。是受试人员不太行。AMTurk 作为一个众包平台，近年来实在是饱受诟病。此前 BBC 报道称，由于招募到的志愿者所在的地区存在一些观念偏见，导致最后研究出的算法也存在偏见。而且招募到的人员水平也常常参差不齐。不过有人也表示：这些人可能也是最适合的，因为他们最接近普通大众水平，专家认为好的文字，普通人未必也这么认为。这要取决于生成文本的目标人群是谁。实验中的志愿者对乔伊斯（后现代文学作家）的欣赏程度肯定和英文系教授不同。尽管顶级文学评论家将其描述为“20 世纪实验文学的伟大纪念碑之一”和“英语中最美丽的散文诗之一”，但对于大多数普通读者而言，它非常晦涩难懂。此外，也有人就对这项研究提出了改进建议：我认为他们可以用更简单的 NLG 算法 (基于规则，n-gram, rnn) 进行更精细的分析，并对“非专家”评估者进行排名，而不是将他们作为一个群体来处理。而关于 NLG 模型生成文本的评估问题，谷歌曾给出过一个方案。2020 年，它们提出了一个可量化评估 NLG 模型性能的指标 ——BLEURT。这是一个基于 BERT 的学习评价指标，在学习了几千个人类评估案例后，它可以对不同模型生成的文本进行打分。其最大的优势就是，评估速度更快。谷歌研究人员认为这个指标有助于 NLG 模型的研究和开发，而且可以为开发人员提供更加多维的评判标准。

3399IT网

AI 所生成文本的最权威评估者并非人类

作者: QbitAI

作者: QbitAI

为您推荐

曾学忠：小米手环销量累计达 1.4 亿只，小米手环 7 是“有史以来最强的小米手环”

再秀肌肉？特斯拉第二届 AI 日活动确认将于 8 月 19 日举行

众筹价 699 元，小米推出米家智能 IH 多功能料理锅：支持煎烤蒸煮焖炒，可 OTA 一键升级

机器人公司花 20 万美元购买人脸使用权，要求“和蔼可亲”

小度发布添添智能健身镜：能捕捉 19 个人体关键骨骼点，4199 元起

小度智能摄像头电视 V75 发布：4K 分辨率，支持杜比视界，5699 元