新足迹

 找回密码
 注册

精华好帖回顾

· 小学一年纪的小朋友课外兴趣+补习班的费用 (2008-7-11) daffodil · 煮夫手记十三 京东肉饼 最是那第一口的诱惑 (2011-2-22) amon54
· 买了个小聪明,爱不释手~ (2014-5-19) 小麦麦 · 梦竟成真 (2005-4-21) 清水胖头鱼
Advertisement
Advertisement
查看: 1989|回复: 2

【转:AI,正在疯狂污染中文互联网!】 [复制链接]

发表于 2023-6-20 12:23 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
在新闻版和小红妹开始了些这个话题,虽然我知道他只是在活跃气氛,但是觉得有必要把这篇文章分享出来,让论坛今后更多【拿着中文AI作为论据的同学们三思】。


关注前沿科技 量子位 2023-06-18 14:36 Posted on 北京


污染中文互联网,AI成了“罪魁祸首”之一。

事情是这样的。

最近大家不是都热衷于向AI咨询嘛,有位网友就问了Bing这么一个问题:

象鼻山是否有缆车?


Bing也是有问必答,给出了看似挺靠谱的答案:



在给出肯定的答复之后,Bing还贴心地附带上了票价、营业时间等细节信息。

不过这位网友并没有直接采纳答案,而是顺藤摸瓜点开了下方的“参考链接”。



此时网友察觉到了一丝丝的不对劲——这人的回答怎么“机里机气”的。

于是他点开了这位叫“百变人生”的用户主页,猛然发觉,介是个AI啊!



因为这位用户回答问题速度可以说是极快,差不多每1、2分钟就能搞定一个问题。

甚至能在1分钟之内回答2个问题。

在这位网友更为细心的观察之下,发现这些回答的内容都是没经过核实的那种……



但尽管如此,也有其他网友直言不讳地表示:

不止一个。

若是点开知乎的“等你回答”这个栏目,随机找一个问题,往下拉一拉,确实是能碰到不少“机言机语”的回答。

例如我们在“AI在生活中的应用场景有哪些?”的回答中便找到了一个:



不仅是回答的语言“机言机语”,甚至回答直接打上了“包含AI辅助创作”的标签。

然后如果我们把问题丢给ChatGPT,那么得到回答……嗯,挺换汤不换药的。



事实上,诸如此类的“AI污染源”不止是在这一个平台上有。

就连简单的科普配图这事上,AI也是屡屡犯错。



网友们看完这事也是蚌埠住了:“好家伙,没有一个配图是河蚌”

甚至各类AI生成的假新闻也是屡见不鲜。

例如前一段时间,便有一则耸人听闻的消息在网上疯传,标题是《郑州鸡排店惊现血案,男子用砖头砸死女子!》。



但事实上,这则新闻是江西男子陈某为吸粉引流,利用ChatGPT生成的。

无独有偶,广东深圳的洪某弟也是通过AI技术,发布过《今晨,甘肃一火车撞上修路工人, 致9人死亡》假新闻。

具体而言,他在全网搜索近几年的社会热点新闻,并使用AI软件对新闻时间、地点等进行修改编辑后,在某些平台赚取关注和流量进行非法牟利。

警方均已对他们采取了刑事强制措施。



但其实这种“AI污染源”的现象不仅仅是在国内存在,在国外亦是如此。

程序员问答社区Stack Overflow便是一个例子。

早在去年年底ChatGPT刚火起来的时候,Stack Overflow便突然宣布“临时禁用”。

当时官方给出来的理由是这样的:

    (这样做)的目的是减缓使用ChatGPT创建的大量答案流入社区。

    因为从ChatGPT得到错误答案的概率太高了!




Stack Overflow进一步阐述了这种现象。

他们认为以前用户回答的问题,都是会有专业知识背景的其他用户浏览,并给出正确与否,相当于是核实过。

但自打ChatGPT出现之后,涌现了大量让人觉得“很对”的答案;而有专业知识背景的用户数量是有限,没法把这些生成的答案都看个遍。

加之ChatGPT回答这些个专业性问题,它的错误率是实实在在摆在那里的;因此Stack Overflow才选择了禁用。

一言蔽之,AI污染了社区环境

而且像在美版贴吧Reddit上,也是充斥着较多的ChatGPT板块、话题:



许多用户在这种栏目之下会提出各式各样的问题,ChatGPT bot也是有问必答。

不过,还是老问题,答案的准确性如何,就不得而知了。

但这种现象背后,其实还隐藏着更大的隐患。

滥用AI,也毁了AI

AI模型获得大量互联网数据,却无法很好地辨别信息的真实性和可信度。

结果就是,我们不得不面对一大堆快速生成的低质量内容,让人眼花缭乱,头晕目眩。

很难想象ChatGPT这些大模型如果用这种数据训练,结果会是啥样……



而如此滥用AI,反过来也是一种自噬。

最近,英国和加拿大的研究人员在arXiv上发表了一篇题目为《The Curse of Recursion: Training on Generated Data Makes Models Forget》的论文。



探讨了现在AI生成内容污染互联网的现状,然后公布了一项令人担忧的发现,使用模型生成的内容训练其他模型,会导致结果模型出现不可逆的缺陷

这种AI生成数据的“污染”会导致模型对现实的认知产生扭曲,未来通过抓取互联网数据来训练模型会变得更加困难。

论文作者,剑桥大学和爱丁堡大学安全工程教授Ross Anderson毫不避讳的直言:

正如我们用塑料垃圾布满了海洋,用二氧化碳填满了大气层,我们即将用废话填满互联网。


对于虚假信息满天飞的情况,Google Brain的高级研究科学家达芙妮 · 伊波利托(Daphne Ippolito)表示:想在未来找到高质量且未被AI训练的数据,将难上加难。

假如满屏都是这种无营养的劣质信息,如此循环往复,那以后AI就没有数据训练,输出的结果还有啥意义呢。

基于这种状况,大胆设想一下。一个成长于垃圾、虚假数据环境中的AI,在进化成人前,可能就先被拟合成一个“智障机器人”、一个心理扭曲的心理智障。




参考链接:
[1]https://www.v2ex.com/t/948487
[2]https://twitter.com/oran_ge/status/1669160826186633219
[3]https://www.qbitai.com/2022/12/40167.html
[4]https://arxiv.org/abs/2305.17493v2
[5]https://albertoromgar.medium.com/generative-ai-could-pollute-the-internet-to-death-fb84befac250
[6]https://futurism.com/ai-generates-fake-news




【全文完】









本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)
Advertisement
Advertisement

2019年度勋章

发表于 2023-6-20 12:32 |显示全部楼层
此文章由 superdigua 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 superdigua 所有!转贴必须注明作者、出处和本声明,并保持内容完整
GPT4 好像问题不大。

象鼻山是否有缆车?
ChatGPT
象鼻山,位于中国广西壮族自治区桂林市,是桂林的地标性景点之一。然而,据我在2021年9月前的知识库里的信息,象鼻山并没有设置缆车。游客通常是步行游览。

然而,信息可能会随着时间的推移而改变,因此,建议你查阅最新的旅游指南或直接联系当地的旅游信息中心以获取最准确的信息。
舆论自由意味着容忍自己不喜欢的言论的存在。
我的观点当然可能是错误的。可以拉黑,无权屏蔽。

发表于 2023-6-20 12:37 来自手机 |显示全部楼层
此文章由 社区 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 社区 所有!转贴必须注明作者、出处和本声明,并保持内容完整
看过一个研究说用AI生成的内容训练Ai之后生成内容的质量会快速下降。

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部