新足迹

 找回密码
 注册

精华好帖回顾

· 爸爸菜谱- 糟鸭舌 (2007-12-16) patrickzhu · 一个绿P菜鸟的自白 (2008-12-2) UEJ
· DIY实木地板(全部完成了!)06/07更新 (2009-6-7) barry.wang1 · 五个孩子的农场生活记录(更新《留住这一刻》) (2017-5-19) Alicefowley
Advertisement
Advertisement
查看: 2048|回复: 23

[IT] 中国怎么训练类似ChatGPT的大语言模型? [复制链接]

头像被屏蔽

禁止发言

发表于 2023-4-2 10:48 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
感觉中国的墙在前些年好像影响不大,不至于到让经济失去竞争力的地步。但到了AI时代就很致命了。
现在大家都看到了chatgpt和各种集成chatgpt的工具(新版office之类)在中国不能用。

下一步就是墙内的文字没法用于训练AI(充斥着反逻辑的洗脑文和逃避删帖和审查的用户略说语,故意说的反话之类),这样的材料训练出来的AI,智商好不了。
如果用英文训练,也不大可能。因为英文的文章和用户发言里,充斥着对中国的“偏见”和完全不同的世界观。这样训练出来的AI,被墙内用户随便问问,就发现逻辑思路和观点跟墙内不一样。说出什么敏感的事,那是不想活了(比如写篇参观天安门广场的小学生作文,AI提到了坦克)。

好奇他们怎么办?
Advertisement
Advertisement

发表于 2023-4-2 10:56 来自手机 |显示全部楼层
此文章由 KiwiBear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 KiwiBear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
国内反过来更容易,因为隐私不值钱

发表于 2023-4-2 11:08 来自手机 |显示全部楼层
此文章由 coffee_bean 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 coffee_bean 所有!转贴必须注明作者、出处和本声明,并保持内容完整
就是正常拿国内的数据训练呗,反正也不是给外国人用的,是不是符合外国人的逻辑和智商不重要,重要的是符合中国特色的逻辑和智商就好。洗脑更多一个利器。
头像被屏蔽

禁止发言

发表于 2023-4-2 11:09 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
KiwiBear 发表于 2023-4-2 09:56
国内反过来更容易,因为隐私不值钱

AI可不是微信聊天记录里能训练出来的吧

发表于 2023-4-2 11:44 |显示全部楼层
此文章由 cppbug 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cppbug 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不仅是垃圾数据的问题,国内这些企业据说还是用的国外GPT 3.0开源版本,这样和国外只会越拉越远

发表于 2023-4-2 12:00 来自手机 |显示全部楼层
此文章由 a711012 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 a711012 所有!转贴必须注明作者、出处和本声明,并保持内容完整
就像苏联只能造电子管一样
Advertisement
Advertisement

发表于 2023-4-2 12:09 |显示全部楼层
此文章由 vampire_k 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 vampire_k 所有!转贴必须注明作者、出处和本声明,并保持内容完整
大家觉得AI会带来下一次工业革命吗?

发表于 2023-4-2 12:18 |显示全部楼层
此文章由 nineyes 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nineyes 所有!转贴必须注明作者、出处和本声明,并保持内容完整
那当然是等别的公司开源啦

发表于 2023-4-2 12:25 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
LZ还是花一点点,就那么一点点时间,少许了解一下ChatGPT 的皮毛吧
不然还是更适合回大千

还真以为光靠爬虫网上随便爬点网页来就训练ChatGPT了?
真的懒,可以直接问ChatGPT 自己
like hell
头像被屏蔽

禁止发言

发表于 2023-4-2 12:38 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2023-4-2 11:25
LZ还是花一点点,就那么一点点时间,少许了解一下ChatGPT 的皮毛吧
不然还是更适合回大千


ChatGPT自己的回答
“ChatGPT 是由 OpenAI 团队使用大量的公共互联网语料库进行训练的,包括英文、西班牙文、德文、法文、意大利文、葡萄牙文和荷兰文等多种语言的语料库。这些语料库主要包括维基百科、新闻文章、电子书、科学文献和网络论坛等多种来源,其中也包括社交媒体的数据。在训练过程中,ChatGPT 会尝试自动捕捉语言中的模式和规律,并在回答问题时基于这些模式和规律生成相应的回答。”

网页还真是ChatGPT的主要训练来源

发表于 2023-4-2 12:53 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
“语料库主要包括维基百科、新闻文章、电子书、科学文献和网络论坛等多种来源,其中也包括社交媒体的数据”

以上这句话是能理解成:网页是主要训练来源?

结合顶楼的问题,中国的墙,不耽误获取优质训练数据集:
优质的电子书(电子图书馆,商业书籍,经典教科书,中外译著)、
科学文献(中外大部分)和
维基百科(部分访问)、
新闻文章(政治选择)、

网络论坛等多种来源,其中也包括社交媒体(这些训练的时候不是重点,可以和GPT4一样结合搜索引擎后期再获得。碳基人类训练好学生用经典教材,学术文献也已经很足够了)


国内AI 和 OpenAI的差距在于算法差距,以及硬件的export control
like hell
Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2023-4-2 13:00 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2023-4-2 11:53
“语料库主要包括维基百科、新闻文章、电子书、科学文献和网络论坛等多种来源,其中也包括社交媒体的数据” ...

"维基百科、新闻文章、电子书、科学文献和网络论坛等多种来源,其中也包括社交媒体"

维基百科,新闻文章,网络论坛,社交媒体,6个中占了4个都来自互联网。这还不叫主要来自互联网?而且维基百科和新闻文章是放在最前面的两个。

另外,墙内没法用中文维基训练。也是因为中文维基大部分是港台人写的。

图书之类的,中文书能跟英文书比深度和广度?跟墙内互联网区别不大。也是深度审核后的产物。

发表于 2023-4-2 13:04 |显示全部楼层
此文章由 tigerbalm 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tigerbalm 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Do not overestimate the usefulness of ChatGPT. On the contrary, like mobile phone applications, ChatGPT is going to make many people with no self control stupid in the long run.  

发表于 2023-4-2 13:05 |显示全部楼层
此文章由 floodp 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 floodp 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主多虑了,全用墙内内容也能训练出墙内逻辑的gpt。

发表于 2023-4-2 21:22 |显示全部楼层
此文章由 飞翔翼 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 飞翔翼 所有!转贴必须注明作者、出处和本声明,并保持内容完整
q60r 发表于 2023-4-2 12:00
"维基百科、新闻文章、电子书、科学文献和网络论坛等多种来源,其中也包括社交媒体"

维基百科,新闻文章 ...

你觉得那些政治类的对科技发展有很大的影响吗?退一步讲,即使训练出的AI会说一些政治不正确的话,在AI前面加个前端过滤掉不就完了,又不影响AI本身。中国的问题是模型和算力(短期是够用的),而不是内容。
头像被屏蔽

禁止发言

发表于 2023-4-2 22:12 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
飞翔翼 发表于 2023-4-2 20:22
你觉得那些政治类的对科技发展有很大的影响吗?退一步讲,即使训练出的AI会说一些政治不正确的话,在AI前 ...

中文网络在历次网络大清洗中留下的有价值的东西不多了,即使是科技类的。由于墙内建网站很难,监管成本高,导致墙内没多少专业性论坛和专业性网站了。

举个例子,你在墙内给我找个海拔从0到100公里,甚至近地球外太空的空气密度表格吧。
或者“高能量GTO”是什么意思?

这都是chatgpt里直接能问出来的东西。英文网站里也都有。但墙内没有
Advertisement
Advertisement

发表于 2023-4-2 22:37 |显示全部楼层
此文章由 飞翔翼 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 飞翔翼 所有!转贴必须注明作者、出处和本声明,并保持内容完整
q60r 发表于 2023-4-2 21:12
中文网络在历次网络大清洗中留下的有价值的东西不多了,即使是科技类的。由于墙内建网站很难,监管成本高 ...

怎么说呢,公共网站上没有的东西不代表就真没有,就像你提到的这个问题,看起来像个数据统计,公网上没有不代表统计部没有。当然争论这个没什么意思,我们在论坛上也就是胡猜,猜对了如何,猜错了如何?

发表于 2023-4-2 23:11 |显示全部楼层
此文章由 Enervate 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Enervate 所有!转贴必须注明作者、出处和本声明,并保持内容完整
数据上没问题的,中国甚至在有些方面更有优势,比如人脸识别,到处都是摄像头

十几亿人口,社交媒体,出行,刷卡全部联网实名制,楼主你担心数据不够?

发表于 2023-4-2 23:16 |显示全部楼层
此文章由 Enervate 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Enervate 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主你的想法还有点奇葩啊,居然害怕智商不够!

我担心将来中国政府利用AI直接建一个天网,真正意义上的实时监控

发表于 2023-4-2 23:19 |显示全部楼层
此文章由 明月星光 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 明月星光 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Enervate 发表于 2023-4-2 22:16
楼主你的想法还有点奇葩啊,居然害怕智商不够!

我担心将来中国政府利用AI直接建一个天网,真正意义上的实 ...

微信电话短信等早就实时监控了。
川普胜,美国乱;拜登胜,世界战。

发表于 2023-4-2 23:23 |显示全部楼层
此文章由 Enervate 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Enervate 所有!转贴必须注明作者、出处和本声明,并保持内容完整
明月星光 发表于 2023-4-2 22:19
微信电话短信等早就实时监控了。

对啊,这不都是大数据么,楼主担心啥?
Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2023-4-3 00:15 |显示全部楼层
此文章由 q60r 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 q60r 所有!转贴必须注明作者、出处和本声明,并保持内容完整
飞翔翼 发表于 2023-4-2 21:37
怎么说呢,公共网站上没有的东西不代表就真没有,就像你提到的这个问题,看起来像个数据统计,公网上没有 ...

你说的是墙内有足够的科技内容用于训练,我的说法是没有

发表于 2023-4-3 00:18 来自手机 |显示全部楼层
此文章由 ozkids2011 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozkids2011 所有!转贴必须注明作者、出处和本声明,并保持内容完整
自己搞那得猴年马月才能出成绩,搞个山寨的界面就行了,背后准备一个大型的服务团队,拷贝问题去问ChatGPT,再把答案拷回来就好

发表于 2023-4-3 00:37 |显示全部楼层
此文章由 flyinfree 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flyinfree 所有!转贴必须注明作者、出处和本声明,并保持内容完整
ozkids2011 发表于 2023-4-2 23:18
自己搞那得猴年马月才能出成绩,搞个山寨的界面就行了,背后准备一个大型的服务团队,拷贝问题去问ChatGPT ...

你的意思是:做一个AI系统,专门把问题转提交给CHATGPT然后对答案进行辩识然后自主分析是否需要“改造”?

听上去,这套方案可能会比较更有成功性一点。

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部