美国媒体揭开大模型阴暗面：训练用的数据可能有点脏-看点

 当前位置：首页 > 滚动 > > 正文

来源：腾讯网时间：2023-04-20 12:46:24

 字号：大中小

(资料图)

财联社4月20日讯（编辑史正丞）在过去半年不到的时间里，许多地球上的人类已经接触到AI聊天机器人的魅力和魔力。但归根结底，目前并没有AI已经产生像人类一样的自我意识，它们能够模仿人类讲话，主要原因是算法“吸收”了大量的文本——大部分是从互联网上抓取的。

互联网上蕴含着大量有用、有益的经验和知识，但数字时代的网民们也不得不承认，在烟波浩渺的互联网信息丛林中，也蕴含着大量偏见、歧视、有害，以及侵犯名誉和隐私的内容。种种迹象显示，这些“人类的禁忌知识”也被大模型照单全收了。

当地时间周三，《华盛顿邮报》发表了与艾伦人工智能研究院合作进行的调查结果，他们拆解了谷歌的C4数据集，这也是许多知名英语AI大模型的训练材料，例如谷歌的T5和Facebook的LLaMA。中国投资者更关注的OpenAI并没有公布训练ChatGPT所用的数据集，所以这也是目前窥得AI数据黑箱的最便利解决方案。

AI数据集黑箱揭秘

值得一提的是，调查人员使用了SimilarWeb的网站分类数据，由于C4数据集中有三分之一的网站已经不存在这个世界上了，所以实际统计的数据大约为1000万个网站。

根据研究，囊括全球专利信息的谷歌专利网、维基百科和订阅制数字图书馆scribd的资料权重位列整个数据集前三。但随着列表往下翻，一系列意想不到的名字开始出现。

已经被美国司法部查封的盗版电子书网站b-ok.org高举第190位，类似这样因为侵犯版权被美国查封的网站还在数据集中出现至少27次。

（b-ok.org现在是这个样子的，来源：网站）

此外，《魔兽世界》玩家论坛wowhead也高居第181位，《赫芬顿邮报》创始人阿里安娜·赫芬顿办的行为转变课程网站thriveglobal也位居175位。令人意外的是，有两个美国投票人数据库网站也位列前100位。虽然投票人的数据本身是公开的，但大模型可能会把这些个人数据用在哪里，又有谁能说清楚呢？

接下来的数据则显示，AI大模型潜在的侵权问题，可能要比想象中更加严重。商业和行业网站是数据集中比重最大的分类，创意产品众筹网站kickstarter（25位）也出现在榜单里非常高的位置。这里就引出了一个新的问题，AI向用户提供的许多创意和市场营销答案，很有可能本身就是现成的作品。

研究人员也发现，超过50万的个人博客被收录进C4训练集中，这些作者显然没有因此得到过任何报酬。

作为AI训练的“富矿”，每天都大量生产经过审校内容的媒体也是训练集的最爱，纽约时报、洛杉矶时报、卫报、福布斯和赫芬顿邮报均挤进数据库比重前十。与许多艺术家一样，不少媒体目前也在向AI产业声索维权。由于美国媒体行业的复杂性，所以训练集中也能找到以极右翼、白人至上主义内容为主基调的网站。

事实上，谷歌在构建数据库的时候，已经意识到网络信息污染的问题，所以除了删除毫无意义和重复的语句外，特意用开源的“脏话过滤器”筛过一遍，但似乎有数量非常庞大的漏网之鱼钻了过去。研究人员就在训练集中找到至少7.2万个德国纳粹的标志性符号。

更令人担忧的是，训练集中也能找到宣扬种族主义、极右翼阴谋论（QAnon）的网页，而以组织网络暴力闻名的4Chan匿名聊天网站也出现在训练集中。

比起数据脏处理数据的态度更迷离

虽然C4训练集的数据已经非常庞大，但用于训练OpenAI GPT-3的网络爬虫数据集，从一开始就要比C4大40倍，背后的问题自然也会被同步放大。

但在GPT-3的论文中，OpenAI也公开讨论了一个细节：在防止测试数据被放进训练数据导致污染的过程中发现了一个BUG，但由于重新训练模型太贵、公司又没钱，所这个问题就放着不去管它了。

一些业内人士也透露，许多科技公司在内部都不会记录训练数据的来源，因为担心会发现个人信息数据，以及未经授权的材料或其他数据。

标签：

（b-ok.org现在是这个样子的，来源：网站）

美国媒体揭开大模型阴暗面：训练用的数据可能有点脏-看点

天天微动态丨乐橙云状态显示离线_乐橙云

tfboys歌曲大全_tboys

羽绒服“出场”倒计时！河南明日起大风、降水、强降温相继出现！ 天天速看

世界最资讯丨新型农村合作医疗怎么报销？农村合作医疗的报销流程一般如下

每日播报!2连板剑桥科技：年初以来股价累涨367.17%，高速光模块营收占比12.64%，对净利润贡献较小

泡辣椒的七彩辣椒腌制方法窍门（泡辣椒的七彩辣椒腌制方法）

北京长峰医院院长王某玲等12人被刑拘

全球消息！社会主义核心价值观的基本内容_什么是人生需要和价值观的概念

百度云网盘_百度moments 全球视点

美国路易斯安那州一名孕妇遭枪杀 枪手竟称认错了人 全球今头条

天天微动态丨小区物业宣传栏设计图片大全_小区物业宣传栏

演出直播收入超1.5亿元！线上演艺形成具有迥异魅力的“产品线” 世界快播报

Netflix第一季度营收81.62亿美元，净利润同比下降18% 实时

珠海格力集团增资至200亿，增幅2400% 天天日报

当前快讯:益生股份(002458)：业绩环比改善 周期拐点临近

中国星辰丨从无到有，中国载人航天如何大胆跨越？|新要闻

电力大数据“透视”广西经济稳增长 环球视点

能“吸水”、会“变身”……“绿色办赛 智慧大运”从场馆开始 世界新资讯

天天简讯:西宁周生生今日黄金价格多少钱一克（2023年4月19日）

道县：唐超学调研指导安全生产、防汛等工作

演讲回顾｜大道恒美朱美乐：新营销环境之下，如何实现企业品牌生长

环球资讯：Superdrug 将在 2023 年投资 25 家更大更好的新店

ADAS解释该技术由什么组成以及为什么它很重要

广西钦州市委书记林冠逝世，享年56岁

全球速读：首宗封顶！松山湖王者归来！楼面价26000元，金地的

护民图库彩图印刷_护民图库180tk-全球即时

可通过“通信ETF”配置算力板块|世界时讯

稳居TOP1！海尔、AQUA双品牌白电引领日本行业

宁波建工：截止2023年3月31日，公司股东总数为111429户_世界新动态

“中国第一展”万商云集 尽显开放决心、发展信心

上海首批集中供地首日：8宗地收金172亿元-天天实时

全球热门:如何制作超现实主义艺术

英特尔核芯显卡控制面板不见了_英特尔控制面板不见了|环球讯息

每日消息!代刷代还？团伙利用信用卡套现，涉案金额高达151亿！

欧盟对不锈钢管对焊管件作出第一次反倾销日落复审终裁-环球速讯

40家餐饮单位集体承诺杜绝浪费_环球热议

e.MMC的数据安全

国家发改委：生猪价格进一步明显下跌的可能性较小-环球观点

一季度我国财政收入回稳向上 环球微速讯

数万民众“赴约”北京书市 解锁纸质书新“看法”

环球微速讯：深夜探访火灾现场！仍有患者家属闻讯赶来。涉事医院系新三板公司

按图索冀｜古韵文庙展新颜

字节跳动，离不开广告的日子

全球热推荐：239元起！小米发布13大新品 价格信息这里一文看

每日看点！德国大众集团宣布在华投资10亿欧元用于纯电汽车开发

波兰内务部长：已经开始在波俄边境建设电子屏障 世界滚动

当前要闻：手机怎么打出斜体字（手机怎么打出斜体字型）

打造全域出行场景 捷途汽车携全系新能源车型亮相上海车展

3人创历史！CBA巅峰1战：男篮主帅拍板2俊才，郭艾伦赛后感动众人

羽绒服“出场”倒计时！河南明日起大风、降水、强降温相继出现！天天速看

美国路易斯安那州一名孕妇遭枪杀枪手竟称认错了人全球今头条

当前快讯:益生股份(002458)：业绩环比改善周期拐点临近

电力大数据“透视”广西经济稳增长环球视点

能“吸水”、会“变身”……“绿色办赛智慧大运”从场馆开始世界新资讯

“中国第一展”万商云集尽显开放决心、发展信心

一季度我国财政收入回稳向上环球微速讯

数万民众“赴约”北京书市解锁纸质书新“看法”

全球热推荐：239元起！小米发布13大新品价格信息这里一文看

波兰内务部长：已经开始在波俄边境建设电子屏障世界滚动

打造全域出行场景捷途汽车携全系新能源车型亮相上海车展