数据集具有自己的世界观吗?
inkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; letter-spacing: 0.544px; text-align: justify;">随同深度学习的不断日常化,数据会集的成见(bias)和公正性(fairness)已经成为一个抢手研讨方向。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; font-size: 15px;">成见在AI范畴是一个很扎手的论题:有些成见是有利的,例如噪声数据能够添加模型的鲁棒性,有些成见是有害的,例如倾向对有色人种辨认过错。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; font-size: 15px;">并且,当咱们得到一个不完美的模型的时分,其间的数据集究竟存在什么成见?这些成见是怎么发生的?
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; font-size: 15px;">谷歌的PAIR (People + AI Research)团队最近宣布了一篇博文,用一个很简单风趣的比如评论了这些问题。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; height: auto !important; visibility: visible !important;" width="768" height="171" alt="" />
portant; overflow-wrap: break-word !important; font-size: 15px;">假定咱们具有如下所示的不同形状的数据集,它们对应的标签是有无暗影,如下图。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; height: auto !important; visibility: visible !important;" width="758" height="261" alt="" />
portant; overflow-wrap: break-word !important; font-size: 15px;">使用页面上的交互式分类器,能够分类出如下的成果,并得出相应的准确性。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; height: auto !important; visibility: visible !important;" width="800" height="546" alt="" />
portant; overflow-wrap: break-word !important; font-size: 15px;">模型并不完美,为了对成果进行纠正,你或许想知道模型正在犯什么过错,或许,数据存在哪种类型的成见?
portant; overflow-wrap: break-word !important; font-size: 15px;">因为各个图形的首要差异在于形状,一个或许的成见存在于形状的不同。经过调查你或许以为三个最首要的形状首要是圆、三角形和矩形。为了证明这个假定,你要坚信你的模型在面临圆、三角形和矩形的时分模型的体现才能的相同的。接下来咱们来做公正性剖析(fairness analysis)。
portant; overflow-wrap: break-word !important; font-size: 15px;">
portant; overflow-wrap: break-word !important; font-size: 15px;">首要咱们需要对每个的形状进行标示,可是一个问题是,有些形状并不能很肯定地确认是什么形状,这时分有两种战略,一是把这种形状判别为最有或许是圆、三角形和矩形(with their best guess);一种是给出一个选项:上述三种形状都不是(as "other")。之后咱们剖析模型关于每一类形状的分类准确率。该交互式页面给了两种战略的成果:
【重要提醒】
↘↘点我免费发布一条本地便民信息↙↙(微信搜索13717680188加小编好友,注明,免费拉您进群聊),优先通过审核。内容来源网络如有侵权请联系管理员删除谢谢合作!