中读

算法是如何造成偏见的?

作者:陈璐

2020-09-03·阅读时长7分钟

7420人看过

本文需付费阅读

文章共计3607个字,产生65条评论

如您已购买,请登录


肖仰华


三联生活周刊:“算法偏见”在国际上如今是个热门话题,但国内还比较少听到这方面的讨论。首先,人工智能业界对算法偏见是否有一个标准定义?算法偏见到底是指什么?

肖仰华:关于算法偏见的具体定义,不同专家的看法不一样。总体而言,算法偏见其实不单单是指算法的偏见,或者人工智能的偏见,任何技术总归会存在一定的局限性,导致结果存在一定的偏见。

那么,人工智能技术导致结果出现偏见,可能有几个原因:第一是数据。人工智能的模型是由数据喂养出来的,所以给它什么样的数据,就可能产生什么样的结果。比如闲聊类型的问答机器人,是根据大量的问答语料训练出来的。如果你喂进去的全是带有歧视性的对话语料,机器很可能学会带有歧视性的聊天。

第二是模型自身所导致的。人工智能技术的很多模型本质上是一个优化的问题,它有明确可量化的优化目标,不同的优化目标会导致不同倾向的结果。很多商业平台追求的是利益最大化,比如流量、转化率等。当模型的优化目标是这样时,就会导致很多同质化的推荐,你喜欢什么就一直给你推,由于大多数受众偏好集中,此类同质推荐容易带来流量最大化。所谓的“信息茧房”,根本原因便是它的优化目标比较单一。当然优化目标其实是可以控制的,使它更具多样性,甚至符合主流价值观。

三联生活周刊:数据集构建、目标制定与特征选取、数据标注是机器学习主要的三个环节,偏见是如何在这些环节中产生的?

肖仰华:首先,对于所选择的数据集中本来就有的政治偏见、性别偏见和种族偏见等问题,可以对数据做一些清洗,把这些带有偏见性的言论语料清洗掉。但是数据清洗也存在一定代价,需要建立数据的甄别与筛选模型。

其次,在目标制定与特征选取阶段,除了优化目标的设置外,特征选取是模型中很重要的一个因素,选什么样的特征来做推荐,也会对结果产生影响。举个例子,是否考虑推荐对象的性别特征?如果考虑就会得到带有性别倾向性的结果。比如同样搜索包的时候,女性搜到的可能是奢侈品牌的包或者装饰性的日常出行包,男性搜到的则是电脑包或者功能包。

并且,数据怎么做标注对结果也有影响。例如汉堡,中国人认为它是不健康的食物,但西方人认为它是健康食物。所以你把它标成健康还是不健康,人工智能学到的结果就完全不一样,中国人搜健康餐时,可能搜不到汉堡,但是西方人就能搜到。

实际上,技术的问题都有办法解决,我觉得很多时候是技术外的问题在左右我们要不要去这样做。从技术层面上讲,要解决算法偏见的问题,一个是让机器得到的样本尽可能地全面、客观,在样本的选择上进行控制;另一个是优化目标的设定,不能只追求流量最大化的单一目标。

文章作者

陈璐

发表文章77篇 获得5个推荐 粉丝269人

《三联生活周刊》主任记者

中读签约作者

收录专栏

你有偏见吗

如何避免成为“乌合之众”

18341人订阅

现在下载APP,注册有红包哦!
三联生活周刊官方APP,你想看的都在这里

下载中读APP

全部评论(65)

发评论

作者热门文章

推荐阅读