算法是如何造成偏见的?

作者：陈璐

2020-09-03·阅读时长7分钟

7420人看过

本文需付费阅读

文章共计3607个字，产生65条评论

如您已购买，请登录

肖仰华

三联生活周刊：“算法偏见”在国际上如今是个热门话题，但国内还比较少听到这方面的讨论。首先，人工智能业界对算法偏见是否有一个标准定义？算法偏见到底是指什么？

肖仰华：关于算法偏见的具体定义，不同专家的看法不一样。总体而言，算法偏见其实不单单是指算法的偏见，或者人工智能的偏见，任何技术总归会存在一定的局限性，导致结果存在一定的偏见。

那么，人工智能技术导致结果出现偏见，可能有几个原因：第一是数据。人工智能的模型是由数据喂养出来的，所以给它什么样的数据，就可能产生什么样的结果。比如闲聊类型的问答机器人，是根据大量的问答语料训练出来的。如果你喂进去的全是带有歧视性的对话语料，机器很可能学会带有歧视性的聊天。

第二是模型自身所导致的。人工智能技术的很多模型本质上是一个优化的问题，它有明确可量化的优化目标，不同的优化目标会导致不同倾向的结果。很多商业平台追求的是利益最大化，比如流量、转化率等。当模型的优化目标是这样时，就会导致很多同质化的推荐，你喜欢什么就一直给你推，由于大多数受众偏好集中，此类同质推荐容易带来流量最大化。所谓的“信息茧房”，根本原因便是它的优化目标比较单一。当然优化目标其实是可以控制的，使它更具多样性，甚至符合主流价值观。

三联生活周刊：数据集构建、目标制定与特征选取、数据标注是机器学习主要的三个环节，偏见是如何在这些环节中产生的？

肖仰华：首先，对于所选择的数据集中本来就有的政治偏见、性别偏见和种族偏见等问题，可以对数据做一些清洗，把这些带有偏见性的言论语料清洗掉。但是数据清洗也存在一定代价，需要建立数据的甄别与筛选模型。

其次，在目标制定与特征选取阶段，除了优化目标的设置外，特征选取是模型中很重要的一个因素，选什么样的特征来做推荐，也会对结果产生影响。举个例子，是否考虑推荐对象的性别特征？如果考虑就会得到带有性别倾向性的结果。比如同样搜索包的时候，女性搜到的可能是奢侈品牌的包或者装饰性的日常出行包，男性搜到的则是电脑包或者功能包。

并且，数据怎么做标注对结果也有影响。例如汉堡，中国人认为它是不健康的食物，但西方人认为它是健康食物。所以你把它标成健康还是不健康，人工智能学到的结果就完全不一样，中国人搜健康餐时，可能搜不到汉堡，但是西方人就能搜到。

实际上，技术的问题都有办法解决，我觉得很多时候是技术外的问题在左右我们要不要去这样做。从技术层面上讲，要解决算法偏见的问题，一个是让机器得到的样本尽可能地全面、客观，在样本的选择上进行控制；另一个是优化目标的设定，不能只追求流量最大化的单一目标。

本文是付费文章购买后可查看全文 0.5元点击购买 32人已购买

只不知、叶子涵、张嘉睿、Didiann 4人推荐

偏见、算法、肖仰华、人工智能、推荐算法、图像识别