作者:陈璐
2020-09-03·阅读时长7分钟
本文需付费阅读
文章共计3607个字,产生65条评论
如您已购买,请登录三联生活周刊:“算法偏见”在国际上如今是个热门话题,但国内还比较少听到这方面的讨论。首先,人工智能业界对算法偏见是否有一个标准定义?算法偏见到底是指什么?
肖仰华:关于算法偏见的具体定义,不同专家的看法不一样。总体而言,算法偏见其实不单单是指算法的偏见,或者人工智能的偏见,任何技术总归会存在一定的局限性,导致结果存在一定的偏见。
那么,人工智能技术导致结果出现偏见,可能有几个原因:第一是数据。人工智能的模型是由数据喂养出来的,所以给它什么样的数据,就可能产生什么样的结果。比如闲聊类型的问答机器人,是根据大量的问答语料训练出来的。如果你喂进去的全是带有歧视性的对话语料,机器很可能学会带有歧视性的聊天。
第二是模型自身所导致的。人工智能技术的很多模型本质上是一个优化的问题,它有明确可量化的优化目标,不同的优化目标会导致不同倾向的结果。很多商业平台追求的是利益最大化,比如流量、转化率等。当模型的优化目标是这样时,就会导致很多同质化的推荐,你喜欢什么就一直给你推,由于大多数受众偏好集中,此类同质推荐容易带来流量最大化。所谓的“信息茧房”,根本原因便是它的优化目标比较单一。当然优化目标其实是可以控制的,使它更具多样性,甚至符合主流价值观。
三联生活周刊:数据集构建、目标制定与特征选取、数据标注是机器学习主要的三个环节,偏见是如何在这些环节中产生的?
肖仰华:首先,对于所选择的数据集中本来就有的政治偏见、性别偏见和种族偏见等问题,可以对数据做一些清洗,把这些带有偏见性的言论语料清洗掉。但是数据清洗也存在一定代价,需要建立数据的甄别与筛选模型。
其次,在目标制定与特征选取阶段,除了优化目标的设置外,特征选取是模型中很重要的一个因素,选什么样的特征来做推荐,也会对结果产生影响。举个例子,是否考虑推荐对象的性别特征?如果考虑就会得到带有性别倾向性的结果。比如同样搜索包的时候,女性搜到的可能是奢侈品牌的包或者装饰性的日常出行包,男性搜到的则是电脑包或者功能包。
并且,数据怎么做标注对结果也有影响。例如汉堡,中国人认为它是不健康的食物,但西方人认为它是健康食物。所以你把它标成健康还是不健康,人工智能学到的结果就完全不一样,中国人搜健康餐时,可能搜不到汉堡,但是西方人就能搜到。
实际上,技术的问题都有办法解决,我觉得很多时候是技术外的问题在左右我们要不要去这样做。从技术层面上讲,要解决算法偏见的问题,一个是让机器得到的样本尽可能地全面、客观,在样本的选择上进行控制;另一个是优化目标的设定,不能只追求流量最大化的单一目标。
发表文章77篇 获得5个推荐 粉丝269人
《三联生活周刊》主任记者
现在下载APP,注册有红包哦!
三联生活周刊官方APP,你想看的都在这里