假如算法有“偏见”

当互联网时代到来时,无数人预言互联网会让知识的获取更容易、让偏见与隔阂被打破、让世界变得更平等。然而,在互联网与人工智能加速发展的今天,偏激的观点、人群之间的隔阂在网络力量的助推下势头不减。这是为什么?

生活中人们会发现,使用百度搜索引擎搜索关键词,搜索结果页面的前几个链接会把搜索者引向百度自家的“百家号”;出差订酒店的时候,不同的人用不同的手机打开同一个App,看到的价格很可能不一样;我的一个朋友在腾讯公司上班,他晚上加完班打车回家,如果把起点定在公司门口,比起定在公司旁百米左右的便利店,价格会高20%。这些现象说明了一个问题:跟日常生活紧密联系在一起的互联网算法,本身并不是非常“确切”的,算法中存在着某种“偏见”。

什么是算法?这个词刚诞生的时候并没有什么宏大的内涵。公元820年,阿拉伯数学家提出“算法”,当时它指的是“解决具体问题的一个方法”。随着纯数学理论向应用数学理论迁移,算法进入各种各样的应用数学领域,后来又被计算机科学、社会学、法学、政策学等领域借用,逐渐开始指向某种复杂的社会技术系统。这几年,算法为大家所熟知,很可能是因为它指向了更为具体的内容:算法决策服务。比如,浏览网站时,它会给我们推荐各种各样的商品;打开资讯类App,它会推荐新闻或者短视频;打开地图软件,它会规划前往目的地的路线……算法完成了一个将信息、算法和人三者联系在一起的闭环。

这个闭环的最终目的,是帮助人从海量的信息当中打捞出最有意义、最有用的内容。和人做决策相比,算法确实具有更客观、更公正、效率更高的优点。但是如果算法出现错误,就有可能造成风险。而且很多时候,我们在使用各种各样的App时,并不知道算法正在偷偷地帮我们做决策,这种隐蔽性意味着一旦它在重要领域出错,人们往往来不及补救。

那么算法到底存在哪些隐患?首先是技术层面的代码错误。当年,计算机科学先驱格蕾丝·霍珀在使用机电式计算机马克2号时出现设备故障。而导致这次故障的,竟是一只被卡在继电器中的虫子(bug)。此后,“bug”成为计算机领域的专业术语,意指漏洞。在生活中,程序员之间会相互调侃,比如程序员A看到B在写代码,也许就走过去用戏谑的语气说:“又在写bug呀。”这是因为人和技术之间的磨合始终处于探索阶段,程序当中出现错误很常见,无法保证万无一失。

第二个隐患是算法偏差。大家在浏览网站、看视频、使用各类应用的时候,会发现这些网站好像非常“懂”自己,所推荐的内容刚好就是自己喜欢的。这其实是一个概率问题。可以想象这样一个场景:有一个不透明的袋子,里面有很多小球,小球的总数未知,小球的颜色也未知。如何搞清楚这个不透明的袋子里小球的颜色分布呢?对算法来讲,我们就是不透明的袋子,我们各种各样的兴趣爱好就是袋子里面的小球。算法可以根据“已知小球”制定模型,去推测我们对什么事物感兴趣。已知条件越多,算法的准确率越高,但也不能保证百发百中。

第三个隐患是技术偏向。我们现在使用的手机设备、社交网络等已经取代了之前很多的媒介形式。加拿大媒介理论家马歇尔·麦克卢汉认为,人类经历了口语时代、书写时代和电子媒介时代。口语时代时,人是部落化的生存状态,彼此都是认识的。到了书写时代,人和人之间在空间上就被隔离开了。现在到了电子媒介时代,尤其到了算法与社交媒体、互联网、移动互联网相结合的时候,人尽管在现实空间中相隔甚远,却在互联网这个虚拟空间里联系紧密,很容易沉浸在自己所选择、所构建的小世界中无法自拔。这种情况也更容易滋生极端的情绪和思维。

第四个隐患是社会偏见。微软推出过一个AI聊天机器人Tay,它仅在推特上线一天就被下架了。因为在上架之前,微软的程序员希望Tay在开放性的互动中产生自己的观点、意愿,没有限制它的语言模式和交往模式。结果这个机器人在与人对话的过程中快速地“学”会了辱骂人类和发表关于种族歧视的言论。从这个案例可以看出,开放环境中的数据里存在着大量的偏见和错误认知,放任机器去学习这样的数据,我们无法保证它会变得更睿智、客观。吊诡之处在于,由于大多数人对科学技术的信任,当算法给出一个看似科学的结果,而这个结论恰恰符合了固有的成见时,我们不会去质疑算法有没有问题,反而会用这个结果去巩固成见。

面对算法“偏见”,人类应该怎么办?学界对AI技术价值观讨论的大体结论是,我们要纠偏,以此把算法变得更加人性化。也有学者提出,当人类认为算法应该去除“偏见”的时候,应该问的是,人性是什么。这个问题会触及更深的思考。在社会心理学当中有这样的一个量表,它的纵坐标是experience(代表人类对于外部世界的感知和体验),横坐标是agency(代表的是控制、把握,一些更加机械化的具有指标性质的东西)。人类处于这张坐标图的右上角,机器人处于中间偏下的位置,由此可以看出,人类对experience的要求非常高,人性处于一种不完备、不完美的状态。那么,既然我们自己本身存在着许多不完美之处,为什么还要要求算法变得和我们一样?

这个问题也许不会有答案,算法的“偏见”不仅是技术的问题,更是社会的、历史的问题。可以确定的是,在未来,算法和人类势必处于一种共栖共生的关系当中。也许,我们要问的,不是“算法有偏见吗”,而是如何定义“偏见”。判断“偏见”的标准从何而来?对人性是不是应该有一些反思?既然没有办法一劳永逸地解决问题,那么我们的思考方式可能需要一些转变。