数据与算法的应用,扩张了人的能力,但也带来很多新问题与新风险。
客观性数据可能成为后真相的另一种推手,因为数据生产环节的偏差可能导致客观性数据堆积成的假象,数据分析也可能成为客观事物的干扰因素。个性化算法虽然带来了个人信息服务水平的提升,但也可能在几个方面将人们围困:
一是信息茧房的围困;
二是算法中的偏见或歧视对人们社会资源与位置的限制;
三是算法在幸福的名义下对人们的无形操纵。
数据时代个体面临的另一个风险,是相关权利保护受到更多挑战,特别是在隐私权和被遗忘权方面。要对抗这些风险,需要完善数据方面的基础建设,包括数据素养的培养、数据的“基础设施”建设、数据质量评估体系以及信息伦理规范的建立等。本期全媒派(ID:quanmeipai)带来清华大学新闻与传播学院彭兰教授的新作,深度剖析数据时代的新风险。
近年,我们似乎进入了一个数据的大跃进时代,技术不断赋予我们新的想象力与探索能力,也打开了一些过去人的感官不能达及的新领域,基于数据的各类算法也开始在我们身边流行。但是,在这种大跃进中,又埋伏着很多新风险。对数据与算法的风险的理性分析与判断,可以帮助我们认识新技术可能带来的新陷阱。
“后真相(Post-truth)”这个词在近年进入中国研究者的视野,很大程度上缘于它被《牛津词典》选为 2016 年度词汇。在这个词里的“post”表示的是“超越”,也就是“真相”不再那么重要。根据《牛津词典》的解释,后真相意味着,“客观事实的陈述,往往不及诉诸情感和煽动信仰更容易影响民意”。
尽管《牛津词典》在解释后真相一词时强调的是情绪等对客观事实的“超越”,但后真相成为一个显性的问题,还与 2016 年一些民意调查机构对美国大选等结果预测的失灵有关。因此,正如哲学研究者蓝江所指出的,后真相时代是因为原来支撑真相的两大基础都崩溃了,即作为普世性的理性原则(以及与之相伴随的演绎推理逻辑,甚至连哈贝马斯所提倡的协商和交往理性也一并被质疑),以及作为经验性数据收集、统计、分析的客观性结论。
后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的方面。
为什么客观性数据也可能带来假象?
数据往往被当作描述客观事物、揭示真相的一种手段,但是,数据应用本身有一整套的规范,如果不遵循这些规范,或者在数据应用中出现了漏洞而未能察觉,未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。从数据生产的角度看,每一个相关的步骤,都可能存在着导致假象的因素。
1. 数据样本偏差带来的“以偏概全”
尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并不是一件容易的事。
今天的数据,特别是互联网数据,被少数平台垄断,出于利益保护等因素考虑,平台通常并不愿意将数据完全公开。他人从这些平台“扒”数据时,会受到技术能力和权限等限制,这可能一定程度上影响到数据的完整性。平台本身,也可能因为各种原因,未必能保留全样本数据,例如,在社交平台,删贴必然会导致相关内容的不完整。
大数据分析也常常要依赖行业性数据,但在中国,由于历史性的原因,很多行业本身就缺乏完整、系统的数据积累,能提供的,常常也是残缺的数据。即使是传统的小样本分析,样本的规模和代表性等方面的质量也越来越令人担忧。
尽管今天人文社会科学都在强调问卷调查等经验性数据分析方法,今天的本科和研究生也受到了一定的方法训练,但是,在实际操作中,充斥着不规范、不严谨的现象,特别是在抽样方面。武汉大学学生会在农民工研究中问卷调查的造假事件,也许不是孤立的个案。客观的障碍是,今天的公众已经厌倦了各种问卷调查,对问卷调查的抵触、不配合或游戏心态,都会影响到问卷调查的开展。
因此,无论是全样本数据,还是行业数据,或是传统抽样方法下的小数据等,都可能存在样本不完整的问题,这也必然对数据分析结果的完整性、代表性产生影响。
2. “脏数据”带来的污染
除了样本的问题外,用各种方式获取的数据,本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为“脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因而无视脏数据的存在,甚至会制造一些脏数据、假数据。
3. 数据分析模型偏差带来的方向性错误
完整、可用的数据只是数据分析的前提,要利用数据来准确描述或解释客观现象,还需要有科学、合理的分析模型。但是一些基于数据的实证分析,有可能建立的模型本身是有偏差的,有些数据应用者,甚至是为了得到自己希望的结果而在分析模型的设计中进行人为的“扭曲”,这些都必然导致结果的偏差。
4. 数据挖掘能力有限带来的“浅尝辄止”
数据量愈大、数据种类愈丰富、数据应用目标愈多元,也就意味着对数据挖掘能力的要求愈高,然而当各种力量都在快马加鞭地涌入到数据应用领域,争做各类数据产品时,却未必都拥有相应的数据挖掘能力。特别是在媒体行业,以往数据应用传统的缺乏、技术能力的不足,都会限制其数据挖掘能力,然而外界压力却又在迫使媒体力不从心地走向数据化,因此,数据应用多流于表层,其中的漏洞也越来越多。作为“拟态环境”的构建方式,媒体生产的过于简单的、浅层的数据,也可能会误导人们对现实社会的认识。
5.数据解读的偏差
数据解读能力,是数据利用能力的另一个重要层面。而没有良好的数据方面的训练,对数据的解读可能会出现主观随意、简单化等种种问题,例如,将数据的相关关系过度解读为因果关系,是实践中常见的问题之一。数据解读往往也是横向或纵向比较中完成的,如果缺乏参照信息,或比较性数据出现了问题,解读自然也容易产生偏差。
数据描述与分析偏差,不仅会给我们对环境的认识带来误导,更大的风险是,它们可能带来的决策偏差。在大数据或其他数据分析方法越来越多地用于公共决策和个人决策的指导时,这种风险将日益增加。
这些数据的误用、滥用,一方面是因为数据应用能力的不足,另一方面则是数据应用者的价值导向和利益驱动的问题。一些数据分析的出发点,本来就不是要获得对真相的完整认知,而是为了制造符合自己需要的“真相”或结果。错误导向或利益驱动的数据滥用,成为“后真相”现象更大的背景。
数据会成为客观性的另一种干扰因素吗?
2016 年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据门事件,在某种意义上是对民调结果失灵的一个回应,从中或许可以探究当时民调结果失灵的部分原因,尽管我们并不能确定“牛津分析”对大选结果的干预究竟是否起了作用,或是起了多大作用。
这一事件还有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据分析的目标是追求客观地描述事物;另一方面,数据分析也可能会成为对客观事物或客观进程的干预力量。而可以预见的是,未来两者之间的博弈可能会更成常态。
大数据的应用方向之一,就是对事物的发展趋势做出判断,从而尽早对风险进行预警,对危险进程进行干预。但实践中,对现实进行干预的边界应该在哪?对大选投票进行干预,是否属于合理的大数据应用? 2012 年奥巴马在美国大选中获胜,一些研究者对其中的大数据应用津津乐道,而 2016 年特朗普在大选中胜出后,一些媒体开始对数据分析机构对选民态度的干预进行调查,Facebook数据门事件披露后,研究者似乎更多地对“牛津分析”的做法持批评态度。这或许与人们对特朗普的态度相关,但从另一个角度看,这也表明,大数据应用进入深层后,人们对它的影响及应用伦理的认识也在深入。
“牛津分析”等机构之所以能用数据分析影响人们的态度与立场,甚至影响人们对客观世界的认识,是因为他们可以通过数据分析判断不同人群的心理定位,以此为前提来定向推送信息,对人们感知到的信息环境进行控制,用有偏向的信息来影响人们的态度。
哲学学者刘擎指出:
“后真相问题有其深刻的理论背景,最为相关的哲学渊源是一个多世纪前,尼采对事实真相客观性的挑战。尼采曾在《超善恶》的序言中写道:‘视角(perspective)是所有生活的基本条件。’而在其遗稿‘札记(Nachlass)’中,他留下了著名断言:‘没有事实,只有阐释。’这个被哲学界称为‘视角主义(perspectivism)’的观点是尼采哲学的核心思想之一,也为今天的后真相时代埋下了伏笔。”
他还认为:
“视角主义与后真相问题还具有一个重要的关联线索,可称之为‘视角制造事实’的思路。……如果所谓‘事实’就是满足了‘恰当证据’的事务,而恰当证据的标准又是视角所创立的,那么‘没有独立于视角的真实世界’意味着,‘事实’在一定意义上是视角所制造的。”
今天的某些大数据分析,在某种意义就是在分析甚至“制造”人们的“视角”,然后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们被放置在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。
对于后真相问题的破解,刘擎认为,真相的“客观性”依赖于“共同视角”,澳洲学者约翰·基恩也指出,最终关于真相的认同还是取决于人们的共识(agreement)和信任(trust)。这些看法似乎也是多数学者在“后真相”问题上的共识。
因此,从解决“后真相”危机的角度看,今天我们更需要用数据分析来寻找人们的“共同视角”或“共识”。然而,在各种主体都在努力地寻求用数据分析和算法的力量来制造符合自己需要的信息环境和意见格局时,当数据和算法成为一种权力博弈的武器时,共识的发现与形成,必然困难重重。
从个体角度看,目前数据应用与他们最直接的关联,是各种个性化算法。通过对与个体相关的数据的分析,来提供与之适配的内容或服务,在今天已经成为普遍现实。
早在上个世纪 90 年代,美国学者尼葛洛庞帝就在他的《数字化生存》一书里预言了数字化时代个性化服务的可能,并将之命名为“我的日报”(The Daily Me)。 但由于技术的限制,直到近几年,基于算法的个性化服务才变成现实,其中,算法推送新闻更成为一个关注焦点。对于个性化算法的讨论也愈加多元。
算法是否会将人们囚禁在信息茧房中?
个性化信息服务的出现,是信息过载时代的一个必然结果,也是尊重与满足个体的信息权利的一种新手段。但在这一应用走向深层时,对它的争论也越发激烈。
今天伴随着个性化算法的一个常见话题是“信息茧房”。来自于美国学者桑斯坦的这个词,形象地描述了过去传播学研究中提出的“选择性心理”及其结果,在他看来,信息茧房意味着人们只听他们选择和愉悦他们的东西。
研究者对于“信息茧房”也存在一些争议,有人将信息茧房视为算法的原罪之一,有人则认为信息茧房与算法无关。两种判断可能都有些极端。
尽管人的选择性心理从来就存在,传统媒体时代它也会以各种形式存在,社会化媒体也在以社交圈的方式在强化人们的选择,但目前的个性化推荐算法的确在一定程度上会以正反馈形式强化这种心理。桑斯坦提到信息茧房时,重点提到了尼葛洛庞帝所说的“我的日报”,这也意味着,他对“信息茧房”的担忧,更多地是因为个性化信息服务的兴起。
既然是一直就有的一种心理现象,信息茧房是否不足虑?
每个人都有自己的阅读偏好,这自然是正常的现象,但如果每个人关注的只是自己兴趣内的那一小片天地,他对这以外的世界,会越来越缺乏了解,这或许不会影响到他个人的生活,但是,在需要公共对话的时候,人们会缺乏共同的“视角”,而如前文所述,共同“视角”的缺乏,意味着人们对一些事实的判断会出现差异,共识难以形成。同时,信息环境的封闭与狭隘,也可能会进一步固化人们的某些观点与立场。
桑斯坦认为,如果公司建立了信息茧房,就不可能兴隆,因为其自己的决定不会受到内部的充分的挑战。如果政治组织的成员——或国家领导人——生活在茧房里,他们就不可能考虑周全,因为他们自己的先入之见将逐渐根深蒂固。……对于私人和公共机构而言,茧房可以变成可怕的梦魇。尽管桑斯坦提出信息茧房是在协商民主的语境下,但是,信息茧房的影响未必只局限于这一领域。
从人的社会归属需要角度看,公共交流与公共议程也是必要的。公共议程是连结社会不同阶层、不同群体的纽带。从议程设置理论发展出来的议程融合(Agenda Melding)理论,也从深层说明了公共议程对于社会整合的意义,麦库姆斯和唐纳德·肖认为,媒体设置的议程之所以能作用于公众,是因为它们具有聚集社会群体的功能,而这是源于人们都有一种对于“群体的归属感”的需要。
唐纳德·肖还曾提出过“水平媒体”(Horizontal Media)和“垂直媒体”(Vertical Media)这两个概念,他认为水平媒体是某些小众的媒体,而垂直媒体是大众化的媒体。在唐纳德·肖看来,水平媒体与垂直媒体的交织,可以创造一个稳定的“纸草社会”(Papyrus Society)。这从另外一个角度说明了保持个性化信息满足与公共整合之间平衡的意义。
以往的研究都指出,大众媒体的基本功能之一是社会整合,这种整合是以公共信息的覆盖为前提的。今天的大众传播机制在发生变化,基于人际网络和算法的内容分发,正在成为大众传播的新基础,但是,传播的社会整合功能不应该因此而消失,能将各种人群整合起来的公共信息和公共议程仍需要到达最广泛的人群。对个性化算法可能带来的“信息茧房”问题,我们的确应该有所警觉。但另一方面,我们也需要意识到,如果运用得当,算法也可能成为刺破信息茧房的一种武器。
从面向个人的算法角度看,要尽可能减少信息茧房效应,就要在算法设计时深入理解与考虑用户行为与需求中那些摇摆着的矛盾,例如:
“凝固”与“流动”——用户在某个时段阅读偏好会有稳定性,但时间推移,兴趣也可能会发生转移,及时预测用户需求的迁移或扩展,这是提高算法精准度的一个重要方向,也是突破茧房的一种思路。
“套路”与“奇遇”——在迎合个体的阅读“套路”的同时,算法也需要提供一些惯性之外的信息,给个体带来更多“奇遇”,让个体看到更广阔的世界。
“悦耳”与“刺耳”——算法总希望顺应用户的心理,为他们提供“悦耳”的声音,但某些时候,它也需要提供一些刺耳的声音,让用户了解真实世界的多面性。
除了以算法来完成面向个体的内容推荐,算法也可以用于公共性内容的匹配,也就是通过算法洞察公众的共同心理,使具有公共价值的内容到达更广的人群,也同样可能帮助个体挣脱茧房的束缚。
算法是否会将人们囚禁在偏见与固有的社会结构中?
算法的另一种风险,是对社会偏见的继承,以及这些偏见可能带来的文化或社会禁锢。
2016 年,上海交通大学的研究者发表的论文《基于面部图像的自动犯罪概率推断》引起了争议。 2017 年,斯坦福大学一个研究团队发表了标题为《通过面部图像分析深度神经网络比人类更精准判断性取向》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)的论文,称对男同性恋识别的准确率高达 81%,对女性的性取向判别的准确率为 74%,这一研究同样带来了巨大争论。
这些算法之所以引发争议,不仅是算法的准确度的问题,更是因为它让人们感受到一种危险的倾向,即这些算法用于不当的目的时,会对某些人群或个体形成歧视与伤害。
这些极端个案中的歧视或许还容易识别,另外一些偏见却未必是人们自知的,但算法会在不知不觉中将它们继承。有研究者指出:
“数据,在本质上,是人类观察世界的表征形式。不论是过去的小数据,还是现在的大数据,研究数据,在某种程度上,其实在本质上都是在研究人本身……人类文化是存在偏见的,作为与人类社会同构的大数据,也必然包含着根深蒂固的偏见。而大数据算法仅仅是把这种歧视文化归纳出来而已。”
算法不仅在归纳与“同构”现有文化中的偏见、歧视,还可能用某种方式将它们放大,这一点,一些大数据的开发者体会更深,如国内大数据应用领域的代表性学者周涛所言,“让我们不安的是,这种因为系统设计人员带来的初始偏见,有可能随着数据的积累和算法的运转慢慢强化放大。”
除了偏见、歧视外,算法还可能会在一定程度上固化社会原有的结构,限制个体或资源在结构框架之外的流动。
今天算法已经开始被用于一些组织机构、企业和个体的决策,这种决策常常建立在对某些对象的数据分析与评估基础上。当算法可以精准地评估每一个对象,计算出与该对象相关的行动的代价与报偿,一个可能的结果是,有些对象将因为算法评估的不合格,而失去获得新资源的机会,例如获得投资、贷款、工作机会等。对于决策者,这似乎可以让他们减少自身的风险,但对于被评估、被决策的对象来说,这或许是不公平的。
对于个体,这意味着,数据和算法的偏见,有可能会把他们进一步困在原有的社会结构里。以往的年代靠人们的努力还时有奇迹出现,而今天在数据的监测和算法的评估下,人们的身份、地位和行为都被数据与算法打下烙印,这使得他们只能被圈定在与自己条件相吻合的社会位置和职业角色里。底层向上流动的机会愈加减少,而那些具有优良条件的个体,则会不断获得新的机会与资源。因此,算法或许会在某些方面导致社会资源分配的“马太效应”被进一步放大。
当然,就像“信息茧房”方面的讨论一样,未来的算法也应该致力于纠正而不是强化社会偏见。但这必须靠有效的制度而非数据开发者或使用者的自觉。
算法是否会使人们陷入“幸福地被操纵”?
或许,个性化算法还会带来另一个深层风险,那就是在个性化服务的“伺奉”下,个体逐渐失去自己的自主判断与选择能力,越来越多地被算法或机器控制。
从人的本性来说,懒惰是天然的,想以最小的成本或付出获得最大的报偿,也是人之常情,个性化服务在这方面迎合了人性,但是,它也可能正在以方便、幸福的名义,渐渐地使人们对它产生依赖,并在不知不觉中被其麻痹,被其囚禁。
尼尔·波兹曼在《娱乐至死》一书前言中提到了《1984》和《美丽新世界》暗喻的两种警告。
“奥威尔警告人们将会受到外来压迫的奴役,而赫胥尼则认为,人们失去自由、成功和历史并不是老大哥之过,在他看来,人们会渐渐爱上压迫,崇拜那些使他们丧失思考能力的工业技术”。
波兹曼警告的两种方向,正好指向福柯的研究中重点关注的两种技术:权力技术与自我技术。
福柯认为,权力技术决定个体的行为,并使他们屈从于某种特定的目的或支配权,也就是使主体客体化;自我技术则使个体能够通过自己的力量或者他人的帮助,进行一系列对自身身体及灵魂、思想、行为、存在方式的操控,以此达成自我的转变,以求获得某种“幸福、纯洁、智慧、完美或不朽的状态”。
早期的福柯将研究重心放在权力技术及其规训方面,而后期他开始更多地关注古希腊时期自我技术的应用。研究者指出,福柯眼中古希腊的自我技术的应用,是一种自由的践行,人们对自己的欲望的控制是自主的,在这种自我控制中,人们获得了自由:对欲望和快感的自由,自我没有成为欲望和快感的奴隶,相反成为了它们的主人。
但是,在拥有了种类繁多、力量强大的自我技术的今天,自我技术似乎并没有推动人实现对自我的灵魂、思想、行为、存在方式的操控,也未必帮助人们获得了“自我控制的自由”,反而在某种意义上,与权力技术纠结在一起,共同实现了对个体的规训。算法看上去是为个体提供人性化服务的,但是它其实是对个体进行控制的另一种手段,在它背后,“老大哥”那只时时盯着人们的眼睛在忽明忽暗的闪现。波兹曼警告的两种力量正在“合体”,一直看着“你”的“老大哥”,也可能正是将“你”带向“幸福沉迷”的工业技术。
斯拉沃热·齐泽克在Facebook数据门后发文指出,近年一些大数据的研究,是想帮助积极心理学家找到一种方法,把我们向他们所理解的“真正的幸福”方向“轻推”一把,包括快速恢复的能力和乐观情绪。……不仅是我们被控制和操纵,而且是“幸福”的人们隐秘而虚伪地要求以“为他们好”的名义被操纵。真相和幸福不能共存。真相是疼痛的;它带来不稳定;它破坏了我们日常生活的平稳流动。选择在我们自己手里:我们想要被幸福地操纵,还是让自己暴露在真正的创造力的风险中?
或许多数人今天并没有意识到将被幸福地操纵这样一种风险,或许有些人即使意识到这种风险仍然不能自拔。这是否是算法时代一个更大的“圈套”?人类是否有可能从这样一个圈套中逃离?也许答案还需要我们在未来去寻找。
数据时代对普通个体的另一个深层影响,是个体的全面数据化。
目前,当我们说到用户数据的时候,都是指“人”的数据,而未来媒介环境下,用户这个主体不再只简单对应着人的状态与活动。与人相关的各种智能物体,以及与人相关的环境,都成为描述与理解用户的重要变量。因此,用户的数据将更为多元,通过更多渠道生成、保存,这也意味着用户数据中暗藏的风险更大,数据权利的保护面临更大的挑战。
隐私权与被遗忘权,是数据时代背景下备受关注的两类个体权利。虽然实践发展推动了人们对这两种权利的意义的认识,但另一方面,用户在这些权利方面却又感觉越来越无力,权利的让渡似乎成为一种没有选择的选择。
以隐私换便利?
属于自己的数据,保存权却不在用户,用户本身也无法限制其使用范围,这是数字时代对隐私权的一个巨大挑战,棱镜门事件、Facebook数据门事件,更是引发了这方面集中的讨论。
2018 年 3 月,百度董事长兼CEO李彦宏在中国发展高层论坛上提到,中国人对隐私问题的态度更开放,也相对来说没那么敏感。如果他们可以用隐私换取便利、安全或者效率。在很多情况下,他们就愿意这么做。当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。
虽然李彦宏在这段话里也提到了互联网公司应该遵循相应原则,但媒体和公众更多地关注的是他的“隐私换便利”这一说法,一时间,李彦宏成为众矢之的。
今天的公众未必都没有隐私保护意识,也不是所有人都愿意拿隐私换便利,但是,对普通公众来说,一个大的问题是,他们并不知道自己的隐私会如何被侵犯,被侵犯到何种程度。他们与那些掌握并利用甚至可能出卖他们的隐私数据的公司之间,天然是不平等的。在缺乏对自己数据的知情能力的情况下,隐私保护也就无从谈起。
虽然在某些时候,以隐私换便利是用户的一种不得已的选择,但用户应该有权利知道,出让的是哪些隐私数据,能获取哪些便利,以便他们做出权衡。但今天的网络服务提供者多数并没有提供充分的解释,即使有一些隐私条款,也往往语焉不详或者暗藏陷阱。
Facebook数据门带来的另一个思考是用户数据使用权限的边界。即使用户同意向某个服务商提供个人信息,但服务商是否有权向第三方透露?而第三方是否又可以再次将数据转手?网络中的数据都是相互关联的,获取未经授权的关联数据是否合法?或许在理论上做出限定是容易的,但在现实中的操作,又并非那么简单。
除了要对服务商的用户数据使用权限做出限定,另一个事关用户隐私权的问题是,今天的用户是否应该拥有一种隐身能力,使自己的数据不被他人获取或存储,从而在根本上保护自己?虽然表面上用户的一些设置可能会有助于他们的隐身,但事实上,获取某类数据的方法往往不止一种。例如,即使人们出于安全考虑而关闭了手机GPS定位功能,网络服务商仍有其他办法对其进行定位。今天一些个案中我们甚至可以看到,一些服务商在用户不知情的情况下通过电脑或手机上的摄像头、麦克风等暗中获取他们的信息,隐身变得更为困难。
在个体被随时随地“数字化”映射的情况下,隐身,也是保护隐私的一个重要方面。虽然在法律上要独立形成一种“隐身权”或许并不现实(它更有可能是隐私权中的一部分),但至少在技术层面,需要给予用户更多的“隐身”可能。在物联网将广泛应用的未来,隐身许可将变得更为重要。
“遗忘”变成例外?
曾经因《大数据时代》一书而在中国获得广泛关注的学者维克托·迈尔-舍恩伯格,在另一本关于大数据时代的著作《删除:大数据时代的取舍之道》里,提出了一个不可回避的问题:今天这个时代,遗忘变成例外,记忆成为常态,人类住进了数字化的圆形监狱。
舍恩伯格不仅指出了“数字化监视”这一种现实,也指出了因数据保留的永恒而使监视成为永恒的可能。也正是对这一问题的担忧,催生了被遗忘权的提出。被遗忘权概念在官方的首次提出是在欧盟 2012 年出台的《一般数据保护条例》中,条例称:信息主体有权要求信息控制者删除与其个人相关的资料信息。该权利被称为被遗忘及擦除权(The right to be forgotten and to erasure)。
在中国, 2011 年 1 月工信部颁发的《信息安全技术公共及商用服务信息系统个人信息保护指南》中指出,当个人信息主体有正当理由要求删除其个人信息时,个人信息处理者应及时对相关个人信息进行删除。2016 年 11 月,全国人大常委会通过并经国家主席令颁布了《网络安全法》,正式确认了个人对其网上个人信息的“删除权”:“个人发现网络运营者违反法律、行政法规的规定或者双方的约定收集、使用其个人信息的,有权要求网络运营者删除其个人信息。”
不管是将被遗忘权作为一种独立的个人权利提出,还是将它列入擦除(或删除)权中,这些新概念的出现,都是对数字时代个人信息的存留风险做出的法律回应。
对被遗忘权的讨论,常常会涉及它与言论自由、国家安全的关系。对此,在司法实践中对被遗忘权主要有两种态度:
第一种认为,当言论从私人领域进入到公共领域,个体可以以保护隐私权为名,用“被遗忘权”删除自己的言论,从而保护个体的言论自由;
第二种认为,言论一旦进入公共领域,就与私人领域无关,即便个体要使用“被遗忘权”保护自己,也与隐私权毫无关系,因此,坚持“被遗忘权”不利于保护言论自由。
欧盟更倾向于前者,而美国更倾向后者。有研究者认为,欧洲国家与美国对待隐私的差异,体现了西方关于隐私的两种文化,即尊严与自由,前者的主要危险被欧洲国家认为在于大众传媒;后者的最大威胁被美国认为来自政府。
传播学者吴飞等指出,一方面我们要保护私人领地的神圣性,要防止有人假公济私,但同样也必须保护公共领域的开放性,要防止有人假私损公。但这种平衡的拿捏并非易事。
而从法律层面看,被遗忘权的具体执行也存在很多难题,如被遗忘权的效力(包括内容效力、范围效力等)、被遗忘权的权利主体范围(这一权力对公共人物、罪犯与恐怖分子是否适用)、被遗忘权的义务主体范围等。欧盟经过不断地进行理论研究和实践修正,于 2016 年 4 月又公布了新的被遗忘权规则。但不同于此前在规则中的独立地位,此次的被遗忘权被放在擦除权之后以括号的形式标注出。
因此,也有研究者分析,这或许意味着被遗忘权将被“遗忘”。在中国的《网络安全法》中出现的“删除权”,也并不完全等同于被遗忘权,它更多地是“作为国家网络信息安全中的一个组成部分而设立的,而整体制度设计的重点在于保障网络信息传播秩序的稳定”。
从技术上看,网络信息复制、扩散的方便,也意味着“删除”未必是能“一键实现”的。
另一个值得注意的事实是,被遗忘权或删除权更多地是在学界和法律界被讨论,大多数普通人并不知道它的存在。在今天,数据上的“遗忘”还是例外。
即使有被遗忘权或删除权,个体也会面临比以往更多的风险,虽然谨言慎行或许是人们自认为的减少风险的办法,但在算法通过若干点赞就可以判断用户的性格的情况下,在未来各种传感器可以随时随地捕捉人的数据的情况下,记忆仍会是常态。
尽管数据与算法应用的价值不可否定,但我们需要对数据和算法应用的失误或失范有足够的警惕,也需要增强对抗风险的能力。在中国,观念、基础条件、规范等方面的障碍,都意味着数据应用特别是大数据应用的推进需要时间。功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中,我们也需要回归原点,完成一些基本建设。
数据素养的培养
19 世纪后,美国的数据文化沿着“共和政治”和“经济发展”两条线共同发展,以培养有智识的公民为目标,大力普及数学教育,把数据意识成功推向整个社会,这样的数据素养基础或许是美国在大数据应用方面走在世界前列的原因之一。
反观中国,尽管“中国人的数学好”是国外对中国人的刻版印象之一,中国的中、小学数学教育似乎也是很严格的,但数学教育不等于数据教育,数据素养运比进行数学运算的能力要复杂得多。事实上,中国公众的数据素养存在着普遍不足。
研究者金兼斌指出,所谓数据素养(data literacy),是指人们有效且正当地发现、评估和使用信息和数据的一种意识和能力。通常,数据素养概念包含数据意识、数据获取能力、分析和理解数据的能力、运用数据进行决策的能力以及对数据作用的批评和反思精神。这一界定,揭示了数据素养所涵盖的多个层面。他的观点也代表了很多研究者的观点。
作为数据应用影响最突出的行业之一,今天的传媒业需要将数据素养作为媒体人的核心素养之一。尽管媒体的数据应用在丰富,媒体的生产流程变革也带来了更多的数据资源,在一些媒体的“中央厨房”中也提供了各种维度的数据,但是,如果没有严格的训练,媒体人或许难以将来自各方面的数据转化为有价值的、可靠的新闻,甚至可能会不断地生产出数据垃圾。
数据素养也应成为公民基本素养之一。全民数据素养的提高,不仅有助于公众自身对数据判断能力的提高,也会带来“水涨船高”的效应,有助于对数据分析机构(包括媒体)的数据分析水平进行监督,反过来推进数据应用水平的整体提升。
除了对数据的辨识与应用能力外,今天这个时代的数据素养,还应意味着批判性应用能力的深化。数据的风险意识、伦理意识,对算法的反思与使用中必要的节制,个人的数据保护意识、隐私意识等,或许都应是数据素养所涵盖的。
数据资源“基础设施”建设
美国之所以在数据应用方面走在世界前列,还因为在长期实践和积累中,政府机构在数据质量、开放性和数据使用规范都打下了良好的基础。进入大数据时代,美国政府进一步推进了数据资源的“基础设施”建设。前美国总统奥巴马在 2009 年上任伊始就签署了《透明与开放的政府备忘录》(Memorandum on Transparency and Open Government),号召政府致力于“建立一个透明的、公众参与的、协作的制度体系”,并且对“透明”、“公众参与”、“协作”三原则进行了解释。 2009 年 5 月,作为美国开放政府建设重要行动之一的Data. gov网站上线, 各政府机构均被要求积极向网站提供数据,公民可以自由检索并获取联邦政府数据。 2009 年 12 月 8 日,《开放政府指令》(The Open Government Directive)发布,要求主要政府机构必须提供三个高价值的数据集。
而在中国,数据的基础设施建设却仍处于起步阶段,虽然也有一些政府机构网站可以提供某些方面的数据,但总体来看,数据的完整性、时效性和可靠性都不尽如人意,多数行业性数据也难以满足大规模、持续的数据应用需要。而目前由一些服务商垄断的用户数据,也很难转化成公共性的资源。缺乏可靠的、开放性的、公益性的数据库资源,是今天进行数据分析和应用的重要障碍之一,特别是对于媒体和研究者来说。
公共数据库和其他数据资源的建设,应是未来若干年需要重点解决的问题,这也是决定未来中国的数据应用水平的基础之一。
数据质量评估体系的建立
在大量的机构在进行着数据分析甚至以此为营利模式时,如何对数据质量进行评估,变得越来越重要。
由于利益的原因,要数据分析机构来评估自身,显然不可行。而数据的使用者或公众,也很难有相应的评估能力。更为可行的,应该是具有相应资质、独立的第三方机构来进行评估。
第三方机构对数据质量的评估,也需要遵循严格、科学的评估框架,否则这些第三方机构也可能因利益因素而沦为数据生产者的同盟者,或沦为摆设。
进入大数据时代后,原来有着良好的数据应用传统的欧洲和美国都开始制定大数据的质量标准。图 1 是欧洲经济委员会(UNECE)建议的大数据质量框架。它将大数据质量框架分为三个阶段:数据投入(Input)、数据处理过程(Throughput)、数据产出(Output),对数据应用的每一个环节都制定了相应的标准与规范。此外,欧盟统计局也设计了官方统计使用的大数据的认证程序,美国普查局和公众舆论研究协会也有自己对非传统数据的质量评估标准或评估框架。
但是,在国内的大数据热潮下,我们似乎没有看到相关管理机构质量标准的跟进,在各种数据应用(包括大数据应用)的成果推出时,也没有看到相应的评估。而一些决策,包括人们常说的舆情研判,却常常建立在这些没有质量监测的数据分析结果上。
另一方面,即使有相应的评估标准,在执行中,也存在种种复杂性。例如,美国在 2000 年通过了《数据质量法》,要求“各部门都必须建立相应的数据审查复核机制,尽最大可能保证联邦政府所发布信息及统计数据的‘质量、客观性、实用性以及完整性’”,但是由于没有清晰界定谁对数据的质量拥有最终的解释和裁定权,因此,在实施后也遭遇重重问题。一个典型问题是,公共利益代表的缺位。该法案生效时,OIRA(美国行政管理预算局下设的信息和管制办公室)主任格雷厄姆曾认为,无论公司、还是消费者和环境保护的公益组织,全社会都可以来质疑政府发布的数据是否准确,各种不同的利益,都将得到保护。”但有研究者指出,后来的现实状况是,《数据质量法》仅仅成了商业组织反对管制标准的利器,面对相应问题,商业组织可以迅速组织起来进行游说,而利益受到了侵害的大众,却无法组织起来与公司抗衡。
在数据评估实施中,如何兼顾和平衡多方利益,如何建立完善的评估机制,仍将有诸多挑战。但至少,评估体系应该成为数据时代制度建设的一部分。
信息伦理规范的约束
今天,数据或算法越来越成为一种权力的体现——无论是数据获取或数据分析,还是算法设计及应用。数据与算法权力的过分垄断、数据与算法权力的滥用与利益裹胁等问题,都愈发严重,相应的伦理规范的制定与执行,变得更为重要。
20 世纪70 年代中期,美国伦理学家曼纳(Walter Maner)率先提出并使用“计算机伦理学”这个术语。1986 年,美国管理信息科学专家梅森提出了信息隐私权 ( Privacy) 、信息准确性 ( Accuracy) 、信息产权 ( Property) 和信息存取权 ( Accessibility) 4 个信息伦理议题。拉里·贾德(Larry R.Judd)在 1995 年提出了信息时代提高伦理与道德的三个准则:适当地承担责任;预料消极影响;以约翰·罗尔斯的正义原则为指导试图追求公平。
在国内,针对近年来发展中的问题,也有学者提出,为了披露与削减数据和算法权力的误用和滥用,应对数据和算法施以“伦理审计”。其基本策略是,从智能认知与算法决策的结果和影响中的不公正入手,反向核查其机制与过程有无故意或不自觉的曲解或误导,揭示其中存在的不准确、不包容和不公正,并促使其修正和改进。
2017 年 1 月,在美国加利福尼亚州阿西洛马举行的Beneficial AI会议上,特斯拉CEO埃隆·马斯克、DeepMind创始人戴米斯·哈萨比斯以及近千名人工智能和机器人领域的专家,联合签署了阿西洛马人工智能原则。该原则指出,科学家认为人工智能应符合一般的“人的价值”之类的尊严、权利、自由和文化等多样性。这意味着人工智能不应侵犯任何人的隐私、自由或安全。人工智能研究的目标,应该是创造有益(于人类)而不是不受(人类)控制的智能。该原则倡导的伦理和价值原则包括:安全性、故障的透明性、审判的透明性、责任、与人类价值观保持一致、保护隐私、尊重自由、分享利益、共同繁荣、人类控制、非颠覆以及禁止人工智能装备竞赛等。
这些来自不同方面的信息伦理规范倡议,要得以真正实施,还需要跨越很多障碍,但是,伦理的引导,是数据时代的一个必然选择,某种意义上,数据伦理比以往的其他技术伦理还要重要。
20 多年前,尼葛洛庞帝在《数字化生存》一书的前言中写道:“计算不再只是和计算机有关,它决定我们的生存”。今天即使是普通人都深刻地理解了这句话。这样一个时代,数据、算法成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险,也应该成为我们生活的一部分,成为媒体和各种数据应用机构的基本责任。
【河南网站优化公司】清华教授彭兰:假象、算法囚徒与权利让渡,数据与算法时代的新风