<delect id="vpukg"><pre id="vpukg"><sub id="vpukg"></sub></pre></delect>
      <em id="vpukg"><ol id="vpukg"></ol></em>
      
      

      <dl id="vpukg"></dl>
      <em id="vpukg"><ins id="vpukg"></ins></em>

      <sup id="vpukg"></sup><div id="vpukg"></div>

        <div id="vpukg"></div>

        彭兰£º数据与算法时代的新风险

        选择字号£º   本文共阅读 1427 次 更新时间£º2018-11-12 12:45:08

        进入专题£º 数据时代   算法时代  

        ¡ñ 彭兰 (进入专栏)  

        ¡¡¡¡

        ¡¡¡¡ 摘要£º数据与算法的应用£¬扩张了人的能力£¬但也带来很多新问题与新风险¡£客观性数据可能成为后真相的另一种推手£¬因为数据生产环节的偏差可能导致客观性数据堆积成的假象£¬数据?#27835;?#20063;可能成为客观事物的干扰因素¡£个性化算法虽然带来了个人信息服务水平的提升£¬但也可能在几个方面将人们围困£º一是信息茧房的围困£»二是算法中的偏见或歧视对人们社会资源与位置的限制£»三是算法在幸福的名义下对人们的无形操纵¡£数据时代个体面临的另一个风险£¬是相关权利保护受到更多挑战£¬特别是在隐私权和被遗忘权方面¡£要对抗这些风险£¬需要完善数据方面的基础建设£¬包括数据素养的培养¡¢数据的¡°基础设施¡±建设¡¢数据质量评估体系以及信息伦理规范的建立等¡£

        ¡¡¡¡

        ¡¡¡¡ 近年£¬我们似乎进入了一个数据的大跃进时代£¬?#38469;?#19981;断赋予我们新的想象力与探索能力£¬也打开了一些过去人的感官不能达及的新领域£¬基于数据的各类算法也开始在我们身边流行¡£但是£¬在这种大跃进中£¬?#33268;?#20239;着很多新风险¡£对数据与算法的风险的理性?#27835;?#19982;判断£¬可以帮助我们认识新?#38469;?#21487;能带来的新陷阱¡£


        ¡°客观性¡±数据£º¡°后真相¡±的另一种推手£¿


        ¡¡¡¡ ¡°后真相£¨Post-truth£©¡±这个词在近年进入中国研究者的视野£¬很大程度上缘于它被¡¶牛津词典¡·选为2016年度词汇¡£在这个词里的¡°post¡±表示的是¡°超越?#20445;?#20063;就是¡°真相¡±不再那么重要¡£根据¡¶牛津词典¡·的解释£¬后真相意味着£¬¡°客观事实的陈述£¬往往不及诉诸情感和煽动信仰更容易影响民意¡±¡£

        ¡¡¡¡ 尽管¡¶牛津词典¡·在解释后真相一词时强调的是情绪等对客观事实的¡°超越?#20445;?#20294;后真相成为一个显性的问题£¬还与2016年一些民意调查机构对美国大选等结果预测的失灵有关¡£因此£¬正如哲学研究者蓝江所?#36171;?#30340;£¬后真相时代是因为原来支撑真相的两大基础都崩溃了£¬即作为普世性的理性原则£¨以及与之相伴随的演绎推理逻辑£¬甚至连哈贝马斯所提倡的协商和交往理性也一并被质疑£©£¬以及作为经验性数据收集¡¢统计¡¢?#27835;?#30340;客观性结论¡£

        ¡¡¡¡ 后真相现象提醒我们£¬数据与算法这些看上去客观的手段与方法£¬并不一定能带来更多真相£¬反而可能走向它的方面¡£

        ¡¡¡¡ 为什么客观性数据也可能带来假象£¿

        ¡¡¡¡ 数据往往被当作描述客观事物¡¢揭示真相的一种手段£¬但是£¬数据应用本身有一整套的规范£¬如果不遵循这些规范£¬或者在数据应用中出现了漏洞而未能察觉£¬未?#27425;?#20204;或许会被更多由貌似客观的数据堆积成的假象所包围¡£从数据生产的角度看£¬每一个相关的步骤£¬都可能存在着导?#24405;?#35937;的因素¡£

        ¡¡¡¡ 1£® 数据样本偏差带来的¡°以偏概全¡±

        ¡¡¡¡ 尽管已经进入到¡°大数据¡±时代£¬而大数据的卖点之一是¡°全样本?#20445;?#20294;事实上£¬在?#36136;?#20013;£¬获得¡°全样本¡±并不是一件容易的事¡£

        ¡¡¡¡ 今天的数据£¬特别是互联网数据£¬被少数?#25945;?#22404;断£¬出于利益保护等因素考虑£¬?#25945;?#36890;常并不愿意将数据完全公开¡£他人从这些?#25945;¨¡?#25170;¡±数据时£¬会受到?#38469;?#33021;力和权限等限制£¬这可能一定程度上影响到数据的完整性¡£?#25945;?#26412;身£¬也可能因为各种原因£¬未必能保留全样本数据£¬例如£¬在社交?#25945;¨£?#21024;贴必然会导致相关内容的不完整¡£

        ¡¡¡¡ 大数据?#27835;?#20063;常常要依赖行业性数据£¬但在中国£¬由于历史性的原因£¬很多行业本身就缺乏完整¡¢系统的数据积累£¬能提供的£¬常常也是残缺的数据¡£?#35789;?#26159;传统的小样本?#27835;Óz?#26679;本的规模和代表性等方面的质量也越来越令人担忧¡£

        ¡¡¡¡ 尽管今天人文社会科学都在强调问卷调查等经验性数据?#27835;?#26041;法£¬今天的本科和研?#21487;?#20063;受到了一定的方法训练£¬但是£¬在实际操作中£¬充斥着不规范¡¢不严谨的现象£¬特别是在抽样方面¡£武汉大学学生会在农民工研究中问卷调查的造假?#24405;þ£?#20063;许不是孤立的个案¡£客观的障碍是£¬今天的公众已经厌倦了各?#27835;示?#35843;查£¬对问卷调查的抵触¡¢不配合或游戏心态£¬都会影响到问卷调查的开展¡£

        ¡¡¡¡ 因此£¬无论是全样本数据£¬还是行业数据£¬或是传统抽样方法下的小数据等£¬都可能存在样本不完整的问题£¬这也必然对数据?#27835;?#32467;果的完整性¡¢代表性产生影响¡£

        ¡¡¡¡ 2£® ¡°脏数据¡±带来的污染

        ¡¡¡¡ 除了样本的问题外£¬用各种方?#20132;?#21462;的数据£¬本身质量也可能存在问题¡£部分?#31508;?#30340;数据¡¢重复的数据¡¢失效的数据¡¢造假的数据等£¬都被称为¡°脏数据¡±¡£尽管数据处理前都会要求数据清洗£¬但这未必能完全消除脏数据带来的污?#23613;?#26576;些数据?#27835;?#32773;也可能因为一些原因而无视脏数据的存在£¬甚至会制造一些脏数据¡¢假数据¡£

        ¡¡¡¡ 3£® 数据?#27835;?#27169;?#25512;?#24046;带来的方向性错误

        ¡¡¡¡ 完整¡¢可用的数据只是数据?#27835;?#30340;前提£¬要利用数据来准确描述或解释客观现象£¬还需要有科学¡¢合理的?#27835;?#27169;型¡£但是一些基于数据的实证?#27835;Óz?#26377;可能建立的模型本身是有偏差的£¬?#34892;?#25968;据应用者£¬甚至是为了得到自?#21512;?#26395;的结果而在?#27835;?#27169;型的设计中进行人为的¡°扭曲?#20445;?#36825;些都必然导致结果的偏差¡£

        ¡¡¡¡ 4£® 数据挖掘能力有限带来的?#25170;?#23581;辄止¡±

        ¡¡¡¡ 数据量愈大¡¢数据种类愈丰富¡¢数据应用目标愈多元£¬也就意味着对数据挖掘能力的要求愈高£¬然而当各种力量都在快马加鞭地涌入到数据应用领域£¬争做各类数据产品时£¬?#27425;?#24517;都拥有相应的数据挖掘能力¡£特别是在?#25945;?#34892;业£¬以往数据应用传统的缺乏¡¢?#38469;?#33021;力的不足£¬都会限制其数据挖掘能力£¬然而外界压力却又在迫使?#25945;?#21147;不?#26377;?#22320;走向数据化£¬因此£¬数据应用多流于表层£¬其中的漏洞也越来越多¡£作为¡°拟态环境¡±的构建方式£¬?#25945;?#29983;产的过于简单的¡¢浅层的数据£¬也可能会误导人们对?#36136;?#31038;会的认识¡£

        ¡¡¡¡ 5£®数据解读的偏差

        ¡¡¡¡ 数据解读能力£¬是数据利用能力的另一个重要层面¡£而没有?#24049;?#30340;数据方面的训练£¬对数据的解读可能会出?#31181;?#35266;随意¡¢简单化等种?#27835;?#39064;£¬例如£¬将数据的相关关系过度解读为因果关系£¬是?#23548;?#20013;常见的问题之一¡£数据解读往往也是横向或纵向比较中完成的£¬如果缺乏参照信息£¬或比较性数据出现了问题£¬解读自然也容易产生偏差¡£

        ¡¡¡¡ 数据描述与?#27835;?#20559;差£¬不仅会给我们对环境的认识带?#27425;?#23548;£¬更大的风险是£¬它们可能带来的决策偏差¡£在大数据或其他数据?#27835;?#26041;法越来越多地用于公共决策和个人决策的指导时£¬这种风险将日益增加¡£

        ¡¡¡¡ 这些数据的误用¡¢滥用£¬一方面是因为数据应用能力的不足£¬另一方面则是数据应用者的价值导向和利益驱动的问题¡£一些数据?#27835;?#30340;出发点£¬本来就不是要获得对真相的完整认知£¬而是为了制造符合自己需要的¡°真相¡±或结果¡£错误导向或利益驱动的数据滥用£¬成为¡°后真相¡±现象更大的背景¡£

        ¡¡¡¡ 数据会成为客观性的另一种干扰因素吗£¿

        ¡¡¡¡ 2016年美国总统大选£¬多家民调机构的预测结果的失败£¬让人们质疑数据的客观性与准确性¡£而时隔两年之后曝出的Facebook数据门?#24405;þ£?#22312;某种意义上是对民调结果失灵的一个回应£¬从中或许可以探究当时民调结果失灵的部分原因£¬尽管我们并不能?#33539;¨¡?#29275;津?#27835;ö¡?#23545;大选结果的干预究竟是否起了作用£¬或是起了多大作用¡£

        ¡¡¡¡ 这一?#24405;?#36824;有着更深层的寓意£¬它提醒我们面临的一个新挑战£º一方面£¬数据?#27835;?#30340;目标是追求客观地描述事物£»另一方面£¬数据?#27835;?#20063;可能会成为对客观事物或客观进程的干预力量¡£而可以预见的是£¬未来两者之间的博弈可能会更成常态¡£

        ¡¡¡¡ 大数据的应用方向之一£¬就是对事物的发展趋势做出判断£¬从而尽早对风险进行预警£¬对危险进程进行干预¡£但?#23548;?#20013;£¬对?#36136;?#36827;行干预的边界应该在?#27169;?#23545;大选投票进行干预£¬是否属于合理的大数据应用£¿2012年奥巴马在美国大选中获胜£¬一些研究者对其中的大数据应用津津?#20540;溃?#32780;2016年特朗普在大选中胜出后£¬一些?#25945;?#24320;始对数据?#27835;?#26426;构对选民态度的干预进行调查£¬Facebook数据门?#24405;?#25259;露后£¬研究者似乎更多地对¡°牛津?#27835;ö¡?#30340;做法持批评态度¡£这或许与人们对特朗普的态度相关£¬但从另一个角度看£¬这也表明£¬大数据应用进入深层后£¬人们对它的影响及应用伦理的认识也在深入¡£

        ¡¡¡¡ ¡°牛津?#27835;ö¡ä^然?#26500;之所?#38405;?#29992;数据?#27835;?#24433;响人们的态度与立场£¬甚至影响人们对客观世界的认识£¬是因为他们可以通过数据?#27835;?#21028;断不同人群的心理定位£¬?#28304;?#20026;前提来定向推送信息£¬对人们感知到的信息环境进行控制£¬用有偏向的信息来影响人们的态度¡£

        ¡¡¡¡ 哲学学者刘擎?#36171;Óz?

        ¡¡¡¡ ¡°后真相问题有其深刻的理论背景£¬最为相关的哲学渊?#35789;?#19968;个多?#20848;?#21069;£¬尼采对事实真相客观性的挑战¡£尼采曾在¡¶超善恶¡·的序言?#34892;´µ溃º¡?#35270;角£¨perspective£©是所有生活的基本条件¡£¡¯而在其遗稿¡®札记£¨Nachlass£©¡¯中£¬他留下了著名断言£º¡®没有事实£¬只有阐释¡£¡¯这个被哲学界称为¡®视角主义£¨perspectivism£©¡¯的观点是尼采哲学的核心思想之一£¬也为今天的后真相时代埋下了伏笔¡£¡±

        ¡¡¡¡ 他还认为£º

        ¡¡¡¡ ¡°视角主义与后真相问题还具有一个重要的关联线索£¬可称之为¡®视角制造事实¡¯的思路¡£¡­¡­如果所谓¡®事实¡¯就是满足了¡®恰当证据¡¯的事务£¬而恰当证据的标准又是视角所创立的£¬那?#30784;?#27809;有独立于视角的真实世界¡¯意味着£¬¡®事实¡¯在一定意义上是视角所制造的¡£¡±

        ¡¡¡¡ 今天的某些大数据?#27835;Óz?#22312;某种意义就是在?#27835;?#29978;至¡°制造¡±人们的¡°视角?#20445;?#28982;后将符合视角的¡°事实¡±推送给他们£¬虽然推送的¡°事实¡±似乎是客观的£¬但是£¬当它们?#29615;?#32622;在人们的¡°视角¡±下时£¬就成为了影响主观判断和态度的重要手段¡£

        ¡¡¡¡ 对于后真相问题的?#24179;â£?#21016;擎认为£¬真相的¡°客观性¡±依赖于¡°共同视角?#20445;?#28595;洲学者?#24049;²¡?#22522;恩也?#36171;Óz?#26368;终关于真相的认同还是取决于人们的共识£¨agreement£©和信?#21361;¨trust£©¡£这些看法似乎也是多数学者在¡°后真相¡±问题上的共识¡£

        ¡¡¡¡ 因此£¬从解决¡°后真相¡±危机的角度看£¬今天我们更需要用数据?#27835;?#26469;寻找人们的¡°共同视角¡±或¡°共识¡±¡£然而£¬在各种主体都在努力地?#25170;?#29992;数据?#27835;?#21644;算法的力量来制造符合自己需要的信息环境和意见格局时£¬当数据和算法成为一种权力博弈的武器时£¬共识的发现与形成£¬必然困难重重¡£


        算法下的个体£º数据时代的?#25170;?#24466;?#20445;?/strong>


        ¡¡¡¡ 从个体角度看£¬目前数据应用与他们最直接的关联£¬是各种个性化算法¡£通过对与个体相关的数据的?#27835;Óz?#26469;提供与之适配的内容或服务£¬在今天已经成为普遍?#36136;µ¡?

        早在上个?#20848;?0年代£¬美国学者尼葛洛?#25317;?#23601;在他的¡¶数字化生存¡·一书里预言了数字化时代个性化服务的可能£¬并将之命名为¡°我的日报?#20445;¨The Daily Me£©¡£ 但由于?#38469;?#30340;限制£¬直到近几年£¬基于算法的个性化服务才变成?#36136;担?#20854;中£¬(点击此处阅读下一页)

        进入 彭兰 的专栏     进入专题£º 数据时代   算法时代  

        本文责编£ºlimei
        发信站£º爱思想£¨http://www.4584787.com£©£¬栏目£º天益学术 > 新闻传播学 > 传播学理论
        本文链接£ºhttp://www.4584787.com/data/113361.html
        文章来源£º?#27573;÷±笔?#22823;学报(社会科学版) ¡·2018年第5期

        0 推荐

        在方框中输入电子?#22987;?#22320;址£¬多个?#22987;?#20043;间用半角逗号£¨,£©分隔¡£

        爱思想£¨aisixiang.com£©网站为公益纯学术网站£¬旨在推动学术?#27604;Ù¡?#22609;造社会精神¡£
        凡本网首发及经作者授权但非首发的所有作品£¬版权归作者本人所?#23567;?#32593;络转载请注明作者¡¢出处并保持完整£¬纸媒转载请经本网或作者本人书面授权¡£
        凡本网注明¡°来源£ºXXX£¨非爱思想网£©¡±的作品£¬均转载自其它?#25945;å£?#36716;载目的在于分享信息¡¢助推思想传播£¬并不代表本网赞同其观点和对其真实性负责¡£若作者或版权人不愿被使用£¬请来函?#36171;Óz?#26412;网即予改正¡£
        Powered by aisixiang.com Copyright © 2019 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
        易康网
        <delect id="vpukg"><pre id="vpukg"><sub id="vpukg"></sub></pre></delect>
            <em id="vpukg"><ol id="vpukg"></ol></em>
            
            

            <dl id="vpukg"></dl>
            <em id="vpukg"><ins id="vpukg"></ins></em>

            <sup id="vpukg"></sup><div id="vpukg"></div>

              <div id="vpukg"></div>
              <delect id="vpukg"><pre id="vpukg"><sub id="vpukg"></sub></pre></delect>
                  <em id="vpukg"><ol id="vpukg"></ol></em>
                  
                  

                  <dl id="vpukg"></dl>
                  <em id="vpukg"><ins id="vpukg"></ins></em>

                  <sup id="vpukg"></sup><div id="vpukg"></div>

                    <div id="vpukg"></div>