暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
大数据热潮的分析与审视.pdf
12
8页
2次
2025-02-08
免费下载
大数据热潮的分析与审视
大数据热潮的分析与审视
孙辰朔
1,2
,万剑锋
3
,刘山松
1,2
1.清华大学 自动化系,北京 1000842.清华大学 数据科学研究院,北京
100084
3.清华大学 历史系,北京 100084
摘要:大数据作为科学技术的产物,不仅正在改变人类生活 的物质世界,更引
起了主观世界的思维革命。首先探究了从数到大数据的演变源流,以哲学方法分
析了近些年来大数据热潮的成因,分别是:信息科学提供质料、新 方法论作为
形式、政产学研施以动力以及社会进步构成目标。进而从数据思维的应用局限、
数据的准确性与客观性以及技术的“双刃”效应与伦理问题等方面对大数 据热
潮作了重新审视。
关键词:大数据热潮;历史溯源;成因研究;再审视
中图分类号:NO31 文献标识码:A
近两年来,大数据席卷了人们生活的物质世界,甚至掀起了一场前所未有的思维
革命。针对大数据的本体论探讨
1115-121
、历史演变进程
233-39
,以及对科学研究
的影响
3123-126
题,已有学者做过相关研究。然而时至今大多数人仍然
以一种并非完全准确乃至盲目依附于潮流的视角来看待大数据。本文试图站在一
个更全面的角度,从数 到大数据的哲学源流探究出发,再以哲学的分析方法提
出大数据热潮的形成原因,并从数据本体论及其应用局限、数据的准确性及客观
性、技术的“双刃剑”背后的 伦理问题等方面反思了大数据热潮下可能被人们
忽视的问题。
一、大数据的历史溯源
大数据热潮方兴未艾,但若要探究何谓大数据的问题以及大数据现象何以如此兴
盛的原因,我们的眼光就不仅仅只停留在它时下的具体表征上,还要对产生它
理论根源做深入分析。大数据,冠之大于数据也。从造词法的角度看,它必然与
数和数据有关。因此,如果要将大数据的历史脉络梳理清晰,可以以数和数据为
线 索。
1. 大数据,首先是源于数的概念
数作为人类认知自然世界的载体和产物,贯穿于人类历史发展的各个阶段。从古
希腊唯物主义哲学家阿那克西曼德开始使用“本原”一词,到泰勒斯提出“万
物源于水”,人类逐渐摒弃玄异,开始借助经验观察和理性解释看待世间万物,
这种理性思维的萌芽为数的产生提供了前提。毕达哥拉斯学派所持“数即万物”
的思 想,以及创立基于数的自然哲学,实际上是把数看作了世界万物的本源。
之后形成的柏拉图主义、唯名论等,也将数提升到本体论的高度。同样地,中国
古代文明中 诸如道家学派“道生一,一生二,二生三,三生万物”,《易经》
中关于天地“天一、地二、天三、地四”,《论语》中关于为人处世“益者三友、
损者三友”,这 些将数字赋予意义的说法,譬如,“一”与宇宙本源,“二”
与阴阳论,“三六九”与等级衡量,虽然带有一定神秘主义色彩,但足以见得数
对古人世界观的巨大影 响。可以说,数在人类了解自然世界、理解客观存在的
过程中扮演了极其重要的角色,数的出现为人类提供了理性和正确认知世界的方
法论雏形,也是数据与大数据 的演化开端。
2. 大数据,更是源于数据的概念
相比古代文明对于数的认知模糊而虚幻,随着自然哲学的发展,特别是将数据融
入科学研究范式的定量研究方法出现后,人们将客观事物用数据表征和分析,
渐发现了量变质变规律,使万物源于数的本体思想开始变得清晰和具体。例如,
物理学家伽利略在天文学上做的定量观测,可为航海者测算精度;化学家拉瓦锡
于定量分析提出的物质不灭原理;生物学家孟德尔根据实验数据推导出的遗
传定律等。这些实例充分说明,以科学数据为媒介的定量描述正是奠定现代科学
研究的基 础。
二十世纪五十年代以来,随着电子计算机的诞生,人类社会步入信息化时代,“把
现象转变为可制表分析量化形式的过程”
4104
即数据化成为这个时期的重要
标志。进入二十一世纪,人们将过去积累的大量观测数据、理论仿真数据当作研
究对象,通过探究其内在统计规律,挖掘数据潜在价 值,形成了崭新的数据科
学,其在与其他领域相互交融的过程中,催生了一批新的研究方向,如生物信息
学、计算社会学等交叉学科应运而生。大数据正是在这个背 景下被推出的新兴
概念,关于它的定义,目前学术界关于这个问题只形成了几种典型概念,但尚未
达成共识。其中比较有代表性的“5V”理论指出,“大数据是无 法在一定时间
内用常规软件工具对其内容进行抓取、管理和处理的数据集,具有规模性
Volume)、多样性(Variety)、高速性 Velocity)、精确性(Veracity
和价值性(Value)这五大特点”。无论在哪种定义下,大数据的概念都是源于
技术层面而远远超越技术 层面的,即先从技术角度解释数据与大数据的区别,
再谈大数据的特点及带来的变革。后者往往包含其带给人类生活物质世界的巨大
影响,以及带来的一场以数据化 思维探究事物之间的关联性而非因果性、舍精
确性而求复杂性的思维革命。
3. 大数据诞生:自然哲学演化的必然结果
从唯物辩证法基本范畴角度来看,如果说大数据是信息科学与商业价值邂逅而产
生的偶然结果,那么其背后蕴含的世界观、生活方式、思维方式的转变,在人
社会发展历程中出现却是必然的。首先,数作为理性思维的工具替代超自然论是
人类认知世界方法进步的必然结果。古希腊自然哲学的理性之光,尽管还有些微
弱,但从根本上照亮了一条指引后世的正确道路,把人类从愚昧和玄异中解放出
来。继而,数据成为定量精确的描述语言是自然科学研究发展的必然结果。“从
科学 技术发展历史来看,科学数据之所以成为重要的研究手段,源于其精确性、
一致性和易交流性的特征”
239
最后,随着历史数据的累积与信息科学的不断
发展,人们开始寻找一种分析和利用大量数据的新方法,大数据的最终出现有着
历史的必然性。
二、大数据热潮的成因探
从数到数据,再从数据到大数据,大数据概念的形成可以在自然哲学演化的历史
长河中找到根基。时至今日,虽然科学界对大数据还尚未形成广泛认同的统一
识,但其掀起的热潮却迅速蔓延于人类生活的物质世界,更在主观世界引起了思
维革命。然而,从科学史的角度来看,很多对后世产生深远影响的科学研究成果,
往往经历了十几年甚至几十年的发展和演化。以量子力学为例,从二十世纪初普
朗克提出黑体辐射定律开始,到狄拉克提出量子电动力学的原型为止,其初步建
立历 时近三十年,为其做出贡献的不乏 Albert EinsteinErwin Schrodinger
等伟大的物理学家,且至今仍有建立在这些基础之上的科学研究,譬如量子计算
和量子控制。大数据作为新兴概念面世未久却有如此之大的 影响,是哪些因素
所引致?
1. 信息科学为大数据热潮拉开帷幕
大数据源于信息科学,它的热潮序幕正是在近十年来信息科学迅猛发展的背景下
拉开的。首先是作为支撑技术与基础平台的云计算,其在海量数据存储、分析与
管理等方面提供的技术支撑
5152
为大数据的存在提供了科学前提。二是源于
一批大数据处理工具的诞生,使得人们开始利用数据挖掘知识。美国《连线》
志主编安德森就曾指出,“60 年前计算 机使得信息可读,20 年前因特网使得信
息可达,10 年前搜索引擎将互联网变成一个数据库;如今,像谷歌这样的公司
仿佛正在一个巨型的人类社会实验室里处理 有史以来最多的数据”
6
这段话
说明,大数据产生的源头在信息科学,正是后者近些年来的蓬勃发展为大数据热
潮打下了基础。
2. 新方法论构成大数据热潮的表现形式
大数据诞生于信息科学的摇篮之中,而由它所引发的一系列革命却远远超越信息
科学的范畴。例如,在谈到其对科学研究方法的影响时,有院士认为“大数据引
起了人们对科学研究方法论的重新审视,同时正在引发科学研究思维与方法的一
场革命”
7649
一言以蔽之,大数据之所以能使人眼前一亮,关键在于它引起的
方法论变革,可以主要归纳为两个方面。
一是从因果性到相关性。科学向来与因果有着不解之缘,从古希腊哲学家亚里士
多德的“四因说”,到现代信息论的因果观;从解析宏观物体运动规律的经典
学,到揭示微观粒子运动规律的量子力学,科学技术就是为世间万物寻找因和果
的方法论。然而,大数据引发思维革命的强劲之处,正在于其不再把小数据时代
箱的因果关系奉为金科玉律,而把关注焦点置于获得黑箱输入输出的相关关
系。这种变革产生的原因是,与小数据时代数据精确且结构单一不同,大数据的
多源异 构、冗余稀疏性质,使得要理清所有事物的因果关系几乎成为不可能事
件。当人们退而求其次地选择黑箱时,发现了一种新的观察世界的方法。“相关
关系很有用, 不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰;
而一旦把因果关系考虑进来,这些视角就有可能被蒙蔽”
488
通过先进处理技
术探索海量数据之间的关系,可以构筑一个更清晰更透明的世界,这是大数据带
来的第一个方法论变革。
of 8
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。