《大数据时代的科学知识共生产:内涵、特征与争议》是我校文学与新闻传播学院丁大尉教授刊发在《科学学研究》上的学术论文,也是丁教授主持的山东省社科规划重大项目的阶段性成果。文章指出:大数据技术背景下,知识生产的目标对象、知识生产的组织模式、科学知识的增长模式、科学知识的产品形式等方面均发生了巨大变化。通过“让数据”发声,大数据技术似乎宣示了一种“科学始于数据”的知识生产新模式。大数据驱动的知识生产模式具有以下基本特征,第一,知识生产的目标对象:从个体数据到海量数据;第二:知识生产的组织模式:从相对独立到聚合协作;第三:科学知识的增长模式:从假说驱动到数据驱动;第四:科学知识的产品形式:从因果关系到相关关系。
大数据时代的科学知识生产面临着从方法论到计算模式的整体变革,但这种新的知识生产模式也带来了一系列极具争议的社会问题,这些问题反映了基于大数据的科学知识生产面临的新境况,同时也给当代科学哲学家和科学社会学家提出了新思考。
第一,基于大数据的科学知识生产活动是否进入了科学研究的新范式。“让数据发声”是否意味着“科学始于数据”?这种知识生产模式能否成为一种新的科学研究范式?这些问题目前尚无定论,还有待于在不断深化的科学研究实践中考察,尤其需要进一步思考数据驱动型的科学研究在科学认识论上的特点以及数据驱动与理论驱动的本质区别。可以预见的是,在未来很长的一段时间内,数据驱动与理论驱动两者将相互补充相互融合,基于大数据的科学研究更容易成长为一种统一了经验、理论和计算等几种研究模式的复合研究范式。
第二,科学研究资源是否将被持续分化和集中。分工协作并不意味着学术身份的平等化,大数据技术也并不会自然地带来数据、信息等重要学术资源的共享。一方面,大数据所产生的海量数据并没有实现完全的开放获得,也不会惠及所有的科学家;另一方面,即使可以实现海量数据的采集和利用,但科学研究中稀有信息与污染性信息之间的矛盾仍然存在,甚至将变地更为尖锐。例如,在生物多样性的研究中,科学家已经通过监测地形地貌、气候、物种活动轨迹等相关数据建立了与之相关的多维数据库,进而通过对比研究数据库中的海量数据进行科学发现。但这些数据库并未公开,而且对海量数据中有用数据的甄别将更为困难,必须依靠大数据处理系统来完成。
第三,基于数据驱动的知识生产是否将面临越来越强烈的机械路径依赖。表面上看,过度的技术路径依赖的确将弱化科学家知识创新的主动性,甚至落入“科学研究决定论”的窠臼。不过也有学者认为,要辩证地看待科学家在大数据知识生产中的作用。在数据的选择和处理中,科学家的基础性作用反而增强了。数据集合对于世界的描述仍是不完备的,它只能部分地、粗浅地模拟丰富而复杂的真实世界。寻找数据背后隐藏的特殊规律,需要科学家敏锐的观察和分析能力,以及顶尖级科学家不同寻常的创造和创新能力。大型计算机、数据库仍然是工具层面的应用,它们不会自动产生有价值的科学发现。
第四,不同学科的研究模式是否将遭到不同程度的分化。不能笼统地归纳大数据技术在科学研究中的作用,大数据技术在不同学科中发挥着不同层次的作用。同时,大数据技术系统本身也处于不变的演变之中,技术发展是一个社会斗争的舞台,各种相互竞争的群体在这个舞台上都试图推进它们的利益和相对应的文明规则。从这个意义上讲,有学者认为,大数据技术本身无法推动建立一种普适的知识生产模式。那么,大数据技术与假说驱动的科学发展模式究竟是怎样的关系?如何恰当的评判大数据技术革命对于当前科学研究的影响?这些问题还需在未来的知识生产与大数据技术的互动中去思考和分析。据此,有学者指出数据挖掘手段只是补充了科学知识的生产手段,增添了科学发现的逻辑新通道。
所以,大数据技术在变革科学知识生产方式的同时,也带来了很多社会争议,这些争议从某种角度看仍是诸如技术理性、技术决定论等传统技术哲学问题的当代追问。尽管基于大数据的知识生产能否成为未来科学知识生产的主要方式犹未可知,但大数据技术的确已经对当代科学知识生产产生了革命性影响。对于我国这样的处于科学追赶阶段的发展中国家来说,大数据技术为我们实现科学赶超提供了新的历史性机遇,必须将构建跨越式的大数据系统平台提升至国家战略高度,从而在新一轮的大科学竞争中占领新的制高点,提升我国科学共同体的知识生产乃至科学创新能力。
引用本文:丁大尉.大数据时代的科学知识共生产:内涵、特征与争议[J].科学学研究,2022(3):393-400.