美國科學哲學家漢弗萊斯將大數(shù)據(jù)分為兩類,一類 是大寫的大 數(shù) 據(jù)(BIG DATA), 另 一 類 是 小 寫 的 大 數(shù) 據(jù)(big data)。小寫的大 數(shù) 據(jù)指與數(shù) 據(jù)科學 相關的活動和方法,是擁有海量數(shù)據(jù)(603138,股吧)的組織機構所面臨的技術問題 ;而當這些活動、方法尤其關于處理海量數(shù)據(jù)的技術向社會各領域滲透并迅速發(fā)展時,便產(chǎn)生了大寫的大數(shù)據(jù)。這意味著我們平常所用的“大數(shù)據(jù)”所指的對象并不同一。大數(shù)據(jù)激進派的代表人物安德森、舍恩伯格等認為 :數(shù)據(jù)可以客 觀 地 表征世界 ;只 要 數(shù) 據(jù)量 足夠大,就不需要模型、問題及相關的理論,只要在數(shù)據(jù)的驅(qū)動下,數(shù)據(jù)可以自己發(fā)聲 ;相關性是世界的本質(zhì) ;由于大數(shù)據(jù)可以完全避免人類的主觀因素進入科學研究,大數(shù)據(jù)知識發(fā)現(xiàn)的模式更客觀、更自由。大數(shù)據(jù)保守派的代表人物有弗洛里迪、克勞德、皮耶奇等,他們一方面承認大數(shù)據(jù)的獨特性,另一方面對大數(shù)據(jù)是否能客觀反映實在、大數(shù)據(jù)是否是理論自由的、大數(shù)據(jù)能否完全取代小數(shù)據(jù)、相關性能否代替因果性等都保持理性的懷疑態(tài)度,并且通 過案例,對 激 進派的各種論 調(diào)一一進行反駁。
案例一人類數(shù)感研究
人類對物體或事件的數(shù)量存在一種非言語的表征方式,區(qū)別于通過言語或數(shù)字符號對數(shù)量的精確表征,具有近似性和不精確性,心理學家稱之為近似數(shù) 量系統(tǒng)(ANS)。ANS是一種與生俱來的結構,無論人還是動物都有,它不僅體現(xiàn)在視覺任務中,也能體現(xiàn)在聽覺任務中,是人類數(shù)感和形成數(shù)學能力的基礎,在理論上服從韋伯定律。腦科學研究表明,腦區(qū)雙側的頂內(nèi)溝處大致為ANS系統(tǒng)所處的位置。目前,腦科學和心理科學的相關研究成果被廣泛應用到教育教學實踐中。但長期以來,對ANS的研究缺乏對人的整個生命周期的研究,因為實踐中很難對每一個樣本進行終生的追蹤研究。大數(shù)據(jù)技術出現(xiàn)之后,約翰霍布斯大學的心理學 家 哈 爾伯 達(J. Halberda)通過已有的ANS理論,構造出測試模型,然后向全球征求志愿者,在線完成測試任務。在短短的幾個月時間里,便收集到了分布在全球不同地區(qū)的13000名年齡在11-85歲的測試者。通過對這些數(shù)據(jù)的分析,哈爾伯達不但完成了對人類數(shù)量感知力發(fā)展的整體描述、驗證了前期對于不同年齡階段ANS與數(shù)學水平之間的理論假設,填補了這一領域的研究空白,而且 還發(fā)現(xiàn)了之前沒有發(fā)現(xiàn)的一些“意外”規(guī)律。
案例二谷歌流感預測
季節(jié)性流感是人類社會長期面臨的一個世界性的威脅和問題,據(jù)統(tǒng)計,全球每年約有25萬-50萬人死于季節(jié)性流感。因此,對季節(jié)性流感進行預測并提前防控具有重要意義。美國疾 病控制和預防中心(CDC)、歐洲流 感監(jiān)測計劃(EISS)所使用的流感預測系統(tǒng),都是依據(jù)病毒學理論,使用臨床監(jiān)測數(shù)據(jù),對流感進行預測,并向公眾發(fā)布預測報告,但預測報告通常會滯后1-2周。隨著互聯(lián)網(wǎng)與大數(shù)據(jù)技術的發(fā)展,研究人員發(fā)現(xiàn)在某一地區(qū),某些詞的互聯(lián)網(wǎng)搜索頻率與流感樣疾。╥nfluenza-like illness,ILI)病例的就診比率高度相關。2008年,谷歌建立了一種通過分析谷歌搜索查詢來跟蹤、預測流感的系統(tǒng)。在谷歌的預測模型中,自變量為同一地區(qū)與流感樣疾病相關的檢索詞的檢索頻率。將模型的預測結果與CDC的結果相比較,發(fā)現(xiàn)對2008年各季度預測的結果與美國CDC的監(jiān)測結果的相關系數(shù)達到0.97。而最為關鍵的是,由于可以快速處理搜索查詢,谷歌的預測報告比CDC的提前1-2周。
分析SSD與SDS
以上兩個大數(shù)據(jù)案例恰好代表了兩個大數(shù)據(jù)流派對大數(shù)據(jù)的看法。當研究者基于案例一來分析時,必然會得出大數(shù)據(jù)研究離不開模型、以問題驅(qū)動、相關性不能代替因果性等,而對于影響人類“數(shù)感”的機制是什么仍舊懸而未決 ;如果以案例二為依據(jù)則可以得出,大數(shù)據(jù)不需要具體問題,
雖然兩類大數(shù)據(jù)有區(qū)別,但隨著不斷融合,它們之間的界限越來越模糊。SDS的數(shù)據(jù)雖然依 賴于網(wǎng)絡技術的發(fā)展,但其所使用的方法、模型很多都是來自于SSD的研究成果。正如漢弗萊斯所指出的,當小寫的大數(shù)據(jù)向社會各領域滲透并迅速發(fā)展時,便產(chǎn)生了大寫的大數(shù)據(jù)。綜上所述,由于大數(shù)據(jù)所指陳的對象并不同一,即客觀上存在著兩類既有區(qū)別又有聯(lián)系的大數(shù)據(jù),因此,在開展相關研究時,研究者首先要明確自己所研究的對象屬于哪一類,如此才不至于陷入激進派與保守派無休止的論爭漩渦。(數(shù)據(jù)雜志/文薛永紅)轉(zhuǎn)載請注明來源
最新評論