探求真理 發(fā)展學(xué)術(shù) 服務(wù)社會(huì)
        歡迎訪問深圳市社會(huì)科學(xué)網(wǎng) 今天是

        學(xué)術(shù)研究

        大數(shù)據(jù)拓展社會(huì)定量研究方法

         日期:2022-06-14   來(lái)源:中國(guó)社會(huì)科學(xué)網(wǎng)-中國(guó)社會(huì)科學(xué)報(bào)

          長(zhǎng)期以來(lái),社會(huì)學(xué)的量化研究依靠調(diào)查、普查和實(shí)驗(yàn)數(shù)據(jù),使用以統(tǒng)計(jì)回歸分析為主的統(tǒng)計(jì)模型對(duì)社會(huì)現(xiàn)象進(jìn)行分析和解釋。隨著大數(shù)據(jù)及其分析技術(shù)的發(fā)展,數(shù)字化文本、媒體社交網(wǎng)絡(luò)、時(shí)空信息等大數(shù)據(jù)已被廣泛運(yùn)用于社會(huì)學(xué)各研究領(lǐng)域,不僅豐富了社會(huì)學(xué)的研究現(xiàn)象,拓寬了社會(huì)學(xué)的研究視野,也在方法層面使社會(huì)學(xué)量化研究方法體系產(chǎn)生了巨大改變。

          研究范式轉(zhuǎn)向

          理論與數(shù)據(jù)雙驅(qū)動(dòng)

          傳統(tǒng)社會(huì)學(xué)量化研究是理論指導(dǎo)下的實(shí)證研究。針對(duì)特定的研究問題,研究者基于相關(guān)理論和過往研究結(jié)論進(jìn)行理論推演,提出研究假設(shè),然后采用科學(xué)的統(tǒng)計(jì)模型對(duì)數(shù)據(jù)進(jìn)行實(shí)證分析,從而證明或證偽假設(shè)。在這一過程中,研究假設(shè)的提出、概念測(cè)量和變量選擇,主要依據(jù)過往的理論和結(jié)論。對(duì)理論的依賴會(huì)使研究者往往囿于前人經(jīng)驗(yàn),導(dǎo)致大多數(shù)的量化研究只能在前人經(jīng)驗(yàn)上進(jìn)行加減變量、增加交互項(xiàng)、對(duì)樣本進(jìn)行分組等操作,對(duì)前人經(jīng)驗(yàn)進(jìn)行小修小補(bǔ),難以實(shí)現(xiàn)突破性的理論發(fā)現(xiàn)。由于大數(shù)據(jù)通常維度較高,而人腦的思考維度有限,難以在高維空間中展開想象。因此,大數(shù)據(jù)分析通常使用數(shù)據(jù)驅(qū)動(dòng)的方式,將所有可能相關(guān)的變量(特征)全部輸入機(jī)器學(xué)習(xí)模型,通過對(duì)數(shù)據(jù)中變量之間、個(gè)案之間真實(shí)且復(fù)雜的關(guān)系進(jìn)行計(jì)算,找到群體之間、變量之間的結(jié)構(gòu)關(guān)系,幫助研究者從海量、高維的真實(shí)數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律。目前,不僅大數(shù)據(jù)被運(yùn)用于社會(huì)學(xué)研究中,其數(shù)據(jù)驅(qū)動(dòng)的思想也已被融入當(dāng)前社會(huì)學(xué)量化研究的變量選擇、結(jié)構(gòu)分析、異質(zhì)性群體識(shí)別和因果推斷等各個(gè)環(huán)節(jié),形成了數(shù)據(jù)與理論雙驅(qū)動(dòng)的新量化研究范式。

          其理論驅(qū)動(dòng)在于,研究者需要根據(jù)相關(guān)領(lǐng)域的專業(yè)知識(shí)來(lái)指導(dǎo)變量選擇范圍、制定分析策略、分析模型結(jié)果,并進(jìn)行理論建構(gòu),從對(duì)經(jīng)驗(yàn)現(xiàn)象的研究中提出新的社會(huì)理論。其數(shù)據(jù)驅(qū)動(dòng)則主要體現(xiàn)在具體的研究方法上:(1)在變量選擇上,使用LASSO回歸、嶺回歸等有監(jiān)督機(jī)器學(xué)習(xí)模型,從所有可能與因變量相關(guān)的自變量中,篩選出對(duì)因變量重要的影響變量,“廣泛撒網(wǎng)、重點(diǎn)捕撈”,從而避免遺漏變量,也可能從過往理論未曾觸及的角度得到意外發(fā)現(xiàn),從而促進(jìn)理論創(chuàng)新;(2)在變量結(jié)構(gòu)分析上,使用主成分分析、t分布—隨機(jī)鄰近嵌入(t-SNE)等機(jī)器學(xué)習(xí)嵌入技術(shù),將數(shù)據(jù)從高維空間映射到低維空間來(lái)對(duì)數(shù)據(jù)進(jìn)行“濃縮”,既可以將原本稀疏的、離散的高維數(shù)據(jù)轉(zhuǎn)化為連續(xù)變量納入統(tǒng)計(jì)模型,也能夠幫助研究者發(fā)現(xiàn)變量之間的隱藏結(jié)構(gòu);(3)在異質(zhì)性群體識(shí)別方面,使用無(wú)監(jiān)督聚類模型,完全基于樣本的特征差異對(duì)群體進(jìn)行分組,可以同時(shí)考慮高維特征,得到組內(nèi)同質(zhì)性、組間異質(zhì)性的群體,有助于研究者進(jìn)一步探究不同群體中的異質(zhì)性規(guī)律;(4)在因果推斷上,使用因果樹、因果森林等分析異質(zhì)性處理效應(yīng)的機(jī)器學(xué)習(xí)模型,可以自動(dòng)估計(jì)處理變量對(duì)不同群體的異質(zhì)性處理效應(yīng);使用基于因果發(fā)現(xiàn)算法的貝葉斯因果圖(Causal Bayesian Network)進(jìn)行因果推斷,不僅能夠?qū)ψ宰兞亢鸵蜃兞恐g的關(guān)系進(jìn)行反事實(shí)的因果推斷,對(duì)因果效應(yīng)進(jìn)行無(wú)偏估計(jì),也能夠?qū)W習(xí)出自變量之間的因果關(guān)系。

          方法論轉(zhuǎn)向個(gè)體與整體主義并存

          傳統(tǒng)社會(huì)學(xué)定量研究的數(shù)據(jù)來(lái)源多為個(gè)體層次的微觀調(diào)查數(shù)據(jù),且多使用線性回歸等方法,旨在發(fā)現(xiàn)變量之間的關(guān)系。因此,大多數(shù)定量研究所討論的理論問題主要在個(gè)體層面,如教育、關(guān)系網(wǎng)絡(luò)等如何影響個(gè)體的地位獲得,社會(huì)資本如何影響個(gè)體的健康狀況等。盡管一些研究使用了社區(qū)、地區(qū)、城市等宏觀層面的指標(biāo),但其討論的落腳點(diǎn)仍在于這些宏觀層面因素如何影響微觀個(gè)體,例如所在地區(qū)的市場(chǎng)化水平如何影響個(gè)體的教育回報(bào)等。盡管經(jīng)過科學(xué)的抽樣調(diào)查設(shè)計(jì)和普查所得到的數(shù)據(jù)具有總體代表性,其變量之間的關(guān)系能夠推廣到總體,但以微觀個(gè)體為對(duì)象的社會(huì)學(xué)定量研究所提出的社會(huì)理論主要集中于微觀和中觀層面,難以建構(gòu)宏觀社會(huì)理論。

          大數(shù)據(jù)的產(chǎn)生及其分析方法的發(fā)展,則為基于整體主義的宏觀定量社會(huì)學(xué)研究發(fā)展孕育了土壤,使社會(huì)學(xué)量化研究從個(gè)體主義主導(dǎo)向個(gè)體與整體主義并存轉(zhuǎn)變。一方面,大數(shù)據(jù)能夠提供不同層次的匯總數(shù)據(jù),鏈接多個(gè)數(shù)據(jù)源,能夠填補(bǔ)宏觀層次的數(shù)據(jù)空白,為宏觀層面的研究提供數(shù)據(jù)支持,例如使用注冊(cè)大數(shù)據(jù)可以研究社會(huì)變遷、了解人口變化趨勢(shì)、分析經(jīng)濟(jì)發(fā)展規(guī)律,探究政策實(shí)施影響等。另一方面,大數(shù)據(jù)分析方法,尤其是復(fù)雜網(wǎng)絡(luò)分析技術(shù)的發(fā)展,也為研究者從大量微觀數(shù)據(jù)中發(fā)現(xiàn)宏觀層次的特征和規(guī)律提供了可能。復(fù)雜網(wǎng)絡(luò)雖是基于個(gè)體之間的關(guān)系而建構(gòu),但其分析的重點(diǎn)在于網(wǎng)絡(luò)整體結(jié)構(gòu)的特征、變化及其生成機(jī)制。因此,復(fù)雜網(wǎng)絡(luò)分析主要關(guān)注整體的、宏觀層面的規(guī)律,例如從動(dòng)態(tài)社交網(wǎng)絡(luò)的結(jié)構(gòu)變化中探索社會(huì)群體如何形成和分化;從職業(yè)流動(dòng)網(wǎng)絡(luò)中探究勞動(dòng)力市場(chǎng)結(jié)構(gòu)的變化及其原因;從人口遷移網(wǎng)中發(fā)現(xiàn)人口流動(dòng)的模式及其規(guī)律;從論文主題、引用、合作網(wǎng)絡(luò)中探索科學(xué)的發(fā)展趨勢(shì)等。

          分析方法轉(zhuǎn)向多元化方法體系

          受理論驅(qū)動(dòng)范式、個(gè)體主義方法論和數(shù)據(jù)局限性的制約,過往的社會(huì)學(xué)量化研究通常以變量為中心,使用回歸模型對(duì)變量進(jìn)行相關(guān)性分析。面對(duì)體量大、維度高、形式多樣化、增長(zhǎng)速度快、價(jià)值密度低的大數(shù)據(jù),研究者需要使用不同的方法組合來(lái)挖掘出符合研究需求的信息,從而進(jìn)行知識(shí)生產(chǎn)和科學(xué)發(fā)現(xiàn)。首先,由于大數(shù)據(jù)包含大量非結(jié)構(gòu)化數(shù)據(jù),研究者要格外重視描述性分析,通過數(shù)據(jù)清理、設(shè)計(jì)恰當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)提取出關(guān)鍵信息,再巧妙地使用可視化技術(shù)以最簡(jiǎn)潔、直觀且符合美學(xué)的方式,最大限度地展現(xiàn)數(shù)據(jù)所包含的信息。其次,大數(shù)據(jù)形式多樣,例如文本數(shù)據(jù)、音視頻數(shù)據(jù)、圖像數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)等,研究者需要掌握相應(yīng)的文本分析技術(shù),應(yīng)對(duì)多樣化的數(shù)據(jù)形式。最后,大數(shù)據(jù)并不等于全樣本數(shù)據(jù),與之相反,研究者能夠獲取的大數(shù)據(jù)大多數(shù)是從特定群體中獲取的、存在選擇性的樣本。因此,與隨機(jī)抽樣的調(diào)查數(shù)據(jù)相比,基于大數(shù)據(jù)的因果推斷給研究者帶來(lái)了更大的挑戰(zhàn)。研究者不僅需要掌握更加科學(xué)的因果推斷工具,還需要更加周密的研究設(shè)計(jì),才能避免大數(shù)據(jù)帶來(lái)的大錯(cuò)誤,從復(fù)雜的表象中識(shí)別真正的因果關(guān)系。

          大數(shù)據(jù)時(shí)代,數(shù)據(jù)的膨脹為社會(huì)學(xué)研究注入了新的活力,大數(shù)據(jù)分析技術(shù)的發(fā)展也為社會(huì)學(xué)定量研究范式及其方法論的革新提供了可能,但新契機(jī)同時(shí)也意味著新挑戰(zhàn)。海量復(fù)雜的大數(shù)據(jù),對(duì)計(jì)算機(jī)和研究者的“算力”都提出了更高的要求,且在大數(shù)據(jù)獲取和使用機(jī)制尚不完善的今天,獲取符合研究需求的大數(shù)據(jù)也成為社會(huì)科學(xué)研究的一大挑戰(zhàn)。因此,推進(jìn)大數(shù)據(jù)平臺(tái)建設(shè),完善大數(shù)據(jù)數(shù)據(jù)生產(chǎn)和開放機(jī)制與研究方法的革新,成為定量社會(huì)學(xué)研究者亟待推進(jìn)的重要議題。

          (作者單位:中山大學(xué)社會(huì)學(xué)與社會(huì)工作系)