首頁 >> 教育學 >> 高等教育學
升學目標地數據研究教育機會不平等的局限性 ——以“首都大學生成長追蹤調查”為例
2020年01月03日 10:04 來源:《社會學評論》2019年第3期 作者:李代 字號
關鍵詞:教育不平等;高考;社會分層;社會流動

內容摘要:基于“閾值依賴不平等”的研究框架,試圖說明基于目標地數據得到的定量研究結果可能在可闡釋性和可推廣性方面存在局限,而且“首都調查”自身在無偏性方面存在缺陷,可能導致有誤導性的結果。

關鍵詞:教育不平等;高考;社會分層;社會流動

作者簡介:

  作者簡介:李代,北京大學新媒體研究院助理研究員,主要研究方向為社會分層與流動。

  內容提要:在升學過程中出現的教育機會分配不平等問題是社會分層領域的重要研究課題。一些定量研究采用的數據是升學目標地調查數據,也就是從完成升學的大學生人群中采集的調查數據。本文以“首都大學生成長追蹤調查”的數據生成過程為例,將模擬生成數據與某省完整高考數據進行對比,基于“閾值依賴不平等”的研究框架,試圖說明基于目標地數據得到的定量研究結果可能在可闡釋性和可推廣性方面存在局限,而且“首都調查”自身在無偏性方面存在缺陷,可能導致有誤導性的結果。

  關 鍵 詞:教育不平等 高考 社會分層 社會流動

  標題注釋:中國博士后科學基金資助項目“基于大數據視角對高等教育機會不平等的研究”(項目編號:8206300008)。

  從知識進化論(波普爾,1987)的視角來看,學術研究往往是在已有基礎上的積累前進,當理論、方法或數據當中任何一方面取得進步時,新的研究成果得以產生,而此前被學術界接受的研究結論就有可能被置于懷疑的境地。一種常見的情況是原有研究者受限于現實條件而只能拋棄理想化的研究方案,轉而采用可行性更強的方案。這樣的條件下取得的研究成果盡管未必能令人完全信服,但向可行性的妥協造成了多大的偏差難以評估,在沒有更好的選擇時也有可能說服學術界加以接受。一旦新的研究者有條件采用更為嚴謹的研究方案對同一問題進行研究,此前的研究結果就可能需要得到更新。例如,由于無法觀察到總體情況,研究者采用抽樣調查來獲得對總體參數的無偏估計;由于數據采集成本過高,研究者實施的抽樣方案未必能滿足隨機抽樣的理想條件,而會存在一定妥協。這些妥協往往伴隨著一定的代價,但是由于抽樣調查的稀缺,針對同類問題往往只有屈指可數的可比較的調查數據,因而基于這些數據進行的研究缺乏有效的反饋回路來校驗其結果的可靠性。

  本文試圖提供對教育不平等議題下一類研究的校驗。教育不平等本身是非常重要的研究課題,獲得對總體參數的準確估計不論是對學術研究還是政策制定都有非常明顯的價值,因此對其進行精細的討論很有意義。教育不平等有多種表現形式,而得到研究最廣泛的問題之一便是不同群體在獲得教育機會方面的不平等。例如,家庭背景、地域、城鄉、性別、民族等等重要的變量都可能對教育機會的獲取產生影響,從而造成群體之間的教育不平等。到底不同群體之間的教育不平等差異多大?不平等的變化趨勢如何?這一差異是如何產生的?

  要準確地回答這些關于教育不平等的問題,定量研究不可或缺。對教育不平等的定量研究,采用的數據可以分為三類。第一類是一般性的調查數據,例如中國1%人口抽樣調查、中國兒童情況抽樣調查(張春泥、謝宇,2017)、中國家庭追蹤調查(陳偉、烏尼日其其格,2016;李忠路、邱澤奇,2016)、中國綜合社會調查(楊中超,2016)等等。第二類是生源地數據,這類數據的研究總體是參與同一場教育競爭的人群。例如,某年某省全部參與高考的學生構成的數據,就是一個典型的生源地數據(李代,2017)。與之相對,第三類是目標地數據。在中國,來自全國不同生源地的學生經過高考而匯聚到大學之中。他們所進入的大學,便是我們所說的升學“目標地”,而從大學生中獲得的數據,便構成了目標地數據。例如,首都大學生成長跟蹤調查(吳曉剛,2016)、首都高校生發展狀況調查(葉曉陽、丁延慶,2015)、學籍卡數據(梁晨等,2012;梁晨、董浩,2015)。

  這三類數據的本質差別不在于是否進行抽樣,而在于總體的構建與作為研究對象的升學機制是否相互獨立。一般性調查數據在構建總體時并不涉及升學的問題,也就是說總體的構建與升學相獨立。生源地數據在構建總體時,選取的是升學發生之前就能定義出來的、相互競爭教育機會的人群。目標地數據在構建總體時,選取的是升學過程產生的、獲得了教育機會的人群。從理論上來講,要測量升學過程中出現的教育不平等問題,前兩種數據都可能提供準確的結果,而第三種數據多數情況下不能提供準確的結果,因為它缺失了教育競爭中失敗者的信息。盡管有不可回避的缺陷,但是因為數據收集方面的便利,目標地數據在大量的研究中得到了使用。本文想指出的是,采用目標地數據進行定量研究,得到的結果很可能存在可闡釋性方面的問題、可推廣性方面的問題,這些都使得研究結果的價值大打折扣,而且難以與前兩類研究得到的結果直接進行比較。

  為了說明這些問題,本文以“首都大學生成長跟蹤調查”(后文簡稱“首都調查”)的數據生成過程為例進行分析。之所以選取這一數據進行案例分析,是因為它是典型的目標地數據,而且有不少重要的研究都基于這一數據進行,例如,吳曉剛(2016)、謝桂華和***陽(2016)、李駿(2016a,b)、李忠路(2016)、許多多(2017)、朱斌(2018)等等。由此可見,這一數據在研究教育不平等議題方面是質量相對較高的,否則不應產出這么多得以在優秀學術期刊發表的成果。以這一數據為例進行討論,有更大的典型性。這一調查數據并未公開,因此本文并沒能掌握數據本身①。但是數據生成的過程在研究者的文章中得到清晰的介紹(吳曉剛,2016;李路路,2013),這使我們可以對某一總體數據進行篩選,按照“首都調查”實施抽樣的步驟生成模擬數據,從而判斷是否能夠基于該調查數據得出可靠的研究結論。

  要生成模擬數據,本文使用的是某省某年的完整高考數據。該高考數據中包含了全部報考考生的個人信息、考試成績及錄取結果。這一數據包含了全部報名考試學生的信息,因此是一個總體數據。由于包含了錄取結果,對其按一定的條件取子集,能夠生成目標地數據。如果目標地數據是有效、可信的,那么用總體數據和模擬生成出來的目標地數據分別進行同樣的分析,得到的結果應該是完全一致或至少非常接近的。如果不然,就說明用目標地數據進行分析的結果不那么可靠。因此,對生成的目標地數據重復對總體數據進行的分析,比較二者結果的差異,可以評估目標地數據的可靠程度。

  本文按照“首都調查”的說明,從完整的數據中生成目標地數據,窮舉分數線從1分取到700分的情況,分別計算相應的性別不平等程度。之所以選擇性別不平等作為研究的對象,出于以下三個考慮。第一,抽樣調查數據對研究者的允諾是提供對總體參數的無偏估計,因而任何變量上都不應該出現較大的偏誤。所以,本文不需要對所有變量進行詳盡的分析,只要舉出一個反例就足以說明問題。第二,選擇性別變量作為研究的焦點,是因為性別在社會學研究中廣受關注——前面列舉的研究無一例外都控制了性別變量;在研究人群中性別比例比較均衡、分數分布也存在差異,描述性別不平等比較容易揭示出問題。第三,之所以選取李代(2017)中“閾值依賴不平等”研究框架作為重復研究的內容,是因為這一研究框架在每一個可能的分數線處計算一次升學差異,例如從1分到700分計算700次假想的分數線帶來的結果,就相當于進行了700次邏輯斯蒂回歸,得到的結果可以帶來對整體情況全局的把握。這比起以一本線、二本線等標準計算一次回歸提供了更多的信息,能更好地展現不同人群升學機會差異的結構。

  本文的研究結果包括以下幾方面內容。首先,作為一個抽樣調查,“首都調查”面對所有抽樣調查都面對的挑戰。由于中國的高考是分省、分文理進行的,如果在調查研究和模型設置時不對這些變量加以控制,就可能導致一類“生態謬誤”——辛普森悖論(Simpson's Paradox)(Simpson,1951)。吳曉剛(2016)試圖通過將考試分數標準化來解決這一問題,但其效果并不理想。如果控制省份、文理的變量,就可能導致樣本量不能滿足模型要求,從而得不出顯著結果。其次,“首都調查”作為一個目標地抽樣調查,存在兩類特定問題。由于其總體是升學的結果,難以放入日常生活經驗中加以理解,因此有可闡釋性問題;要想通過把結論推廣到可闡釋的人群上去來解決可闡釋性的問題,又發現其結果不具備很強的可推廣性。最后,就“首都調查”自身而言,因為采用的抽樣方案實施效果不甚理想,樣本對研究總體的參數估計很可能是有偏的。

  本文是一篇反思性研究,提出的問題是筆者在研究中也會經常面對而沒有良好解決方案的難題。但是另一方面,如果本文能提醒研究者意識到這類研究的缺陷、明確其研究貢獻的限度,甚至激發學者提出有效的解決方案,本文也就不失為有微末的貢獻了。

作者簡介

姓名:李代 工作單位:北京大學新媒體研究院

課題:

中國博士后科學基金資助項目“基于大數據視角對高等教育機會不平等的研究”(項目編號:8206300008)。

轉載請注明來源:中國社會科學網 (責編:畢雁)
W020180116412817190956.jpg
用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
 驗證碼 
所有評論僅代表網友意見
最新發表的評論0條,總共0 查看全部評論

回到頻道首頁
QQ圖片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
內文頁廣告3(手機版).jpg
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
广东快乐十分官方下载