網易首頁 > 網易號 > 正文申請入駐

一個統一框架：讓非結構化數據推理又穩又快

2025-11-20 15:57:29　來源: CreateAMind

上海舉報

分享至

A Unifying Framework for Robust and Efficient Inference with Unstructured Data

https://arxiv.org/pdf/2505.00282

本文《用于非結構化數據的穩健且高效推斷的統一框架》的核心重點可以概括為以下幾點：

核心問題與動機：
- 許多實證研究（尤其在經濟學中）需要利用文本、圖像等 非結構化數據 來估計一個 缺失的結構化變量 （例如，經濟政策不確定性指數、地緣政治風險指數）。
- 現有方法（如基線 MAR-S 框架）通常假設可以直接觀測到該結構化變量的真實值，但這在實踐中往往不成立。真實值通常僅存在于細粒度層面（如單篇文章），而研究者關心的是更高層面的聚合值（如月度均值），這些聚合值本身無法被直接觀測。
提出解決方案：MAR-S 框架的擴展應用：
- 作者提出并系統闡述了如何將 MAR-S (Missing at Random - Structural) 框架應用于更廣泛、更現實的場景。
- 核心思想是：首先使用標注數據訓練一個“填補函數”（imputation function）來預測缺失的結構化數據；然后，通過 MAR-S 的去偏機制，對這個填補結果進行校正，得到無偏的估計量。
- 該框架特別適用于處理 非線性變換 （如取對數）和 高度聚合的數據 ，并通過簡單的 delta 方法或標準回歸技術來解決由此產生的測量誤差問題。
關鍵貢獻與創新點：
- 理論嚴謹性
  ：提供了嚴格的統計推斷方法，能夠生成 漸近有效的置信區間 ，并明確考慮了因填補和聚合帶來的系統性測量誤差。
- 實用性與普適性
  ：方法概念上直觀，易于實施，可自然擴展到聚類數據和面板數據，并能適應多種實際場景（如結果變量也需填補、測量誤差非正態等）。
- 性能提升
  ：證明了使用更精確的填補模型（如深度神經網絡分類器）相比傳統方法（如關鍵詞分類器）能產生更窄的置信區間，體現了“更準確填補帶來更高效率”的回報。
- 揭示偏差
  ：通過實證案例（EPU 和 GPR 指數）清晰地展示了，忽略測量誤差會導致嚴重的衰減偏差和置信區間被低估，從而得出錯誤的統計推斷。
實證驗證：
- 通過三個實證案例（兩個經典文獻的再分析 + 一個作者自建數據集的示例）驗證了該框架的有效性。
- 在 EPU 和 GPR 指數的應用中，展示了如何用深度學習模型替代傳統關鍵詞方法，并量化了其在估計精度和置信區間寬度上的優勢。
- 在回歸分析中，對比了使用經 MAR-S 校正的變量與未經校正變量的結果，突顯了校正的重要性。

總而言之，本文提供了一個強大、靈活且實用的統一框架，旨在解決從非結構化數據中提取結構化信息時所面臨的普遍性挑戰——即如何在存在缺失、聚合和非線性變換的情況下，進行穩健且高效的統計推斷。它不僅完善了現有理論，也為實證研究者提供了一套可操作的工具。

摘要

本文提出了一種通用框架，用于對源自非結構化數據（包括文本、圖像、音頻和視頻）的參數進行高效推斷。經濟學家長期以來使用非結構化數據的做法是：首先從中提取低維的結構化特征（例如文本的主題或情感），因為原始數據維度太高、難以解釋，無法直接納入實證分析。深度神經網絡的興起極大降低了大規模提取結構化數據的成本，從而加速了這一實踐；但神經網絡并不保證在一般意義上產生無偏預測。這可能導致偏差傳播到下游估計量中——當這些估計量納入了由神經網絡推算（imputed）出的結構化數據時；此外，市面上存在多種具有不同偏差的現成神經網絡，這進一步引發了“p值操縱”（p-hacking）的擔憂。

為應對上述挑戰，我們將使用非結構化數據進行推斷的問題，重新刻畫為結構化數據缺失問題：即，結構化變量由高維非結構化輸入推斷（填補）而來。這一視角使我們得以應用半參數推斷中的經典結果，從而得到有效、穩健且具統計效度的估計量。我們以 MAR-S（Missing At Random Structured Data，結構化數據隨機缺失）框架對該方法進行形式化。MAR-S 統一并拓展了現有利用機器學習預測進行去偏推斷的方法，并將其與因果推斷等人們熟悉的問題聯系起來。在該框架下，我們為描述性與因果性估計目標均構建了穩健且高效的估計量，并解決了現有文獻尚未涵蓋的現實挑戰——例如，當缺失的結構化數據被聚合或變換后如何進行推斷。這些方法及其配套的實現軟件包，為經濟學家提供了便捷工具，使其能在廣泛的應用中，利用非結構化數據構建無偏估計量——我們在重分析若干具有影響力的研究案例中對此加以驗證。

1 引言

經濟學家在實證研究中頻繁使用非結構化數據，其中包括圖像（像素數據）、文本（來自高維詞表的詞元序列）、音頻（波形或頻譜圖）以及視頻（圖像序列）。然而，由于非結構化數據維度極高、計算負擔重且原始形式難以解釋，研究者極少將其直接用于計量經濟學分析。取而代之的是，研究者從中提取有意義的低維特征，并將其用于統計分析。依據既有文獻，我們將這些低維表征稱為結構化數據。

從非結構化數據中提取的低維特征數據集，已成為諸多經濟學領域實證研究的基石。例如，常用數據集通過新聞報道及其他文本資料，提取關于治理、制度、政治穩定性、政策不確定性、沖突與暴力等方面的結構化信息1；研究者從政府會議記錄、企業申報文件、財報電話會議、專利文本與網絡文本中推斷情感、主題及其他多種結構化變量2；夜間燈光衛星圖像被用于度量經濟活動、發展水平與城市化進程3；遙感數據推斷結果常被用于補充地面觀測的氣溫、降水、污染、農業產出、土地利用、非法活動、森林砍伐等現象的測量4。

傳統上，從非結構化數據中提取結構化信息成本高昂，需依賴完全人工標注，或依賴復雜的人工設計規則，因而常需大規模專項投入。近年來，計算能力提升與深度學習進步顯著降低了從文本、圖像、音頻與視頻中提取低維結構化數據的成本。大量機器學習文獻已表明，深度神經網絡是當前對非結構化數據進行大規模特征提取的最先進技術（Goodfellow 等，2016）。

然而，神經網絡在有限樣本中一般無法保證無偏預測。網絡架構的選擇、訓練數據的分布，以及各類實現細節（如訓練中的正則化）均可能引入系統性偏差。此外，即使在最簡單的神經網絡中，各層的非線性變換，加之神經網絡常被用于二分類或多分類任務，均會違反經典測量誤差模型的基本假設。

此類“第一步”預測器（first-step predictor，即用于預測后續分析中所用測度的模型）所產生的偏差，會進一步傳播至依賴它們的估計量中，影響點估計與不確定性量化。盡管在大數據集中抽樣變異可能很小，但一個性能不佳的第一步預測器一旦以統計上合理的方式被納入不確定性核算，仍可能引入顯著誤差。對第一步預測器偏差的擔憂，又因現成神經網絡的廣泛可用而加劇：這些模型實現成本相對低廉，卻可能存在偏差；不同模型可能引入不同偏差，從而引發“選擇性使用不同第一步推斷以獲得合意結果”的p-hacking疑慮。誠然，研究者常需自主構建來自非結構化數據的測度，這一事實雖為此類操縱提供了空間，卻也為應對測量誤差的努力提供了便利。

為確保無偏估計，并判斷是否值得投入高昂成本以改進第一步預測（例如訓練更大模型，或收集更多、更高質量的訓練數據），研究者亟需一種框架：在利用神經網絡預測時，顯式考慮第一步推斷誤差。為此，本文提出 MAR-S（Missing At Random Structured Data）框架——一種對通過低維特征納入非結構化數據的估計目標進行有效、穩健且具統計效度推斷的通用方法。

MAR-S 將非結構化數據下的推斷問題重新表述為缺失數據問題，因為原始非結構化數據集通常缺乏經濟分析所關注的低維匯總變量。該框架植根于缺失數據理論的基本工作，特別是 Rubin（1976）提出的“隨機缺失”（Missing At Random, MAR）機制（參見 Little & Rubin, 2019；Robins 等, 1994, 1995；Robins & Rotnitzky, 1995；Bang & Robins, 2005）。MAR-S 借鑒了缺失數據下半參數推斷的經典成果，該方法具有理論基礎堅實、適用范圍廣、假設條件弱等優點，為去偏估計提供了成熟路徑。

其核心思想是：利用一個包含真實值（ground truth）的驗證樣本（validation sample）來估計推斷數據中的偏差，并據此校正估計結果——這一做法在計量經濟學的測量誤差文獻中早已被認可（Schennach, 2016）。

MAR-S 要求研究者獲取驗證數據——這一過程成本高昂，通常需依賴高技能、高動機的人類專家對文本或圖像進行標注，或在遙感背景下收集地面觀測站數據。獲取驗證數據本身即要求研究者對其所要提取的內容給出精確且可操作的定義。換言之，盡管深度神經網絡常被視為“黑箱”，MAR-S 卻要求其輸出能通過標注過程獲得可解釋性。

在 MAR-S 框架下——顧名思義——驗證樣本必須滿足 Rubin（1976）提出的“隨機缺失”（MAR）假設：即，在控制可觀測變量后，已標注與未標注樣本的真實結構化變量值應具有可比性。這與因果推斷中的“可觀測變量選擇性”（selection on observables）假設相平行——后者是另一類缺失數據問題：處理組缺失對照結果，對照組缺失處理結果。在非結構化數據背景下，觀測被“選擇”進入驗證樣本（而非被施加“處理”）。

利用真實值樣本進行去偏，已成為近期若干有影響力的、關于黑箱AI模型預測下有效統計推斷框架的核心（例如：Angelopoulos 等, 2023；Egami 等, 2023；Ludwig 等, 2024）。MAR-S 對該文獻的貢獻有三方面：1）構建一個統一的理論框架，將上述新近工作與一系列更早、更熟悉的計量問題相聯系；2）借由該框架，對如何構造無偏且高效的估計量提供新見解；3）通過推導適用于超出既有文獻范圍的常見實證情境的估計量，使去偏方法得以廣泛應用于各類場景。

首先，MAR-S 提供了一個統一的理論框架，將跨學科獨立發展、交流有限的黑箱AI推斷新近工作，與計量經濟學中關于測量誤差與驗證數據的長期文獻（例如 Schennach, 2016；Chen 等, 2005, 2008）、廣泛使用的包含機器學習“第一步”的推斷方法（例如 Chernozhukov 等, 2018, 2022b,c），以及缺失數據與因果推斷的經典文獻（例如 Rubin, 1978；Imbens & Rubin, 2015；Robins 等, 1994 等）有機整合。MAR-S 通過將非結構化數據推斷與因果推斷等熟悉問題同構為更一般的缺失數據問題，深化了我們對非結構化數據推斷的理解。例如，半參數推斷中的諸多洞見由此變得相關且可用。

我們與當前大多數黑箱AI推斷工作的一個關鍵區別在于：強調半參數方法，從而對估計量效率獲得新認識。例如，為達到漸近效率，缺失結構化數據的填補不僅應依賴非結構化數據（如文本或圖像），還應依賴有助于目標參數估計的情境特定結構化變量（如回歸模型中的其他協變量）。部分新近黑箱AI推斷文獻認為半參數方法過于復雜、難以廣泛應用（Angelopoulos 等, 2024）；但在經濟學中，情況可能恰恰相反：半參數方法有著悠久而廣泛的應用傳統（例如 Chen 等, 2008；MaCurdy 等, 2011；Ackerberg 等, 2014），并有助于將非結構化數據推斷與更熟悉的問題建立聯系。

2 文獻綜述
本研究依托計量經濟學、統計學與生物統計學中大量既有文獻，既提供了一個統一的理論框架，也貢獻了實用工具，以應對實證經濟學中由非結構化數據引發的常見推斷挑戰。其貢獻可從以下三方面定位：
第一，本研究拓展了近期關于黑箱人工智能（AI）預測推斷的文獻，將其覆蓋范圍延伸至經濟學中常見的、但超出既有方法適用范圍的實證情境，并同時提供了關于估計效率的新見解；
第二，本研究構建了一個通用理論框架，將上述新興文獻與半參數推斷的經典文獻相統一，并將經典的測量誤差模型拓展至高維非結構化數據領域；
第三，本研究揭示了非結構化數據推斷與經濟學家熟悉的經典計量問題（如因果推斷）之間的根本聯系，展示了計量經濟學中的基礎工具如何可被運用于人工智能時代的新挑戰。

本研究旨在應對若干常見實證經濟學情境——這些情境超出了近期關于漸近有效推斷的研究范圍，后者聚焦于靈活的黑箱函數逼近器（如大語言模型，LLMs）。該方向的代表性貢獻包括：“預測賦能推斷”（prediction-powered inference, PPI）（Angelopoulos 等，2023, 2024；Zrnic & Candès，2024b,a；Ji 等，2025；Kluger 等，2025）、“基于設計的監督學習”（design-based supervised learning）（Egami 等，2023, 2024），以及 Ludwig 等（2024）的實證計量框架。此類文獻通常假設：真實值（ground truth）在所關注參數的同一層級上可得。相比之下，在實證經濟學中，我們往往僅在細粒度層級（如單條文本或單張圖像）擁有真實值，而所關注參數卻反映的是記錄層級預測的（可能為非線性的）聚合結果，或某個總體層級量（例如1999年美國的經濟政策不確定性）。在更粗粒度層級收集真實值通常不可行。MAR-S 直接應對了這一挑戰。此外，MAR-S 還考慮了經濟學中廣泛使用的實證情境下高效且穩健的推斷問題，并就這些情境中實現效率所需的數據條件提供了新見解。為便于應用，MAR-S 配套提供了實現軟件包。5

MAR-S 同時提供了一個通用理論框架，將新興黑箱AI文獻中（其中多數源自經濟學以外學科）的多項分散貢獻，與半參數統計學及計量經濟學中重要且長期積累的成果統一起來。在黑箱AI文獻中，最突出的脈絡之一便是系列關于“預測賦能推斷”（PPI）的論文。初期PPI論文（Angelopoulos 等，2023, 2024）引入了一個簡明的基準框架；為清晰起見，該框架刻意排除了實證應用中的若干常見特征——例如：它假設預測值是預訓練黑箱模型的固定輸出（不考慮模型訓練與交叉擬合問題），標注數據是簡單隨機樣本（不處理非均勻或未知的標注流程），且未采用半參數方法，亦未涉及半參數效率問題；Angelopoulos 等（2024）僅簡要提及與半參數理論的聯系。上述局限性隨后在后續研究中被逐一改進：Zrnic & Candès（2024b）納入了模型訓練與交叉擬合；Zrnic & Candès（2024a）允許非均勻標注，但仍假設預測值固定；Ji 等（2025）采用了包含訓練與交叉擬合的半參數方法，但假設標注概率已知且均勻；6 Kluger 等（2025）雖未考慮半參數效率，但允許非均勻（但已知）的標注概率。此外，除 Kluger 等（2025）外，上述方法僅適用于那些為“良好”（例如凸、光滑）總體損失函數極小值點的估計目標；Kluger 等（2025）的明確動機之一，正是要突破這一范式限制。

相比之下，MAR-S 采取了一種更普適的方法，在一個單一框架內兼容了上述全部復雜性。附錄第8.1節進一步比較了 MAR-S 與現有理論文獻的異同。MAR-S 同時也將其他更具應用導向的近期貢獻納入統一框架，例如 List 等（2024）與 Ludwig 等（2024）。誠然，提供盡可能簡化的框架具有優勢——尤其當目標讀者橫跨多學科時（如 Angelopoulos 等，2023）；而 MAR-S 則憑借援引計量經濟學文獻中通用且廣為人知的方法，在保持對應用經濟學家可讀性的同時，提供了更具一般性的統一框架。

MAR-S 最直接地建立于計量經濟學中關于利用輔助驗證數據校正測量誤差的文獻之上，并將 Chen 等（2008）的半參數框架拓展至高維非結構化數據。借此，MAR-S 架起了經典計量理論與當代機器學習應用之間的橋梁。關于計量經濟學中測量誤差文獻的綜述，參見 Chen 等（2011）、Schennach（2016, 2022）。該文獻的一項關鍵洞見是：包含真實值的驗證樣本，為校正非經典測量誤差（尤其在非線性模型中）提供了一種通用的、與模型無關的方法（Chen 等，2005, 2008）。Ludwig 等（2024）在其針對大語言模型預測的實證計量框架中，亦將測量誤差置于核心地位。

更根本地，MAR-S 扎根于眾多經濟學家所熟知的基礎方法，強調即便面對新技術（如大語言模型），長期積累的統計學框架依然具有根本重要性。“MAR-S”這一名稱本身即反映了其對（生物）統計學中缺失數據經典文獻的繼承（例如 Rubin，1976；Little & Rubin，2019；Robins 等，1994, 1995；Robins & Rotnitzky，1995；Bang & Robins，2005）。具體而言，我們采納 Rubin（1976）所提出的經典“隨機缺失”（Missing At Random, MAR）機制，作為本框架的核心組織原則。

Rubin 的“隨機缺失”機制與Rubin 因果模型（Neyman，1923；Rubin，1974, 1978；Imbens & Rubin，2015）緊密相關：因果推斷可被視為缺失數據問題的一個特例——其中對照組的處理結果缺失，處理組的對照結果缺失（Little & Rubin，2019；Ding & Li，2018；Hirano 等，2003）。因此，缺失數據框架被廣泛應用于因果推斷（Imbens & Rubin，2015）與計量經濟學（Chen 等，2008；Athey 等，2019）。MAR-S 框架正建立于這一聯系之上，其符號體系與結構設計均映射因果推斷中的關鍵要素。我們展示了因果推斷中的洞見如何有助于闡明非結構化數據推斷中的核心挑戰，從而使 MAR-S 框架對已熟悉因果推斷的經濟學家而言易于理解。

正如 Tsiatis（2006）所討論，半參數與非參數框架特別適用于缺失數據問題。相應地，MAR-S 依托于廣泛的半參數與非參數推斷文獻（例如 Pfanzagl，1982；Bickel 等，1998；Newey，1994；van der Vaart，1998；Ackerberg 等，2014；Kennedy，2016, 2018；Chernozhukov 等，2022a）。這些框架之所以具有吸引力，是因為其對數據生成過程僅作相對較弱的假設，從而盡可能讓數據本身主導估計過程；其理論基礎亦植根于成熟的極小極大型效率（minimax-style efficiency）理論，為比較不同估計量的性能提供了原則性基準（Newey，1994；van der Vaart，1998）。

半參數高效估計量的一個突出范例是增廣逆概率加權（augmented inverse propensity weighted, AIPW）估計量，廣泛用于處理效應估計（Robins 等，1994；Robins & Rotnitzky，1995；Scharfstein 等，1999）。AIPW 估計量屬于更廣泛的“雙重穩健”（doubly robust）估計量類別：此類估計量通過放松對干擾參數（nuisance parameters）估計的收斂速率要求，為模型誤設提供保護。干擾參數估計量本身并不直接用于估計主要關注參數（例如因果效應或泛函），但對構造最終估計量至關重要（例如通過填補結構化數據）。此類穩健性正是本文所構建估計量的核心特征——它們遵循 AIPW 估計量的結構。這使我們得以避免對深度神經網絡的第一階段估計施加強正則性條件或收斂速率要求。

MAR-S 同樣與近期關于高維干擾參數下泛函的半參數去偏推斷的重要文獻密切相關。該文獻聚焦于：當目標為低維參數、而干擾參數由機器學習模型以非參數方式“第一步”估計時，如何實現有效推斷——尤其在因果推斷或經濟模型結構參數估計背景下（例如 Chernozhukov 等，2018, 2022b,c；Ichimura & Newey，2022）。本文承繼這一傳統，針對缺失數據泛函，開發了高效且穩健的估計量，其假設條件專門適配非結構化數據與深度神經網絡所帶來的挑戰。

3 隨機缺失的結構化數據

本節介紹 MAR-S 框架，該框架建立在 Rubin（1976）提出的經典缺失數據機制之上。我們首先在非結構化數據背景下，確立關于數據缺失性的術語體系與模型；隨后概述 MAR-S 的關鍵假設，并描述穩健性與效率的基本原則；最后簡述 MAR-S 算法。

3.1 對缺失結構化數據的建模

為實現對非結構化數據的穩健且高效推斷，我們將問題重新表述為對缺失結構化數據的推斷。結構化數據記為 M∈M，是可直接用于估計方程的低維數據。它們與非結構化數據（記為 U∈U）形成對比——后者維度高，不適合直接用于估計（例如：像素的原始 RGB 值、音頻波形或稀疏詞向量）。

在 MAR-S 框架下，結構化數據通過一個稱為“標注”（annotation）的過程被觀測到。標注者（人類專家或其他昂貴的測量技術）依據對缺失結構化數據的明確定義，記錄與給定 U 相對應的 M 。標注過程由“標注得分函數”（annotation score function）描述：

由于標注成本過高，難以規模化，研究者會學習一個填補函數 μ^以對缺失的結構化數據進行填補。這使得研究者能夠利用完整的非結構化數據集，實現更精確的估計。深度神經網絡通常被用作填補函數，因為它們是當前將非結構化數據映射為低維輸出的最先進方法。然而，其預測精度可能因任務復雜度、模型架構以及輸入數據與訓練數據的分布差異而顯著波動。

MAR-S 框架——以及其所依托的 Rubin（1976）框架——與 Rubin 因果模型（Neyman, 1923；Rubin, 1974, 1978；Imbens & Rubin, 2015）緊密關聯，因為因果推斷本質上即是一個缺失數據問題。因此，我們引入潛在結果（potential outcomes）記號。該記號為討論缺失結構化數據（以及其他常見形式的數據缺失，例如因果推斷中出現的缺失）提供了一個統一的表達體系。

假設結構化數據 M∈M存在某種數據缺失，其缺失模式由一個標注指示變量 A∈{0,1}所刻畫。在此基礎上，潛在結果一致性（consistency of potential outcomes）假設使我們得以寫出如下表達式：

3.2 假設

本節概述 MAR-S 框架所依賴的基本假設。

在 MAR-S 中，用于預測缺失結構化數據的第一步填補函數，在較弱的假設下運作，因為對標注信息的了解可用于使估計量對填補誤差更具穩健性。

假設 1（潛在結果一致性）。對于真實值潛在結果 M?∈M，結構化數據 M∈M×{0}，以及標注指示變量 A∈{0,1}，我們有

在因果推斷中，潛在結果的一致性要求處理變量定義明確，且每個觀測值的結果僅依賴于其自身的處理狀態（非干擾性）。在單側數據缺失的情境下，該概念依賴于類似的原理：標注狀態必須定義明確——每個觀測值要么被標注，要么未被標注——且任何給定觀測值的真實值標簽應僅依賴于其自身的標注狀態，而不依賴于其他觀測值的標注狀態。這一點通過在整個標注過程中使用一個保持不變的標注標準（rubric）來確保。

第二個假設是 MAR-S 框架的基石。它指出：在給定研究者可獲取的可觀測變量條件下，Rubin 的“隨機缺失”（MAR）假設適用于真實值潛在結果（Rubin, 1976；Little and Rubin, 2019）。

假設 2（結構化數據隨機缺失）。對于真實值潛在結果 M?∈M、標注指示變量 A∈{0,1}、可觀測協變量 X∈X以及非結構化數據 U∈U：

這類似于因果推斷中的“可觀測變量選擇”假設（Hirano 等，2003）；沿用該術語體系，假設 2 也可被標記為“基于可觀測變量的標注”（annotation on observables）。在控制可觀測變量 X后，已標注與未標注的結構化數據（及其關聯的非結構化數據）在其真實值上具有可比性。不存在未被控制的混雜因素決定某一非結構化數據實例是否被標注。

在深度學習時代，研究者常自行構建其結構化數據集，并可在這種情況下設計標注流程以滿足假設 2。

第三個假設是：標注機制是已知的，且可以被限定，從而確保沒有任何非結構化數據實例被保證標注或不被標注。

“標注得分函數”（annotation score function）這一命名慣例，模仿了傾向得分函數（propensity score function）的術語體系——后者在因果推斷中扮演類似角色。

假設標注得分函數有界，等價于觀測性因果推斷中常用的“嚴格重疊”（strict overlap）假設。在此類設定下，隨著確保無混雜性的變量維度升高，嚴格重疊的合理性將下降（D’Amour 等，2021）。而在大多數涉及非結構化數據的經濟學應用中，X是低維的，與高維的 U形成鮮明對比。值得注意的是，機器學習文獻有時將 X設定為 U的低維表征；這一視角我們將在討論實際標注問題時（第5.1節）再次涉及。

在社會科學中，現有的標注實踐常常違反這一假設。研究者在處理文本數據時，頻繁采用基于關鍵詞的篩選：僅對包含特定關鍵詞的文本賦予非零標注概率。當數據存在類別不平衡時——例如，所關注類別的文本相對于整個語料庫而言較為稀少——這一做法尤為普遍。由于語言模型的預測誤差可能依賴于文本中出現的詞項，標注樣本中觀測到的偏差未必能代表全部未標注數據中的偏差。當估計目標參數時使用的是完整文本而非僅篩選后子集時，這一問題尤為嚴重。類似問題亦出現在如下情形：標注數據僅針對某一特定時段收集，而所關注量卻是利用填補后的結構化數據在更長時段上估計所得。例如，遙感文獻表明：為某一特定時段訓練的作物類型識別模型，在時段外年份的表現可能更差——原因包括耕作方式或氣候的分布偏移（Wang 等，2020）。

應對該問題的一種方式是：重新定義目標總體，使其僅包含標注樣本所抽取自的那些非結構化數據實例。盡管該方法在某些情形下是恰當的，但它改變了所得估計目標與估計量的解釋含義。第5.1節將討論其他替代策略：在確保對所有非結構化數據實例賦予正抽樣概率的前提下，選擇最具信息量的標注樣本。

當研究者并非自行標注其數據時，標注函數可能需要被估計。在此情形下，“標注函數已知”這一假設可被放松，前提是研究者愿意對填補函數與（估計所得的）標注函數施加一定的收斂速率要求。我們將在討論最后一個 MAR-S 假設時，詳細闡明這些要求——現在我們轉向該假設。

最后一個核心假設，涉及本文所考慮泛函中用于填補缺失結構化數據的理想函數，其一般形式為：

直觀上，該條件表明：隨著我們用于訓練估計量的數據量趨于無窮大，該估計量的期望平方誤差需趨近于零；換句話說，該估計量是正確設定的。假設4有時被稱為“普遍一致性”（universal consistency）（Wager, 2024），在深度神經網絡背景下，這一假設非常溫和。近期理論工作已表明，某些通過梯度下降法訓練的深度神經網絡——正如將在MAR-S中部署的那些——具有普遍一致性（Drews & Kohler, 2024）。

3.3 利用非結構化數據進行高效且穩健的推理

直覺上，影響函數（influence function）刻畫了數據分布的微小變動如何影響某一泛函（例如均值，或其他數據泛函）的取值，或某一估計量的概率極限。估計量通過其概率極限與影響函數相聯系（Newey, 1994；Ichimura & Newey, 2022）；泛函本身也與影響函數相關聯，后者有時被稱為“影響曲線”（influence curves）（Kennedy, 2023；Hines 等, 2022）。

在完全非參數統計模型中——即對分布 P未施加任何限制——任何正則、漸近線性（RAL）估計量必然是高效的，因為所有 RAL 估計量僅對應唯一一個有效的影響函數，即高效影響函數（EIF）（Chen & Santos, 2018；Kennedy, 2023；Schuler & van der Laan, 2024）。然而，在半參數模型中，一個 RAL 估計量可能存在多個影響函數，但僅有一個能達到半參數效率下界，即對應于 EIF。由于在 MAR-S 框架中，標注得分函數 π是已知的，故其統計模型為半參數模型，記為 Pπ。因此，并非所有 RAL 估計量都自動高效：可能存在多個影響函數，而高效影響函數是其中方差最小者。

當我們放松假設3、需對標注函數進行估計時，推斷所依據的統計模型變為完全非參數的：P∈P，而非 P∈Pπ。然而，對于某一類泛函，我們將證明：無論在 Pπ還是 P下，其 EIF 均保持不變；因此，本文應用部分所推導的所有 EIF，在將假設3放松為“標注得分函數未知但可估計”時依然成立（見引理1）。相應地，高效估計量的構造方式亦保持不變。

在 MAR-S 中，假設3與假設4共同刻畫了穩健性。第一步估計量 μ^（例如用于填補結構化數據的深度神經網絡）僅需滿足較弱條件，原因在于：對于標注函數 π，我們可獲取其最準確的第一步估計量——即 π本身。直覺上，已知標注得分函數極大增強了 MAR-S 中半參數估計的穩健性——這恰如在半參數因果推斷中，已知傾向得分函數將顯著增強估計穩健性一般。

在 MAR-S 框架內構造穩健且高效估計量的基本直覺，與缺失數據（包括因果推斷）半參數推斷文獻中的思路大體相似：利用足夠精確的第一步填補函數對缺失數據進行填補，并借助通過標注收集的真實值對其進行去偏。然而，非結構化數據情境下存在若干區別性因素：

為應對這一問題，可對標注得分函數 π進行優化，通過引入重要性抽樣（importance sampling）的要素以降低估計方差（Sigman, 2010；Zrnic & Candès, 2024a），詳見第5.1節。這也與觀測性因果推斷中的“弱重疊”（weak overlap）概念（D’Amour 等, 2021；Ma 等, 2023）及半監督推斷中的“衰減重疊”（decaying overlap）（Zhang 等, 2023）相聯系。在 MAR-S 框架中，我們并未假設 P(A=1)→0的漸近情形。未來研究可拓展 MAR-S 框架，以納入這一替代性漸近視角。

3.4 MAR-S 算法

我們現在概述如何在一般設定下實施 MAR-S 框架。從高層次來看，MAR-S 遵循一種標準程序，用于實現高效且穩健的半參數推斷（Pfanzagl, 1982）——該程序在生物統計學與計量經濟學中已獲得廣泛采用，尤其在因果推斷領域（例如：Bang & Robins (2005)；van der Laan & Rubin (2006)；Chernozhukov 等 (2018)）。我們建立在 Hines 等 (2022) 與 Kennedy (2023) 所提出的框架之上，用于推導高效且穩健的半參數估計量。MAR-S 采用這一經典程序處理缺失結構化數據，具體步驟如下：

識別（Identification）：研究者從一個目標泛函 θ:P→R出發，例如某一分布的均值、線性回歸模型中的系數，或平均因果效應。MAR-S 框架要求：若非結構化數據未缺失，該參數應為點識別（point identified）。潛在結果一致性與結構化數據隨機缺失（假設1與假設2）將使研究者能夠在結構化數據缺失的情形下，恢復其目標泛函的點識別。
推導高效影響函數（Deriving the efficient influence function）：若該點識別的目標泛函是路徑可微的8，則它具有唯一的高效影響函數（EIF）。存在多種方法與算法可用于計算某一泛函的 EIF。本文所討論示例中，我們采用 Kennedy (2023) 中概述的一種特別直接的方法，以構建 EIF 候選。
構造穩健且高效的估計量（Constructing the robust and efficient estimator）：在獲得 EIF 后，研究者可遵循至少三種不同程序之一，以形成穩健且高效的估計量：① 在基于 EIF 的“插件估計量”（plug-in estimator）上添加一個“一步校正”（one-step correction）；② 基于 EIF 解一個“估計方程”（estimating equation）（該方法最貼近 Chernozhukov 等 (2018, 2022a) 的框架）；或③ 追求“靶向最大似然估計”（targeted maximum likelihood estimation, TMLE）程序（van der Laan & Rubin, 2006）。在本文中，我們使用一步校正法，盡管上述任何方法均可互換使用，僅在有限樣本性質或推導難易程度等方面略有差異。
用于估計的樣本分割（Sample splitting for estimation）：研究者通過數據分割（或交叉擬合，cross-fitting）程序實施估計。盡管在對第一步估計量類別施加某些假設時（例如 Chen 等 (2024a)），樣本分割并非必需，但它是一種“無假設”（agnostic）的方式，用以確保在大樣本極限下實現漸近有效估計。在樣本分割及本框架其他假設成立的前提下，漸近方差的一致估計量可簡單地通過插件方法形成——即，估計所得 EIF 的經驗方差（Schuler & van der Laan, 2024）。

更多直覺可通過下節所發展的各種示例提供。

4 MAR-S 的應用

我們在五個對經濟學家具有特別興趣的實證情境中，展示 MAR-S 框架的應用：描述性矩（descriptive moments）、線性回歸、線性工具變量（IV）模型、雙重差分（DiD）設計，以及在局部隨機化假設下的斷點回歸（RDD）設計。我們還展示 MAR-S 如何統一近期關于黑箱人工智能模型推斷的研究——這些研究獨立發展于不同學科，彼此間互動有限——并將此工作與半參數推斷的經典成果及廣泛使用的、包含機器學習第一步的推斷方法相連接（Chernozhukov 等, 2018, 2022a,b,c）。

回顧前文，我們將缺失的結構化數據記為 M，非結構化數據記為 U。我們通過將單一變量指定為 M（例如，一個結果變量或處理變量）來構建每個示例，盡管 MAR-S 同樣可應用于從非結構化數據中填補替代變量或多變量的情形。如前所述，MAR-S 僅限于路徑可微泛函——因為對于非路徑可微泛函，-一致估計量的存在性無法保證，效率概念亦將無明確定義。我們將 MAR-S 對非路徑可微泛函的拓展留待未來研究。

我們現在定義一類核心的關注泛函：

定義 1。我們將“MAR-S 均值泛函”（MAR-S mean functional）定義為任何可寫作如下形式的泛函：

許多缺失結構化數據的泛函——包括本文考慮的所有缺失結構化數據的泛函——都可以寫成MAR-S均值泛函。對于此類泛函，我們有以下識別結果。

在MAR-S框架下，當標注評分函數π已知時，統計模型是半參數的。推導半參數統計模型下路徑可微泛函的有效影響函數通常比在完全非參數統計模型下更具挑戰性，因為后者只有一個影響函數，即有效影響函數。引理1通過證明非參數統計模型下MAR-S均值泛函θ的EIF同樣適用于半參數統計模型下的θ，從而簡化了我們的任務。直觀上，擾動由MAR-S均值泛函的標注評分給出的分布不會改變泛函的值：如果我們以不同（但有效）的方式標注數據，被估計參數的（總體內）值將保持不變。這與Chen等人（2008）中的若干相關結論一致，例如，使用"樣本內驗證"輔助數據集識別的參數的漸近方差下界不受"傾向評分"（在MAR-S框架中為1-π(x)）認知的影響。

基于引理1，我們可以直接計算通用MAR-S均值泛函的有效影響函數，這將在下一個命題中介紹。

假設2與MAR-S均值泛函的定義共同保證：標注得分函數僅是低維變量 X的函數，而非高維變量 X~的函數，從而防范了在估計過程中可能產生的“弱重疊”（weak overlap）問題。

4.1 描述性矩

我們首先將 MAR-S 應用于描述性矩。除了其本身對眾多經濟分析的重要性外，這些泛函亦為分析更復雜的估計目標奠定了基礎。

MAR-S 還與雙/去偏機器學習（DML）框架密切相關（Chernozhukov 等, 2018）。例如，在因果推斷背景下，于“可觀測變量選擇”假設下估計潛在均值時，DML 框架提出了一種通過 Neyman 正交得分導出的估計量，該估計量與 AIPW 估計量（Robins 等, 1994）本質上相同。

這種等價關系并非偶然。第3節表明：缺失結構化數據的期望值可被解釋為平均潛在結果，且在“基于可觀測變量的標注”假設下可實現點識別。此外，推導 Neyman 正交得分可被視為一種“估計方程”方法，用于構造半參數高效估計量（Kennedy, 2023；Schuler & van der Laan, 2024），這與 MAR-S 中使用的基于一步影響函數校正的方法形成對比（Chernozhukov 等, 2022a），后者推廣了原始 DML 結果，并進一步明確指出：Neyman 正交矩可被視為基于影響函數的對矩條件的校正。

由于 MAR-S 基于與 DML 相同的基礎半參數分析，很可能存在多種方式可將 DML 框架中的洞見應用于 MAR-S。考慮 DML 文獻中最近的一個分支，其聚焦于“自動”或數據驅動的方式實現去偏校正（Chernozhukov 等, 2022a,b,c）。盡管在 MAR-S 下考慮的許多泛函最終可導出具有簡單通用解析表達式的 Riesz 表示子，但也存在其他缺失結構化數據情境，可能誘導更復雜的泛函，此時自動去偏技術可能證明相當有用。

4.2 線性回歸
我們現在將 MAR-S 應用于線性回歸。為便于說明，我們考慮因變量由非結構化數據填補的情形；盡管 MAR-S 框架同樣可直接處理一個或多個自變量（以及因變量）的填補。

4.3 線性工具變量

MAR-S 框架可直接拓展至線性工具變量（IV）。我們沿用 Blandhol 等（2022）的術語與設定。

4.4 雙重差分法

在本應用中，我們聚焦于 Callaway 和 Sant’Anna（2021）所提出的非參數雙重差分（DiD）估計量。

4.5 局部隨機化假設下的斷點回歸設計
最后，我們在 MAR-S 框架下考慮斷點回歸設計（RDD）。我們聚焦于 局部隨機化框架 下的清晰斷點回歸（sharp RDD），而非連續性框架（Cattaneo & Titiunik, 2022）。

5 擴展

我們現在考慮對MAR-S的擴展，以應對經濟應用中經常出現的場景。

5.1 批量主動推理

與觀察性因果推斷設置中傾向得分函數未知不同，在非結構化數據設置中，研究人員通常可以選擇注釋得分函數 π。當處理非常大的非結構化數據集時，有時會遇到缺失的結構化數據構成“罕見事件”的情況。例如，如果數據集是某個主要平臺上所有社交媒體帖子的集合，那么幾乎任何給定主題的內容占比都會很小，因為內容種類繁多。在罕見事件估計中，通常的擔憂是“變異系數”（事件指示器的方差與事件概率的比率）很大，使得置信區間不具信息性。正如罕見事件估計的文獻所建議的那樣，我們可能對包含某種重要性抽樣元素的注釋感興趣，以進一步減少我們估計的方差（Sigman, 2010）。這種方法是在“批量主動推斷”（Zrnic 和 Candès, 2024a）的工作中發展的，我們現在將其與MAR-S框架聯系起來。

在描述性矩估計的設置中，回顧一下估計器的漸近方差由以下給出

這個標注函數是不可行的，因為它依賴于我們標注前無法觀測到的 M*，但它提供了一個有用的直覺：標注得分函數應更重視那些在均方誤差（MSE）意義上更難填補的數據點。然而，正如 Zrnic 和 Candès (2024a) 所提倡的，我們可以考慮實現一個可行的標注得分函數來捕捉這一直覺，例如

其中，err(x) 是某個代理函數，用于捕捉一個固定填補函數的不確定性。例如，深度神經編碼器輸出的 softmax 分數的分布特征，或來自大語言模型（LLM）的口頭化置信度分數，均可作為此類代理函數（Yang 等，2024）。盡管所引用的工作提供了有價值的指導，但在高度類別不平衡數據集的背景下選擇標注得分函數，仍然是一個有待持續研究的重要領域。

5.2 聚合與轉換后的缺失數據

基線 MAR-S 框架——以及其他用于消除黑箱 AI 估計偏差的方法——在概念上是直接明了的。然而，它們未能解決常見的實證應用場景。特別是，現有文獻假設用于估計方程中的填補變量存在真實值數據。在實踐中，這通常行不通，因為所關注的缺失變量是細粒度缺失結構化數據的一個（可能是非線性的）函數，而真實值數據僅在該細粒度層面可得，例如，所關注的缺失變量是成千上萬甚至數百萬個從單個文本或圖像中提取的缺失結構化數據實例的平均值。這種情形在實證經濟學中普遍存在，其中非結構化數據通常在單個文本或圖像層面被觀測到，而分析中的其他變量則通常按地理、時間、企業或其他維度進行聚合。在其他情況下，所關注的缺失變量本身最好被表示為細粒度缺失結構化數據的一個函數，例如一個總體層面的均值，對于該均值，在任何有限樣本中都無法觀測到其真實值。

不幸的是，這種方法忽略了許多實證場景，因為插補的結構化數據通常被聚合，然后進行非線性轉換（例如，通過對數）。雖然有時合理地近似轉換為線性是合理的——例如，使用泰勒展開（見附錄第8.3節）——這種方法很快就會變得繁瑣。它也沒有解決感興趣的變量被概念化為總體水平均值的場景。

然而，在一個非常常見的情形下，即研究者希望對一個作為細粒度缺失結構化數據的函數（或聚合）的回歸變量進行回歸分析時，我們開發了一種更廣泛適用的方法來使用 MAR-S，該方法通過簡單應用 delta 方法即可輕松處理非線性變換。

這種簡化的流程利用 MAR-S 來創建所關注回歸變量的無偏第一步估計量。例如，MAR-S 可用于在相關聚合層面（例如，從報紙文章層面填補結果中估算的年度經濟政策不確定性均值）估算缺失數據的無偏均值。盡管這些預測仍包含噪聲，但有效的去偏確保了剩余的噪聲是經典型的。在回歸中使用這些去偏后的測度所產生的衰減偏差，可以通過標準且直接的方法予以解決，這些方法能輕松適應常見的實證場景。從概念上講，這種方法類似于在線性模型中使用隨機抽樣調查數據估算出的回歸變量來估計系數（參見，例如，Deaton (1985)；Fuller (1987)）。然而，當數據由神經網絡而非隨機調查生成時，我們需要第一步的偏差校正，因為在未去偏的情況下，不能假設由此產生的測量誤差是經典型的。

因此，我們能夠生成具有所需覆蓋率的漸近有效置信區間。

該方法在概念上直觀明了，并使 MAR-S 能夠應用于現有框架之外的常見實證場景。通過引用適當的聚類中心極限定理，該方法可自然地擴展到聚類數據；它也能輕松適應面板數據——這正是 Deaton (1985) 最初考慮的情境。此外，還有若干其他擴展也很直接，例如：適應因變量也通過 MAR-S 第一步進行估計的情形；放寬測量誤差服從正態分布的假設；或處理 Σ 需要被估計而非假定為已知的情況（Fuller, 1987）。1?

6 實證案例

本節通過三個實證案例來說明 MAR-S 方法。前兩個案例將 MAR-S 應用于經濟學文獻中使用非結構化數據的兩篇重要論文——Baker 等人（2016）和 Caldara 與 Iacoviello（2022）；最后一個案例則通過一個均值估計示例，利用作者先前收集的已標注數據（Dell 等，2023），探討了 MAR-S 的設計選擇。

為被納入研究，一篇論文必須滿足以下條件：發表在高質量期刊上、提供填補缺失數據所用的公開驗證集，并且我們能夠獲取所有用于復現所需的原始數據。這些標準大幅縮小了候選研究的范圍，因為大多數以文本或圖像數據為核心的研究要么缺乏驗證樣本，要么未完全公開復現所需的數據。因此，我們納入了那些使用關鍵詞分類器（而非神經網絡分類器）進行填補的研究，因為直到近年以前，關鍵詞方法一直是主流。我們還利用原始作者提供的標注數據，訓練基于 Transformer 大語言模型（LLM）的分類器，作為對原始關鍵詞分類器的補充。

6.1 經濟政策不確定性指數（Baker 等，2016）

Baker 等人（2016）提出了一種定量指數，用于衡量經濟政策不確定性（EPU）。該 EPU 指數計算在主要報紙上于每個時間點發表的、討論經濟政策不確定性的文章所占比例，其測量方式采用了一個簡單的、基于關鍵詞的二元分類器1?。這些比例經過縮放和標準化后，最終形成指數值。

直觀上，EPU 指數中的每一項都可以被視為對“在特定時間點，給定一組報紙的文章反映經濟政策不確定性（按 Baker 等人（2016）的定義）的概率”的估計。這是一個推斷問題，其中利用非結構化數據（報紙文本）來估計缺失結構化數據的一個函數（即在特定時間點，經濟政策不確定性二元指示符的期望值）。

由于標注得分函數是已知的，因此為兩種版本的 MARS-EPU 指數報告的置信區間在漸近意義上是有效的。然而，填補函數越優——即越接近真實值 μ——對于給定樣本量 n，其置信區間就會越窄。因此，基于深度神經網絡分類器的 MARS-EPU 指數比基于 Baker 等人（2016）關鍵詞分類器的 MARS-EPU 指數具有更短的置信區間。

在 Baker 等人（2016）的研究中，EPU 指數的大部分社會科學價值體現在將其作為回歸變量用于后續的回歸分析中。下面我們簡要回顧該論文中一個代表性的回歸分析。

具體而言，我們重新分析 Baker 等人（2016）論文表 IV 第 (5) 列所報告的以下基準回歸：

在圖 2 中，我們使用 MARS-EPU 指數，并結合適當的測量誤差校正最小二乘估計量（ME-LS）來估計 β，并根據 Baker 等人（2016）的做法，繪制以企業層面聚類的標準誤為基礎的置信區間。我們還計算了基于普通最小二乘法（OLS）估計量的 β 的點估計值和置信區間，分別對應兩種情形：一是將 MARS-EPU 指數作為第一步估計量使用，二是將未經調整的 EPU 指數作為第一步估計量使用。

鑒于此方法忽略了去偏 EPU 指數中存在的經典測量誤差，我們預期會出現一定程度的衰減偏差。

的確，當比較通過測量誤差校正最小二乘法（ME-LS）估計的回歸系數與使用 MAR-S 生成變量的普通最小二乘法（OLS）估計值時，忽略經典測量誤差所導致的衰減偏差是顯而易見的。在此情境下，使用 MARS-EPU 指數的 ME-LS 估計值在數值大小上與使用未經調整 EPU 指數的標準 OLS 回歸所得結果非常接近。未經調整的 EPU 指數中的測量誤差包含兩部分：隨機噪聲（即使在去偏后仍存在的部分，會導致衰減偏差）和系統性成分（通過去偏被消除的部分）。在本案例中，這兩部分似乎相互抵消了，盡管這并非普遍情況。

通過深度神經網絡填補構建的、估計更精確的 MARS-EPU 指數，相較于噪聲更大的關鍵詞方法構建的 MARS-EPU 指數，為所關注的系數提供了更窄的置信區間，這體現了更準確填補所帶來的回報。重要的是，與考慮了填補過程中測量誤差的估計相比，未校正估計的標準誤被低估了。

6.2 地緣政治風險指數（Caldara 和 Iacoviello，2022）

作為 Baker 等人（2016）研究的學術繼承者，Caldara 和 Iacoviello（2022）構建了一個用于衡量地緣政治風險（GPR）的定量指數。與 EPU 指數類似，GPR 指數在每個時間點的數值是根據一個詳細的關鍵詞文本查詢，計算出主要報紙中討論日益加劇的地緣政治風險的文章所占比例（經標準化處理）而得出的。

從根本上講，GPR 指數估計的是在特定時間點、針對一組給定報紙，某篇報紙文章討論地緣政治風險上升的概率。這涉及利用報紙文本去估計缺失結構化數據的一個函數（即討論地緣政治風險的文章的二元指示符的期望值）。

我們沿用上一節所述的相同形式化設定，并生成應用與未應用 MAR-S 框架的 GPR 指數（時間范圍 T = {1900, 1901, ..., 2015}）。我們再次基于兩種不同的填補函數構建多個指數：原始的 GPR 關鍵詞查詢，以及基于 Sentence-BERT 最小“通用”模型 DistilRoBERTa 的深度神經網絡分類器（Reimers 和 Gurevych，2019）23。與 EPU 指數一樣，我們嚴格遵循 Caldara 和 Iacoviello（2022）對地緣政治風險的定義，僅使用為其人工審計樣本創建的真實標注數據。該人工審計樣本中的標注數據是從 Caldara 和 Iacoviello（2022）指定的大量 ProQuest 文章庫中獨立同分布隨機抽樣獲得的，我們將整個文章庫作為無標簽數據用于填補指數2?。我們采用與 MARS-EPU 指數相同的資料分割程序。在估計樣本中，輕量級深度神經網絡分類器的準確率為 80.6%，而關鍵詞查詢的準確率為 66.2%（以人工審計標注為真實值）。

圖 3 繪制了基于關鍵詞和神經網絡的 MARS-GPR 指數以及未經調整的 GPR 指數，并附帶置信區間。基于原始關鍵詞查詢的未經校正的 GPR 指數相對于真實值樣本系統性且顯著地低估了地緣政治風險，因為審計樣本中的許多文章雖然討論了地緣政治風險的上升，但并未包含必需的關鍵詞。盡管如此，校正與未校正指數的變化主要由第一次和第二次世界大戰驅動，9·11 事件之后以及冷戰初期也出現了地緣政治風險升高的情況。

非 MAR-S 指數的置信區間（錯誤地）比 MAR-S 指數的置信區間窄得多。此外，更精確的深度神經網絡分類器生成的 MAR-S 置信區間略窄于精度較低的關鍵詞分類器所生成的置信區間。

接下來，我們回顧 Caldara 和 Iacoviello（2022）論文中一個使用 GPR 指數作為回歸變量的代表性回歸分析。具體而言，Caldara 和 Iacoviello（2022）設定了一個簡單的基準回歸模型，用于估計 GPR 對經濟災難概率的影響：

圖4顯示了（標準化的）MARS和非MARS第一步指數推導出的估計值之間存在一些差異——盡管這些差異在統計上并不顯著。世界大戰的沖擊是如此巨大，以至于即使在地緣政治風險測量中存在實質性的系統性偏差（圖3），也會在（標準化的）地緣政治風險和經濟災難之間留下一個正的估計關系。顯然，許多經濟學家研究的關系依賴于不太顯著的變化。正如預期的那樣，基于MARS第一步插補的OLS系數過于精確——相對于ME-LS估計，點估計略有減弱。在這種設置中，使用深度神經插補并沒有帶來下游精度的提高。鑒于地緣政治風險數據是單一年度系列，精度對GPRt第一步中的時間變化程度高度敏感。由于（標準化的）系列中變化的微小差異導致的精度的適度差異似乎抵消了神經分類器的適度精度優勢所帶來的精度增益。

6.3 MAR-S 設計選擇

為了探索MAR-S框架內的設計選擇——使用熟悉的均值估計設置——我們開發了第三個示例，專注于估計美國地方報紙中關于政治文章的比例。由于經濟學文獻中注釋文本審計樣本通常較小，我們標記數據以生成足夠大的注釋集，以研究其大小如何影響MAR-S下的推斷。文章是從Dell等人（2023）描述的大規模歷史美國報紙數據集中隨機選擇進行注釋的。我們選擇政治話題，因為它是少數幾個足夠常見的話題之一，可以通過隨機抽樣產生相對平衡的注釋樣本。

在經濟學中使用深度學習來插補缺失數據的文獻中，一個常見的問題是：精度有多高才算足夠高？答案取決于研究人員對依賴插補數據的下游估計器所需的精度水平。如果估計器未能達到所需的精度，通常可以通過增加訓練集的大小、設計對模型更信息豐富的訓練樣本（例如，通過包括更難的樣本或更高質量的注釋）、調整更大的模型或應用這些策略的某種組合來提高神經網絡的準確性。

7 結論

非結構化數據在豐富社會科學研究方面具有相當大的潛力。然而，盡管神經網絡功能強大，但它們并不能普遍產生無偏預測。通過收集更多或更高質量的訓練數據以及增加模型大小，通常可以提高其準確性，但這些努力成本高昂。為了評估預測何時足夠準確——并使用它們得出可信的結論——研究人員必須認真對待預測誤差。

MAR-S框架通過將非結構化數據的分析框架為缺失結構化數據問題來解決這些挑戰。這種方法能夠恢復具有有效不確定性量化的√n-一致估計量，并為構建既高效又穩健的估計量提供了基礎。通過優先考慮效率，MAR-S表明，最優插補函數可以采取非明顯的形式，因為它們不僅必須捕捉非結構化和缺失結構化數據的變化，還必須捕捉特定情境的協變量的變化。

我們進一步將此框架擴展到感興趣的參數是缺失結構化數據的（潛在非線性）函數或泛函，并且僅在細粒度級別觀察到真實值的場景。這種在現有文獻中被忽視的場景在實證經濟學中很常見，因為插補的結構化數據（及相應的真實注釋）通常位于單個文本或圖像的級別，而其他感興趣的變量僅在更粗的聚合級別可用。

至關重要的是，通過缺失數據的視角來看待非結構化數據的推斷要求研究人員定義他們希望預測的低維摘要，并確保黑盒模型（如神經網絡）的輸出在與估計量的關系上是可解釋的。盡管無監督數據分析在MAR-S的范圍之外，但明確測量目標通常能帶來科學效益。

MAR-S提供了一個簡單而通用的框架，用于量化第一步模型中的預測誤差如何影響下游估計。在弱假設下，它允許使用插補的結構化數據進行有效、穩健和高效的推斷，即使插補是由復雜、易出錯的模型執行的。隨著非結構化數據在實證工作中變得越來越重要，MAR-S提供了一條實用路徑，朝著可信和可解釋的推斷發展，適用于廣泛的常見實證場景。

原文鏈接：https://arxiv.org/pdf/2505.00282

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.