網易首頁 > 網易號 > 正文申請入駐

PyINLA: Python中潛在高斯模型的快速貝葉斯推理

2026-04-07 16:06:29　來源: CreateAMind

上海舉報

分享至

PyINLA: Fast Bayesian Inference for Latent Gaussian Models in Python

PyINLA: Python中潛在高斯模型的快速貝葉斯推理

https://arxiv.org/pdf/2603.27276

摘要

貝葉斯推斷通常依賴于馬爾可夫鏈蒙特卡洛（MCMC）方法，對于非高斯數據族尤其需要如此。在處理復雜分層模型時，MCMC方法在需要重復擬合模型的工作流程中，或者在硬件資源有限的情況下處理高維模型時，可能對計算能力要求很高。集成嵌套拉普拉斯近似（INLA）是一種確定性的替代方法，適用于屬于潛高斯模型（LGM）類別的非高斯數據模型，在許多應用場景中能夠對后驗邊緣分布產生精確的近似。INLA方法作為獨立程序用C語言實現，名為inla，通過INLA包在R中廣泛使用。本文介紹PyINLA，這是一個專用的Python包，它提供了直接與inla程序交互的Python風格接口。因此，PyINLA使得用戶能夠在Python中指定LGM、運行基于INLA的推斷，并訪問后驗匯總結果，同時利用成熟的INLA實現。我們描述了該包的設計，并在代表性模型上展示了其用法，包括廣義線性混合模型、時間序列預測、疾病制圖和地統計預測，展示了如何使用INLA在Python中以與常見科學計算工作流程自然集成的方式進行確定性貝葉斯推斷。

關鍵詞：貝葉斯推斷，INLA，潛高斯模型，Python，分層模型，空間統計

1 引言

貝葉斯分層模型在應用統計推斷中被廣泛使用，提供了一個統一的框架，用于納入先驗信息和量化不確定性。在許多應用領域，包括空間流行病學 [Lawson, 2018]、環境與生態建模 [Cressie and Wikle, 2011] 以及計量經濟學 [Koop, 2003] 中，貝葉斯建模的實用價值依賴于快速、可靠且易于集成到端到端分析流程中的計算工具。

在當代軟件生態系統中，通用貝葉斯推斷最常使用馬爾可夫鏈蒙特卡洛（MCMC）或變分推斷（VI）進行。這些方法是成熟概率編程框架的基礎，但它們帶有眾所周知的權衡：MCMC 對于具有高維潛在結構的模型計算量很大，并且需要仔細的收斂性評估，而均值場 VI 會引入近似偏差，且傾向于低估后驗不確定性 [Brooks et al., 2011, Blei et al., 2017]。在實踐中，對于具有大潛在場的分層模型、涉及重復模型擬合（敏感性分析、模型選擇、交叉驗證）的迭代工作流程，以及需要確定性、可重復輸出的生產環境，這些權衡變得尤為突出。

集成嵌套拉普拉斯近似（INLA）為一類重要且實際應用廣泛的模型——潛高斯模型（LGM）[Rue et al., 2009]——提供了一種確定性替代方法。拉普拉斯近似兩次利用了潛場先驗分布中的條件結構：一次是在搜索超參數的后驗眾數時，然后是通過超參數上的數值積分結合多個嵌套拉普拉斯近似。INLA 算法中的這些嵌套拉普拉斯近似可以替換為隱式低秩校正，如 Niekerk 和 Rue [2024] 所提出的，該方法被證明比原始 INLA 更快且同樣準確 [Van Niekerk et al., 2023]。當潛在精度矩陣是稀疏的時（例如高斯馬爾可夫隨機場 [Rue and Held, 2005] 和一大類結構化隨機效應），即使潛在維度很大，INLA 也能有效地計算后驗邊緣分布的精確近似。這些特性使 INLA 成為應用統計學中時空分層模型的競爭性方法 [Blangiardo et al., 2013, Martins et al., 2013, Heaton et al., 2019]。

INLA 的參考實現是 R-INLA 項目 (https://www.r-inla.org)，它已發展成為 R 生態系統中一個全面且被廣泛使用的框架 [Lindgren and Rue, 2015, Bivand et al., 2015, Van Niekerk et al., 2021]。幾個 R 包將其范圍擴展到更廣泛的空間模型、不可分離的時空結構、非線性預測器以及聯合縱向-生存模型 [Bolin and Simas, 2023, Krainski et al., 2025, Bachl et al., 2019, Lindgren et al., 2024, Rustand et al., 2024]，其應用涵蓋生物統計、地球科學、流行病學和環境建模 [Alvares et al., 2024, Fioravanti et al., 2023, Myer and Johnston, 2019, Seaton et al., 2024]。

對于 Python 從業者（Python 現在是數據科學和機器學習領域的主導語言）來說，需要對具有空間、時間或分組結構的分層模型進行快速貝葉斯推斷，但他們在很大程度上僅限于基于 MCMC 的工具，如 PyMC 或 Stan，這些工具對于具有大潛在場的模型計算量很大，并且需要仔細的收斂性評估。INLA 為這些模型提供了一種確定性替代方法，但直到現在都缺乏原生的 Python 接口。PyINLA 填補了這一空白：它是一個獨立的 Python 包，不需要安裝 R，將獨立的 inlaC 程序中的基于 INLA 的推斷直接帶入基于 pandas、NumPy 和 SciPy 構建的標準 Python 工作流程中。

本文介紹 PyINLA，這是一個原生的 Python 包，將基于 INLA 的推斷直接帶入 Python 生態系統。PyINLA 通過 Python 風格的 API 暴露了編譯后的 INLA 計算引擎，使用戶能夠使用標準 Python 數據結構（pandas DataFrame、NumPy 數組、SciPy 稀疏矩陣）來指定 LGM、運行推斷并訪問完整的后驗匯總結果。該包消除了對 R 安裝或跨語言互操作層的需求，使得在 Python 中構建其分析和部署流程的龐大且不斷增長的從業者社區能夠使用 INLA。

本文的主要貢獻如下：

原生 Python 接口：PyINLA 提供了一個簡潔的 API，用于使用標準 Python 數據結構指定 LGM，結果以 pandas DataFrame 和 NumPy 數組的形式返回，可直接用于下游分析。無需 R 安裝或互操作層；編譯后的 inla引擎由包透明地管理。
廣泛的 LGM 覆蓋：該包目前支持廣泛使用的 INLA 似然族和潛在模型結構，包括組級隨機效應、時間過程（隨機游走、AR 過程）和空間模型（BYM、SPDE），并通過懲罰復雜度先驗 [Simpson et al., 2017] 使用原則性的先驗規范。
確定性、可重復的推斷：PyINLA 返回后驗邊緣分布的確定性近似；因此沒有蒙特卡洛變異性，不需要收斂性診斷，也不需要隨機種子。
無縫的生態集成：結果以結構化的 Python 對象返回，可直接接入 pandas、matplotlib、scikit-learn 和其他標準工具，用于下游分析、可視化和部署。

通過專注于核心 LGM 功能，包括支持最流行的似然族和潛在模型，實現了廣泛的 LGM 覆蓋。額外的模型組件計劃在未來的版本中提供。當前核心數值方法的最新水平得到了支持。

本文的其余部分組織如下：第 2 節回顧了 Python 中的貝葉斯計算，并將 PyINLA 與常用的替代方案進行定位。第 3 節總結了潛高斯模型框架和 INLA 近似策略，這足以理解包的范圍和輸出。第 4 節描述了 PyINLA 的設計、實現和使用。第 5 節提供了代表性示例，第 6 節討論了局限性和未來方向。

2 背景：貝葉斯計算及相關軟件

應用貝葉斯工作流程涉及迭代的模型開發、跨相關數據集的重復擬合以及常規的模型檢驗。在這些情況下，推斷方法的選擇不僅取決于統計目標，還取決于運行時間、診斷負擔以及集成到數據處理和部署流程中的難易程度。

在 Python 環境中，通用貝葉斯推斷通常使用 MCMC 或 VI 進行，在 PyMC、Stan（通過 CmdStanPy）、TensorFlow Probability 和 Pyro 等框架中實現 [Salvatier et al., 2016, Carpenter et al., 2017, Dillon et al., 2017, Bingham et al., 2019]。現代 MCMC 方法（如哈密頓蒙特卡洛和無 U 型轉折采樣器 [Hoffman et al., 2014]）提供了漸近精確的推斷，但對于具有大潛在結構的分層模型而言計算成本高昂，并且需要大量精力進行調整和收斂性評估。變分方法用優化替代采樣，減少了運行時間，但會引入偏差，并在后驗依賴性較強時低估后驗不確定性 [Rue et al., 2009, Zhang et al., 2019]。這些權衡促使人們為適用此類方法的模型類別尋求確定性替代方案。

INLA 通過用解析近似替代采樣，為潛高斯模型提供了一種確定性替代方法，如第 1 節所述，并將在第 3 節中詳細說明 [Rue et al., 2009, 2017]。實證比較一致表明，INLA 能夠達到與 MCMC 相當的精度，同時在各種應用（包括疾病制圖、臨床試驗和金融建模）中快一到兩個數量級 [De Smedt et al., 2015, Chen et al., 2024, Darkwah, 2022, Nacinben and Laurini, 2024]。PyINLA 為編譯后的 INLA 引擎提供了一個 Python 原生的接口，使得在 Python 工作流程中可以直接對 LGM 進行確定性貝葉斯推斷。

2.1 PyINLA 相對于現有 Python 工具的定位

表1 將 PyINLA 與 Python 中廣泛使用的通用貝葉斯工具進行了對比。

PyMC 提供了一個靈活的概率編程接口，支持基于 NUTS 的 MCMC 和 VI。Stan 提供了一種領域特定語言，具有最先進的 HMC/NUTS 實現。TensorFlow Probability 將概率建模與 TensorFlow 生態集成，支持將貝葉斯推斷與深度學習相結合的工作流程。這些工具提供了廣泛的建模靈活性，但這種通用性是有代價的：用戶必須管理采樣效率、評估收斂性，并為具有復雜分層結構的模型承擔顯著的計算時間。

PyINLA 采取了一種根本不同的方法。通過將注意力限制在 LGM 上，它利用嵌套拉普拉斯近似結合稀疏矩陣的數值方法，無需任何采樣即可計算后驗邊緣分布。對于其范圍內的廣泛模型類別，這種設計帶來了切實的實際優勢：

結構化潛在場的效率：通過利用精度矩陣的稀疏性，可以高效地擬合具有高維潛在分量（例如空間和時空效應）的模型。
內置的結構化組件：常見的時間和空間分量（例如隨機游走、自回歸過程、CAR/BYM 型模型、基于 SPDE 的場）均可使用，并配有原則性的默認先驗。

其權衡在于范圍：PyINLA 僅限于潛高斯模型類別。具有非高斯潛在結構或 INLA 不支持的似然函數的模型，則需要通用工具。需要從完整聯合后驗中直接采樣的應用也可能更傾向于 MCMC，盡管 PyINLA 為派生量的推斷提供了后驗采樣功能。

3 INLA 方法學

本節總結了潛高斯模型框架和 INLA 近似策略，其詳細程度足以理解 PyINLA 能夠表示什么以及它返回什么。詳細的方法論處理可參見 [Rue et al. (2009)]、[Abdul Fattah (2023)]、[Niekerk and Rue (2024)]。

3.1 潛高斯模型

圖 1展示了一個 LGM 的分層結構。

在 PyINLA 中，每個族都帶有一個默認的鏈接函數，否則可以顯式設置。固定效應通過 fixed指定，隨機效應通過 random指定（參見第 4 節）。

3.2 推斷目標與輸出

INLA 的目標是潛場中每個元素以及超參數的后驗邊緣分布：

這些邊緣分布是非高斯的，拉普拉斯方法利用 x x的高斯先驗來準確且高效地近似它們。一旦獲得，后驗匯總統計量（如均值、標準差和可信區間）將直接從這些邊緣分布計算得出，并以 pandas DataFrame 的形式返回（參見第 4 節）。INLA 關注于邊緣分布，而不是顯式地表示完整的聯合后驗分布；這種設計是其計算效率的關鍵因素。當需要完整的聯合后驗分布時，可以在模型擬合后高效地抽取蒙特卡洛樣本 [Chiuchiolo et al., 2021]，如第 4 節所述。

3.3 嵌套拉普拉斯近似與數值積分

INLA 通過結合（i）針對高維高斯潛在結構的拉普拉斯近似與（ii）超參數空間上的數值積分來進行 [Rue et al., 2009, 2017]。在較高層次上：

3.4 計算考量與局限性

INLA 的第一步是一個優化過程，用于定位超參數的后驗眾數，并使用自適應梯度估計技術 [Abdul Fattah et al., 2022]。inla程序通過 Cholesky 分解和選擇性求逆來利用潛在精度矩陣的稀疏性 [Rue and Held, 2005]。當精度矩陣稀疏時，這些操作很快，但如果精度矩陣稠密，它們就會成為瓶頸。先前的工作探索了特定情況的解決方案，包括稠密矩陣 [Abdul Fattah et al., 2025c] 和大規模時空模型 [Gaedke-Merzh?user et al., 2024]。sTiles庫 [Abdul Fattah et al., 2025b,a] 正在開發中，旨在為稀疏結構化矩陣提供高效分解，并計劃在未來的版本中加入 GPU 加速。inla的源代碼可在 https://github.com/hrue/r-inla 獲取。

4 接口描述

本節描述了 PyINLA 的設計、架構和使用方法。PyINLA 是編譯后的 inla程序的 Python 原生接口，使得模型指定、執行和結果處理能夠完全在標準 Python 工作流程中進行。

4.1 安裝與可用性

[fmesher]附加組件提供了圍繞 fmesher庫 [Lindgren, 2023] 的 Python 包裝器，用于網格生成和 SPDE 預處理。我們建議在隔離環境（例如 conda）中安裝。

PyINLA 是一個標準的 Python 包，沒有 R 依賴。核心計算由 inla程序完成，這是一個編譯后的 C 二進制文件，實現了核心數值例程、稀疏矩陣分解、拉普拉斯近似以及超參數上的數值積分。這正是為 R-INLA 提供了超過 15 年支持并已在數千篇已發表的分析中得到驗證的同一計算引擎。PyINLA 透明地管理此二進制文件：如果首次使用時本地不存在，它會自動下載，因此無需手動配置。該包可以直接在云端筆記本環境（如 Google Colab）中運行，使其適用于教學、可重復的演示以及無需本地安裝的協作研究。

完整文檔、教程和交互式示例可在 https://pyinla.org 獲取。為了支持可重復研究，該代碼倉庫包含了本文中所有報告的復制材料。本文描述的是 PyINLA 0.2.0 版本。

4.2 包架構

PyINLA 組織為五個層次：

用戶面向 API：一個以 pyinla()函數為中心的高級接口，該函數接受模型規范、數據和控制選項，并返回一個結構化的結果對象。
模型規范層：將 Python 級別的模型定義轉換為 INLA 引擎所需的內部表示，包括驗證和默認值設置。
數據準備層：將常見的 Python 對象（pandasDataFrame、NumPy數組和 SciPy稀疏矩陣）轉換為引擎所消耗的格式。
執行層：編排 INLA 的運行，包括管理工作目錄、生成配置、調用編譯后的引擎以及錯誤報告。
結果收集層：解析引擎輸出并構建 Python 結果對象，以暴露后驗邊緣分布、匯總統計量和診斷信息。

4.3 基本用法

一個擬合高斯線性模型的最小示例說明了主要的工作流程。下面的代碼生成合成數據，指定模型，使用 pyinla()進行擬合，并打印固定效應的后驗匯總結果。

每一行報告了一個固定效應的后驗均值、標準差、分位數和眾數。kld列對于非高斯似然很有用，它表示每個邊緣分布的高斯近似與簡化拉普拉斯近似之間的 Kullback-Leibler 散度；值接近零表明高斯近似是足夠的。在本例中，由于當 family為高斯分布時不需要進行高斯近似，因此該值為零。

4.4 模型規范

PyINLA 中的統計模型被指定為一個 Python 字典。為了說明這種表示形式，我們將從一個簡單示例逐步構建到一般情況，并在每一步展示字典如何映射到底層的數學模型。

4.4.1 從方程到字典：逐步構建

步驟 1：線性模型。考慮最簡單的情況：一個具有一個協變量的高斯線性模型。

鏈接函數由 PyINLA 內部處理：用戶在線性預測器尺度上指定模型。擬合值的后驗匯總在線性預測器尺度上報告；要獲得響應尺度（例如期望計數或概率）上的結果，可以使用 pyinla.tmarginal()應用逆鏈接，如第 4.5.2 節所示。

步驟 3：添加隨機效應。假設我們用一個組水平的隨機截距來擴展泊松模型：

4.4.2 固定效應

固定效應被指定為數據 DataFrame 中的一列列名列表。截距通過指定 "1"來包含；從列表中省略它則排除截距：

4.4.3 似然族

PyINLA 支持連續響應（"gaussian"、"gamma"、"beta"）、離散響應（"poisson"、"binomial"、"nbinomial"）以及生存數據（"weibullsurv"、"exponentialsurv"）的族。默認的鏈接函數已在表 2 中列出。

常見的附加參數包括：

4.4.4 隨機效應（潛在分量）

隨機效應在 "random"鍵下指定，作為一個分量字典的列表。每個分量需要：

"id"：數據中的一列，其值用于索引隨機效應的水平。
"model"：施加在該效應上的先驗依賴結構類型。

表3總結了可用的潛在模型類型及其數學定義。

4.4.5 先驗規范

每個潛在分量都有超參數（例如 IID 效應的精度 τ τ，或 AR1 過程的相關性 ρ ρ），這些超參數需要先驗分布。它們通過在隨機效應字典中使用 "hyper"鍵來指定。

PyINLA 支持懲罰復雜度（PC）先驗 [Simpson et al., 2017]，這些先驗通過可解釋的概率語句來指定。例如，語句

4.5 結果對象

pyinla()函數返回一個 PyINLAresult對象，該對象以 Python 原生格式暴露后驗匯總統計量、邊緣密度和模型評估量。

4.5.1 后驗匯總

固定效應、潛在分量、超參數和擬合值的匯總統計量以 pandas DataFrame 的形式返回：

4.6 控制選項

control參數是一個可選的字典，用于調整計算和先驗設置，使其不同于默認值。它按命名的分組組織，每個分組控制擬合的不同方面。最常用的分組有：

"compute"：用于切換附加輸出的開關。"dic"、"waic"和 "cpo"啟用相應的模型比較準則；"config"存儲 posterior_sample()所需的內部配置；"return_marginals"請求擬合值的完整邊緣密度。
"fixed"：固定效應的默認先驗精度。"prec"設置回歸系數上的零均值高斯先驗的精度（方差的倒數），而 "prec.intercept"則為截距單獨設置。較低的值給出更寬泛、信息量更少的先驗。

所有鍵都是可選的；未指定的設置保留其默認值。

4.7 模型診斷

當通過 control請求時，PyINLA 會計算 INLA 工作流程中常用的診斷指標，包括 DIC、WAIC、CPO 以及對數邊際似然的近似值：

4.8 后驗采樣

盡管 INLA 主要關注邊緣后驗分布，但后驗采樣對于依賴于多個分量的派生量是有用的。PyINLA 提供了三個采樣函數：

posterior_sample(n, result, seed)：從潛場和超參數的近似后驗中抽取 n n個聯合樣本。config標志必須在 control中啟用（參見第 4.6 節）。
posterior_sample_eval(fun, samples)：提取或轉換樣本。當 fun是字符串（例如 "x"）時，它返回指定固定效應的樣本；當 fun是可調用對象時，它會被應用于每個樣本以計算派生量。
hyperpar_sample(n, result)：僅從超參數的近似邊緣后驗中抽取 n n個樣本。

4.9 穩健執行

PyINLA 包含針對數值困難時的自動回退策略。如果默認設置遇到問題（例如優化中的不穩定性或不收斂），該包會使用更保守的設置進行重試，例如替代的近似模式、修改的積分策略，或是針對病態系統的穩定化選項。此行為由 safe參數控制（默認值：True）。

4.10 支持的功能與持續開發

PyINLA 支持常用的似然族、潛在分量（可交換的、時間的、空間的和通用的）、后驗匯總與邊緣分布、關鍵診斷指標以及后驗采樣。隨著更多組件經過測試和穩定，覆蓋范圍將持續擴大。該包使用與第 3 節所述相同的編譯后的 inla引擎，確保底層計算的數值精度。

有關支持功能的完整文檔可在包網站上獲取。

5 示例

本節通過四個結構復雜性遞增的應用來展示 PyINLA。第一個應用將帶有可交換隨機效應的分層泊松模型應用于足球比賽預測，展示了核心的廣義線性混合模型工作流程。第二個應用使用尺度化的 BYM 模型 [Riebler et al., 2016] 對蘇格蘭唇癌數據集進行區域疾病制圖，引入了格點上的空間結構化隨機效應。第三個應用使用 SPDE 方法 [Lindgren et al., 2011] 對具有連續空間坐標的地統計溫度數據進行建模。第四個應用展示了帶有不確定性量化的時間序列預測，并將 PyINLA 與基于神經網絡的 NeuralProphet 工具 [Triebe et al., 2021] 進行了比較。

這些示例共同涵蓋了從標準 GLMM、格點和地統計空間模型到結構化時間模型的漸進過程。更多示例請訪問 https://pyinla.org。

5.1 體育分析：足球比賽預測

本示例展示了一個帶有交叉隨機效應的泊松廣義線性混合模型（GLMM），用于預測足球比賽結果。我們將 PyINLA 與使用無 U 型轉折采樣器（NUTS）的 PyMC [Salvatier et al., 2016] 進行比較，以驗證后驗推斷的準確性并量化計算加速比。

5.1.1 數據

數據集包含 2018–2019 賽季英格蘭足球超級聯賽中 20 支球隊已進行的 313 場比賽（共 380 場）。每場比賽被重構為兩個觀測值（每隊一個），生成 2 × 313 = 626 行的長格式數據：

5.1.3 與 MCMC 的比較

為了驗證 PyINLA 的準確性，我們使用 PyMC 和 NUTS（4 條鏈，每條鏈在 5,000 次調整迭代后抽取 25,000 個樣本）擬合了相同的模型：

表 5報告了模型擬合的掛鐘時間。1 PyINLA 在 0.24 秒內完成推斷，而 MCMC 需要 21.74 秒（4 條鏈 × 25,000 個樣本，順序運行），CPU 時間加速約 92 倍。固定效應估計值一致到小數點后三位，而超參數估計值差異最多為 0.21，完全在后驗不確定性范圍內。所有 40 個隨機效應（20 個進攻 + 20 個防守）的皮爾遜相關系數為 r = 1.0000 。

圖 3將主場優勢參數和選定的球隊效應的 PyINLA 邊緣密度與 MCMC 直方圖疊加，顯示出兩種方法之間極好的一致性。

5.1.4 預測模擬

使用 posterior_sample()抽取 1,000 個聯合后驗樣本，我們模擬了 67 場未進行比賽的全賽季結果。圖 4比較了 PyINLA 和 MCMC 對前四名資格概率和預期最終積分的預測分布。

5.2 時間序列預測：網絡流量預測

本示例展示了帶有不確定性量化的時間序列預測，將 PyINLA 與 NeuralProphet [Triebe et al., 2021]（一個廣泛使用的基于神經網絡的預測工具）進行比較。我們使用 Peyton Manning 維基百科頁面瀏覽量數據集（2007-2016），這是預測文獻中的一個標準基準，包含 2964 個對數變換后頁面瀏覽量的每日觀測值。

5.2.1 模型規范

令 y t 表示時間 t t的對數頁面瀏覽量。我們將時間序列分解為：

5.2.3 結果

表 6 報告了 365 天測試期內的預測精度。NeuralProphet 在默認和調優后的超參數下運行，并報告了最佳配置（默認設置）的結果。此比較是說明性的，而非正式的基準測試：NeuralProphet 是一個點預測工具（不確定性區間需要額外配置），因此主要目的是證明 PyINLA 的結構化加性模型能夠產生具有競爭力的點預測，同時作為貝葉斯推斷的自然副產品，額外提供經過校準的不確定性量化。

圖 5顯示了預測比較。PyINLA 提供了經過校準的 95% 可信區間，在預測期內適當變寬，而 NeuralProphet 默認僅提供點預測。

PyINLA 的一個關鍵優勢是帶有不確定性的可解釋分量分解。圖 6顯示了每個分量的后驗均值和 95% 可信區間：平滑趨勢捕捉了長期的熱度變化，周效應揭示了工作日/周末模式，年效應顯示了 NFL 賽季動態（9 月至 2 月期間出現峰值）。

局限性。此比較使用單個數據集和單次訓練/測試劃分。結果是說明性的而非決定性的；在其他數據集上或通過超參數調優，性能可能有所不同。全面的比較將需要多個數據集和交叉驗證。

復制材料。完整的復制腳本作為補充材料提供（timeseries.py）。

5.3 疾病制圖：蘇格蘭唇癌

本示例使用帶有尺度化精度矩陣（scale.model=True）的經典 BYM 模型 [?] 對蘇格蘭唇癌數據集 [Clayton and Kaldor, 1987] 進行區域疾病制圖。尺度化確保了 ICAR 和 IID 分量的精度超參數具有可比性 [?]。我們將 PyINLA 與使用 NUTS 的 PyMC 進行比較，以驗證空間結構化隨機效應模型上的后驗推斷。

注意，PyINLA 也通過 "model": "bym2"提供了 BYM2 重參數化 [Riebler et al., 2016]，該版本使用單個總標準差和一個混合參數，建議用于新的分析；這里我們使用經典形式來說明單獨的超參數估計。

5.3.1 模型規范

5.4 地統計建模：區域溫度插值

本示例使用 SPDE（隨機偏微分方程）方法 [Lindgren et al., 2011] 展示了連續空間預測，應用于黎巴嫩、敘利亞、約旦和沙特阿拉伯 55 個氣象站的 2024 年 1 月溫度數據。數據來自全球歷史氣候學網絡 [Menne et al., 2012]。

5.4.1 模型規范

5.4.2 實現

我們加載溫度數據，并將坐標投影到 UTM 40 區（單位為公里）：

5.4.3 空間預測

我們在一個規則分布的 10 公里網格（230 × 280 個點）上生成預測，并納入來自 ETOPO 2022 數字高程數據 [NOAA National Centers for Environmental Information, 2022] 的海拔信息：

圖 9顯示了預測的溫度表面及其相關的不確定性。預測不確定性在觀測位置附近最低，在數據稀疏區域（特別是在沙特阿拉伯內陸，最近的觀測站也在數百公里之外）則增加。

復制材料。完整的復制腳本，包括從 GHCN 獲取數據及所有中間處理步驟，作為補充材料提供（spde.py）。

6 討論與結論

本文介紹了 PyINLA，這是一個原生的 Python 包，將基于 INLA 的貝葉斯推斷帶入了 Python 生態系統。通過 Python 風格的 API 提供對編譯后的 INLA 計算引擎的直接訪問，PyINLA 消除了跨語言工作流程的摩擦，同時保留了使 INLA 成為潛高斯模型標準工具的計算效率和統計精度。

第 5 節中的示例展示了 PyINLA 在一系列模型結構上的應用，從用于體育預測的可交換隨機效應，到用于疾病制圖的空間結構化效應，用于地統計插值的連續空間場，以及用于時間序列預測的時間分量。在這些應用中，后驗估計與 MCMC 基準非常接近，同時實現了 100–200 倍的計算加速，其確定性輸出簡化了測試和部署。

需要承認幾個局限性。PyINLA 僅限于潛高斯模型；需要非高斯潛在結構或 INLA 支持族之外的似然函數的應用則需要通用工具。需要直接訪問完整聯合后驗的應用也可能受益于 MCMC 方法，盡管 PyINLA 為派生量提供了后驗采樣。

開發工作沿著多個方向繼續進行，包括擴展模型支持、通過 sTiles 庫 [Abdul Fattah et al., 2025b,a] 實現 GPU 加速、與 Python 機器學習工作流程的更深層次集成，以及在 https://pyinla.org 上擴展文檔。未來的版本還將允許用戶定義自定義的潛在模型和似然函數，將 PyINLA 擴展到內置組件之外。

PyINLA 使基于 INLA 的貝葉斯推斷成為 Python 科學計算生態系統的一個原生部分。通過為潛高斯模型提供快速、確定性推斷的直接訪問，PyINLA 為與現代機器學習和 AI 工作流程的更緊密集成打開了大門，在這些工作流程中，原則性的不確定性量化越來越受到重視。我們預計，原生的 Python 可用性將把 INLA 方法論的范圍擴展到新的應用領域和更大規模的問題。

原文鏈接：https://arxiv.org/pdf/2603.27276

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.