網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

函數(shù)型數(shù)據(jù)貝葉斯多重插補(bǔ)方法：BAMIFun

2026-05-11 15:49:23　來(lái)源: CreateAMind

上海舉報(bào)

分享至

BAMIFun：函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)方法

BAMIFun: Bayesian Multiple Imputation for Functional Data

https://arxiv.org/pdf/2605.08018

摘要
缺失數(shù)據(jù)在現(xiàn)代函數(shù)型數(shù)據(jù)集中普遍存在，其中軌跡往往被稀疏或不規(guī)則地觀測(cè)。盡管函數(shù)型主成分分析（FPCA）被廣泛用于重構(gòu)不完整曲線，但現(xiàn)有的基于 FPCA 的方法通常采用單一插補(bǔ)，導(dǎo)致下游分析中的推斷過(guò)于樂(lè)觀。為應(yīng)對(duì)這些挑戰(zhàn)，我們提出了一種針對(duì)函數(shù)型數(shù)據(jù)的新型貝葉斯多重插補(bǔ)框架（BAMIFun）。針對(duì)單層函數(shù)型數(shù)據(jù)，我們構(gòu)建了一個(gè)貝葉斯低秩模型，該模型結(jié)合懲罰樣條表示以約束特征函數(shù)的平滑性，并推導(dǎo)了一種高效的吉布斯采樣算法用于后驗(yàn)計(jì)算。此外，我們闡述并驗(yàn)證了如何在下游分析中恰當(dāng)?shù)丶{入估計(jì)不確定性。進(jìn)一步地，我們利用低秩函數(shù)型張量奇異值分解（FTSVD）模型將該框架擴(kuò)展至多路函數(shù)型數(shù)據(jù)，從而在現(xiàn)有方法無(wú)法支持的情形下實(shí)現(xiàn)貝葉斯多重插補(bǔ)。模擬研究表明，與現(xiàn)有方法相比，BAMIFun 在實(shí)現(xiàn)準(zhǔn)確插補(bǔ)的同時(shí)，顯著提升了置信區(qū)間覆蓋率，并使下游推斷更為可靠。基于體力活動(dòng)數(shù)據(jù)集與嬰兒腸道微生物組數(shù)據(jù)集的案例研究，進(jìn)一步驗(yàn)證了所提方法在嚴(yán)重缺失情形下的實(shí)際優(yōu)勢(shì)。算法代碼詳見(jiàn)：https://github.com/ZirenJiang/BAMIFun。

關(guān)鍵詞：函數(shù)型數(shù)據(jù)分析，缺失數(shù)據(jù)，貝葉斯推斷，多路函數(shù)型數(shù)據(jù)，多路數(shù)據(jù)。

1 引言

函數(shù)型數(shù)據(jù)通常在稀疏和/或不規(guī)則的網(wǎng)格上被觀測(cè)（Huang and Kao, 2025）。針對(duì)此類(lèi)數(shù)據(jù)的建模，研究者已開(kāi)發(fā)了多種方法，包括函數(shù)型主成分分析（FPCA）（Yao et al., 2005）、用于聯(lián)合配準(zhǔn)與曲線估計(jì)的貝葉斯方法（Matuk et al., 2022），以及近年來(lái)基于矩陣補(bǔ)全的方法（Kidziński and Hastie, 2024）等。盡管取得了這些進(jìn)展，對(duì)稀疏或不規(guī)則觀測(cè)的函數(shù)型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析仍具挑戰(zhàn)性。主要困難包括：許多方法隱含地依賴(lài)于密集設(shè)計(jì)假設(shè)（Kong et al., 2016）；專(zhuān)為稀疏函數(shù)型數(shù)據(jù)設(shè)計(jì)的軟件資源有限（Wood and Wood, 2015; Beyaztas and Shang, 2025; Centofanti et al., 2022; Febrero-Bande and De La Fuente, 2012）；以及在嚴(yán)重缺失情形下，方法性能顯著下降（Di et al., 2009; Greven et al., 2011）。

處理稀疏或不規(guī)則函數(shù)型數(shù)據(jù)的一種常見(jiàn)做法是插補(bǔ)缺失觀測(cè)值，并在規(guī)則網(wǎng)格上重構(gòu)個(gè)體特異性軌跡，該方法最早由 Yao 等人（2005）基于 FPCA 提出。具體而言，他們通過(guò)條件期望估計(jì)主成分得分來(lái)重構(gòu)每條軌跡。在高斯假設(shè)下，預(yù)測(cè)通過(guò)最佳線性無(wú)偏預(yù)測(cè)（BLUPs）實(shí)現(xiàn)。此后，這種基于 FPCA 的方法已被擴(kuò)展至多水平（Di et al., 2009; Zipunnikov et al., 2011; Di et al., 2014; Cui et al., 2023）、縱向（Greven et al., 2011; Zipunnikov et al., 2014）、結(jié)構(gòu)化（Shou et al., 2015; Lin et al., 2024）以及多變量（Chiou et al., 2014; Happ and Greven, 2018）等情形。在下文中，我們沿用其原始論文（Yao et al., 2005）中的命名，將此類(lèi)方法稱(chēng)為"PACE 方法"。PACE 方法在每個(gè)缺失位置僅產(chǎn)生一個(gè)插補(bǔ)值，且不提供不確定性量化，因此屬于"單一插補(bǔ)"方法。由于單一插補(bǔ)將重構(gòu)后的軌跡視為真實(shí)值，下游分析中的不確定性度量往往過(guò)于樂(lè)觀，尤其在數(shù)據(jù)嚴(yán)重稀疏的情況下（Rao and Reimherr, 2021; Petrovich et al., 2022）。

相比之下，多重插補(bǔ)框架（Rubin, 1996; Schafer, 1999）通過(guò)生成多個(gè)合理的缺失函數(shù)型觀測(cè)補(bǔ)全方案，顯式地納入插補(bǔ)不確定性。這些補(bǔ)全數(shù)據(jù)集之間的變異反映了插補(bǔ)過(guò)程固有的不確定性，從而使得下游分析的推斷更為有效。針對(duì)稀疏函數(shù)型數(shù)據(jù)，已有若干多重插補(bǔ)方法被提出。具體而言，Petrovich 等人（2022）提出了一種頻率學(xué)派的多重插補(bǔ)程序，該方法利用標(biāo)量結(jié)局變量的信息，假設(shè)函數(shù)型協(xié)變量與結(jié)局之間服從廣義可加模型，并從相應(yīng)的條件分布中抽取插補(bǔ)值。Rao 和 Reimherr（2021）改進(jìn)了 missForest 算法，使其能夠處理函數(shù)型協(xié)變量，包括針對(duì)函數(shù)型數(shù)據(jù)的特定預(yù)處理及基于 PACE 的初始化策略。He 等人（2011）通過(guò)函數(shù)型混合效應(yīng)框架聯(lián)合建模函數(shù)型與標(biāo)量協(xié)變量，并基于吉布斯采樣開(kāi)發(fā)了一種貝葉斯多重插補(bǔ)策略。Jang 等人（2021）提出了一種針對(duì)雙變量函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)方法，該方法利用了兩個(gè)函數(shù)型預(yù)測(cè)變量之間的相關(guān)結(jié)構(gòu)。盡管這些多重插補(bǔ)方法在其各自適用情境下有效，但它們?cè)诓逖a(bǔ)過(guò)程中均需要額外的觀測(cè)信息，例如標(biāo)量結(jié)局、標(biāo)量協(xié)變量或輔助函數(shù)型變量。此外，大多數(shù)現(xiàn)有方法僅關(guān)注單層函數(shù)型數(shù)據(jù)，其在更復(fù)雜結(jié)構(gòu)數(shù)據(jù)上的表現(xiàn)尚不明確。

因此，針對(duì)稀疏函數(shù)型數(shù)據(jù)的多重插補(bǔ)方法仍發(fā)展不足。現(xiàn)有方法通常依賴(lài)輔助信息進(jìn)行插補(bǔ)。當(dāng)此類(lèi)輔助信息不可得，或其與函數(shù)型數(shù)據(jù)的關(guān)系被錯(cuò)誤設(shè)定時(shí)，插補(bǔ)性能便值得懷疑。此外，據(jù)我們所知，目前尚無(wú)任何針對(duì)更復(fù)雜函數(shù)型數(shù)據(jù)結(jié)構(gòu)（如多路函數(shù)型數(shù)據(jù)）的多重插補(bǔ)方法。多路數(shù)據(jù)（亦稱(chēng)多維張量數(shù)據(jù)）由兩個(gè)以上維度索引的觀測(cè)構(gòu)成（例如：個(gè)體 × 特征 × 訪視），并自然出現(xiàn)在神經(jīng)影像（Lynch and Chen, 2018）、可穿戴設(shè)備（Leroux et al., 2024）和基因組學(xué)（Li and Lock, 2025）等現(xiàn)代應(yīng)用中。當(dāng)其中某一維度為連續(xù)變量（如時(shí)間或空間）時(shí)，數(shù)據(jù)即成為多路函數(shù)型數(shù)據(jù)。近期，Jiang, Li 和 Lock（2025）提出了一種針對(duì)張量數(shù)組的貝葉斯多重插補(bǔ)算法（BAMITA），該方法通過(guò)低秩 CANDECOMP/PARAFAC（CP）分解對(duì)張量數(shù)據(jù)進(jìn)行插補(bǔ)。然而，BAMITA 針對(duì)的是離散張量數(shù)組，未納入函數(shù)型數(shù)據(jù)所需的平滑性約束。

為填補(bǔ)函數(shù)型數(shù)據(jù)多重插補(bǔ)方面的關(guān)鍵方法學(xué)空白，我們開(kāi)發(fā)了 BAMIFun：一種針對(duì)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)框架。具體而言，我們的模型（1）在貝葉斯多重插補(bǔ)框架中嵌入懲罰樣條，以約束軌跡平滑性，同時(shí)聯(lián)合量化特征函數(shù)的不確定性；（2）通過(guò)低秩 FPCA 表示對(duì)單層函數(shù)型數(shù)據(jù)執(zhí)行多重插補(bǔ)，并依據(jù) Rubin 規(guī)則整合各次插補(bǔ)的估計(jì)結(jié)果，從而支持有效的下游推斷；（3）據(jù)我們所知，首次為多路函數(shù)型數(shù)據(jù)提供了多重插補(bǔ)程序，方法是針對(duì)函數(shù)型張量奇異值分解（FTSVD）模型（Han et al., 2024）開(kāi)發(fā)了一種貝葉斯采樣器。通過(guò)廣泛的模擬研究與真實(shí)數(shù)據(jù)應(yīng)用，我們表明：相較于 BAMITA，我們的 BAMIFun 模型在函數(shù)型數(shù)據(jù)上實(shí)現(xiàn)了顯著更高的插補(bǔ)精度；相較于 PACE 方法，其對(duì)插補(bǔ)條目的置信區(qū)間覆蓋率更優(yōu)。此外，BAMIFun 在下游推斷（例如函數(shù)型回歸）中表現(xiàn)出更高的穩(wěn)定性，顯著改善了覆蓋性質(zhì)。我們將模型進(jìn)一步應(yīng)用于真實(shí)世界數(shù)據(jù)集，包括：（1）來(lái)自美國(guó)國(guó)家健康與營(yíng)養(yǎng)調(diào)查（NHANES）的體力活動(dòng)數(shù)據(jù)集；（2）縱向收集的嬰兒腸道微生物組數(shù)據(jù)集。兩項(xiàng)應(yīng)用的結(jié)果進(jìn)一步支持了模擬研究中觀察到的規(guī)律。

本文其余部分組織如下：第 2 節(jié)介紹背景與問(wèn)題設(shè)定；第 3 節(jié)提出針對(duì)單層函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)算法；第 4 節(jié)將該框架擴(kuò)展至多路函數(shù)型數(shù)據(jù)，并介紹相應(yīng)的貝葉斯模型，多重插補(bǔ)算法詳見(jiàn)補(bǔ)充材料；第 5 節(jié)與第 6 節(jié)通過(guò)模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)評(píng)估所提出的 BAMIFun 方法，并與 BAMITA 及 PACE 進(jìn)行比較；第 7 節(jié)總結(jié)并討論。

2 符號(hào)與設(shè)定

3 單層函數(shù)型數(shù)據(jù)

3.1 模型

3.2 基于完整數(shù)據(jù)的吉布斯采樣器

3.3 貝葉斯函數(shù)型插補(bǔ)算法

3.4 插補(bǔ)與下游分析的統(tǒng)計(jì)推斷

4 多路函數(shù)型數(shù)據(jù)

在此，我們沿第三維度對(duì)張量進(jìn)行矩陣化，因?yàn)樵摼S度對(duì)應(yīng)于函數(shù)型觀測(cè)值。在補(bǔ)充材料第 3 節(jié)中，我們給出了模型 (9) 下針對(duì)多路函數(shù)型數(shù)據(jù)的吉布斯采樣器以及相應(yīng)的貝葉斯多重插補(bǔ)算法。

5 模擬實(shí)驗(yàn)

5.1 單層函數(shù)型數(shù)據(jù)的插補(bǔ)性能

5.1.1 數(shù)據(jù)生成機(jī)制

5.1.3 結(jié)果

圖 1 報(bào)告了各方法的插補(bǔ)均方誤差（MSE）和覆蓋率。對(duì)于 MSE，當(dāng)缺失比例為 80% 時(shí)，我們的 BAMIFun 算法表現(xiàn)與 PACE 相當(dāng)。在 90% 缺失率下，對(duì)于小樣本量（ n = 100 ），它顯示出略大的 MSE，但隨著 n 增加，差異逐漸縮小。在極高的缺失率下，我們的 BAMIFun 方法起初的 MSE 高于頻率學(xué)派方法；然而，隨著樣本量增大，差距縮小。在所有設(shè)置中，納入平滑性約束使我們的 BAMIFun 算法在插補(bǔ)精度方面始終優(yōu)于 BAMITA。對(duì)于 95% 置信/可信區(qū)間的覆蓋率，我們的 BAMIFun 方法保持接近名義水平（約 95%）的覆蓋率，顯著高于 PACE。當(dāng)樣本量較小時(shí)，BAMITA 表現(xiàn)出覆蓋率不足，這可能是由于其較大的 MSE 所致。盡管其覆蓋率隨樣本量增加而改善，但仍劣于所提出的貝葉斯方法。

5.2 基于插補(bǔ)后函數(shù)型數(shù)據(jù)的下游分析

5.2.1 數(shù)據(jù)生成機(jī)制

5.2.3 模擬結(jié)果

圖 2 展示了基于插補(bǔ)后函數(shù)型數(shù)據(jù)的 SoFR 系數(shù)估計(jì)結(jié)果。在估計(jì)的 SoFR 系數(shù)的相對(duì)積分平方誤差 (ISE) 方面，我們的 BAMIFun 方法在大多數(shù)模擬場(chǎng)景中均表現(xiàn)出更優(yōu)的性能。與 PACE 算法相比，我們的算法從樣本量的增加中獲益更多。在某些場(chǎng)景下，PACE 估計(jì)量的均方誤差 (MSE) 甚至隨著樣本量的增加而增加。關(guān)于覆蓋率，BAMIFun 的表現(xiàn)始終優(yōu)于 PACE 算法，后者表現(xiàn)出系統(tǒng)性的覆蓋率不足。這些發(fā)現(xiàn)強(qiáng)調(diào)了所提出的多重插補(bǔ)方法的優(yōu)勢(shì)，該方法恰當(dāng)?shù)乜紤]了插補(bǔ)的不確定性，并在下游分析中導(dǎo)出了更可靠的區(qū)間估計(jì)。在補(bǔ)充材料第 3 節(jié)中，我們還展示了平滑參數(shù)通過(guò)交叉驗(yàn)證確定的 BAMIFun 算法的結(jié)果，其結(jié)論與第一個(gè)實(shí)驗(yàn)一致。

5.3 多路函數(shù)型數(shù)據(jù)的插補(bǔ)性能

5.3.1 數(shù)據(jù)生成機(jī)制

5.3.2 結(jié)果

我們將我們的 BAMIFun 算法與基于頻率學(xué)派多水平 FPCA（MFPCA）框架（Di et al., 2009）的 PACE 方法進(jìn)行比較。我們未將 BAMITA 納入此比較，因?yàn)槠湓谇笆鰧?shí)驗(yàn)中已被證實(shí)不適用于函數(shù)型數(shù)據(jù)設(shè)定。針對(duì)每個(gè)模擬場(chǎng)景，我們進(jìn)行了 500 次重復(fù)實(shí)驗(yàn)。對(duì)于貝葉斯方法，我們同時(shí)計(jì)算了插補(bǔ)元素的均方誤差（MSE）和經(jīng)驗(yàn)覆蓋率。對(duì)于 PACE 方法，由于現(xiàn)有的 R 語(yǔ)言實(shí)現(xiàn)未提供預(yù)測(cè)函數(shù)型元素的置信區(qū)間，我們僅報(bào)告其均方誤差。

模擬結(jié)果總結(jié)于表 1。對(duì)于具有低秩結(jié)構(gòu)的多水平函數(shù)型數(shù)據(jù)，BAMIFun 算法始終優(yōu)于 PACE 方法。

相比之下，當(dāng)潛在的函數(shù)型結(jié)構(gòu)并非低秩時(shí)，BAMIFun 算法的均方誤差（MSE）略高于 PACE。然而，在所有模擬設(shè)定中，BAMIFun 算法的 95% 置信區(qū)間覆蓋率均接近名義水平，即便在無(wú)低秩結(jié)構(gòu)的情形下亦是如此。這些結(jié)果凸顯了 BAMIFun 算法在不同數(shù)據(jù)生成機(jī)制下的穩(wěn)健性與廣泛適用性。

6 案例研究

6.1 單層函數(shù)型數(shù)據(jù)

針對(duì)單層函數(shù)型數(shù)據(jù)集，我們將所提出的 BAMIFun 算法應(yīng)用于美國(guó)國(guó)家健康與營(yíng)養(yǎng)調(diào)查（NHANES）的體力活動(dòng)數(shù)據(jù)，并將插補(bǔ)性能與以下方法進(jìn)行比較：(1) PACE 算法，以及 (2) 未納入數(shù)據(jù)集函數(shù)型特征的貝葉斯多重插補(bǔ)算法 BAMITA。NHANES 是由美國(guó)疾病控制與預(yù)防中心開(kāi)展的一項(xiàng)全國(guó)性項(xiàng)目，旨在監(jiān)測(cè)美國(guó)成人和兒童的健康與營(yíng)養(yǎng)狀況（Cui et al., 2021; Cui, Leroux, Smirnova and Crainiceanu, 2022; Cui, Thompson, Carroll and Ruppert, 2022）。在本分析中，我們使用了 2011–2012 和 2013–2014 周期的數(shù)據(jù)（Crainiceanu et al., 2024）。

我們將每種場(chǎng)景重復(fù) 100 次，并在表 2 中總結(jié)了 MSE 和覆蓋率。在極端缺失情況下，BAMIFun 算法產(chǎn)生的 MSE 略高，盡管當(dāng)缺失比例降低至約 95% 時(shí)，這一差距會(huì)縮小。在所有缺失水平下，BAMIFun 算法始終為估計(jì)的 95% 可信區(qū)間提供接近名義水平的經(jīng)驗(yàn)覆蓋率。相比之下，基于 FPCA 的 PACE 算法在所有設(shè)定下的覆蓋率都低得多。

6.2 多路函數(shù)型數(shù)據(jù)

我們以嬰兒腸道微生物組數(shù)據(jù)集為例，說(shuō)明多路函數(shù)型數(shù)據(jù)的應(yīng)用。人類(lèi)腸道棲息著一個(gè)復(fù)雜且動(dòng)態(tài)的微生物生態(tài)系統(tǒng)，該系統(tǒng)在生命早期迅速演化，并在免疫發(fā)育和整體健康中發(fā)揮關(guān)鍵作用。我們分析了一項(xiàng)針對(duì) 52 名入住新生兒重癥監(jiān)護(hù)病房（NICU）的早產(chǎn)兒的縱向研究數(shù)據(jù)，該研究在嬰兒出生后的前三個(gè)月內(nèi)重復(fù)收集了糞便樣本（Cong et al., 2017）。不同嬰兒的采樣時(shí)間各異，從而產(chǎn)生了不規(guī)則觀測(cè)的縱向剖面。微生物組成通過(guò) 16S rRNA 測(cè)序進(jìn)行量化，并在屬（genus）水平上匯總相對(duì)豐度，最終在所有樣本中共識(shí)別出 152 個(gè)獨(dú)特的屬。經(jīng)過(guò)標(biāo)準(zhǔn)質(zhì)量控制并過(guò)濾掉稀有分類(lèi)單元后，數(shù)據(jù)形成了一個(gè)以受試者、時(shí)間和微生物屬為索引的三路數(shù)組，這自然地引出了多路函數(shù)型表示：即每位嬰兒都與一組隨時(shí)間變化的、屬特異性的豐度軌跡相關(guān)聯(lián)。我們采用了標(biāo)準(zhǔn)的預(yù)處理技術(shù)，并對(duì)數(shù)據(jù)集應(yīng)用了中心對(duì)數(shù)比（clr）變換。

Jiang, Li 和 Lock（2025）也曾使用該嬰兒腸道微生物組數(shù)據(jù)集。然而，由于缺失比例極高且受時(shí)間限制，他們將連續(xù)幾天的結(jié)果進(jìn)行了聚合，最終得到 30 個(gè)時(shí)間區(qū)間。相比之下，我們分析了原始數(shù)據(jù)結(jié)構(gòu)，該結(jié)構(gòu)包含在 118 天內(nèi)收集的測(cè)量值。所得的多路函數(shù)型數(shù)據(jù)集維度為 52×152×118，其中 91.1% 的條目因研究設(shè)計(jì)而未被觀測(cè)到，這對(duì)插補(bǔ)構(gòu)成了巨大挑戰(zhàn)。例如，多水平 FPCA 方法（如 refund 包中所實(shí)現(xiàn)的）在此設(shè)定下并不適用，因?yàn)槟承┦茉囌?- 屬組合僅包含一個(gè)觀測(cè)時(shí)間點(diǎn)。

我們?cè)u(píng)估了以下算法的插補(bǔ)性能：(i) 未顯式建模函數(shù)型結(jié)構(gòu)的貝葉斯多重插補(bǔ)（BAMITA）；(ii) 針對(duì)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)（BAMIFun），其中平滑參數(shù)被視為未知量并賦予無(wú)信息先驗(yàn)。在補(bǔ)充材料中，我們還展示了通過(guò)交叉驗(yàn)證選擇平滑參數(shù)的 BAMIFun 算法結(jié)果。頻率學(xué)派的多水平 FPCA 方法未被納入考慮，因?yàn)楝F(xiàn)有軟件實(shí)現(xiàn)無(wú)法處理如此極端缺失水平的數(shù)據(jù)集。由于交叉驗(yàn)證已在前述模擬研究和應(yīng)用中得到評(píng)估，且為降低計(jì)算成本，我們未使用交叉驗(yàn)證來(lái)選擇主成分?jǐn)?shù)量。相反，我們將主成分?jǐn)?shù)量從 10 變化至 38，并呈現(xiàn)相應(yīng)的結(jié)果。

針對(duì)每個(gè)模擬實(shí)驗(yàn)，我們隨機(jī)抽取 30% 的已觀測(cè)條目作為測(cè)試集，并對(duì)剩余的已觀測(cè)條目應(yīng)用插補(bǔ)方法。對(duì)于每個(gè)主成分?jǐn)?shù)量，我們將實(shí)驗(yàn)重復(fù) 100 次，并在圖 3 中報(bào)告測(cè)試集上的平均插補(bǔ)均方誤差（MSE）。我們的 BAMIFun 算法在所有主成分?jǐn)?shù)量下均始終優(yōu)于 BAMITA 算法。此外，其對(duì)插補(bǔ)條目的覆蓋率達(dá)到了接近名義水平的合理范圍（約 93%）。

7 討論

在本文中，我們開(kāi)發(fā)了 BAMIFun：一種針對(duì)稀疏觀測(cè)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)框架，涵蓋單層與多路函數(shù)型場(chǎng)景。所提出的 BAMIFun 算法為重構(gòu)不完整軌跡提供了一種嚴(yán)謹(jǐn)?shù)姆椒ǎ瑫r(shí)明確量化了插補(bǔ)過(guò)程所引入的不確定性。我們的方法解決了廣泛使用的基于 FPCA 的插補(bǔ)方法（PACE）的一個(gè)關(guān)鍵局限，即這些方法傾向于將插補(bǔ)后的曲線視為真實(shí)已知值，從而低估了下游分析中的不確定性。如模擬研究所示，針對(duì)單層函數(shù)型數(shù)據(jù)，我們的 BAMIFun 算法達(dá)到了與 PACE 方法相近的插補(bǔ)精度。然而，通過(guò)有效納入插補(bǔ)不確定性，我們的方法獲得了接近名義水平的覆蓋率，并在下游分析中展現(xiàn)出更優(yōu)的性能。針對(duì)多路函數(shù)型數(shù)據(jù)，我們采用了 Han 等人（2024）提出的低秩分解模型，并提出了一種新穎的貝葉斯插補(bǔ)算法。由于該模型與 MFPCA 模型存在差異，兩種方法的插補(bǔ)精度取決于數(shù)據(jù)的具體特征，這在模擬中已得到證實(shí)。

案例研究進(jìn)一步印證了我們的模擬結(jié)果。在 NHANES 研究中，在現(xiàn)實(shí)的高比例人為缺失設(shè)定下（最高達(dá) 97.5%），貝葉斯算法始終為插補(bǔ)值維持了名義水平的覆蓋率，而基于 FPCA 的單一插補(bǔ)則出現(xiàn)了嚴(yán)重的覆蓋率不足。盡管貝葉斯方法產(chǎn)生的均方誤差（MSE）略高，但隨著缺失比例的降低，兩者差距逐漸縮小，且覆蓋率在所有場(chǎng)景下均保持穩(wěn)定。與模擬實(shí)驗(yàn)一致，我們的 BAMIFun 算法在插補(bǔ)精度與覆蓋率兩方面均優(yōu)于 BAMITA 算法。在嬰兒腸道微生物組研究中，我們的 BAMIFun 算法在 MSE 指標(biāo)上顯著優(yōu)于 BAMITA 算法。

我們的貝葉斯算法通過(guò)基展開(kāi)為函數(shù)型數(shù)據(jù)施加平滑性約束；然而，其性能可能依賴(lài)于所選樣條基的類(lèi)型。近期，Sartini 等人（2025）提出了一種替代的 FPCA 框架，該框架在 Stiefel 流形上對(duì)主成分進(jìn)行參數(shù)化。將其方法擴(kuò)展至貝葉斯多重插補(bǔ)將是未來(lái)研究的一個(gè)有趣方向。

原文鏈接：https://arxiv.org/pdf/2605.08018

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.