BAMIFun:函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)方法
BAMIFun: Bayesian Multiple Imputation for Functional Data
https://arxiv.org/pdf/2605.08018
![]()
![]()
摘要
缺失數(shù)據(jù)在現(xiàn)代函數(shù)型數(shù)據(jù)集中普遍存在,其中軌跡往往被稀疏或不規(guī)則地觀測(cè)。盡管函數(shù)型主成分分析(FPCA)被廣泛用于重構(gòu)不完整曲線,但現(xiàn)有的基于 FPCA 的方法通常采用單一插補(bǔ),導(dǎo)致下游分析中的推斷過(guò)于樂(lè)觀。為應(yīng)對(duì)這些挑戰(zhàn),我們提出了一種針對(duì)函數(shù)型數(shù)據(jù)的新型貝葉斯多重插補(bǔ)框架(BAMIFun)。針對(duì)單層函數(shù)型數(shù)據(jù),我們構(gòu)建了一個(gè)貝葉斯低秩模型,該模型結(jié)合懲罰樣條表示以約束特征函數(shù)的平滑性,并推導(dǎo)了一種高效的吉布斯采樣算法用于后驗(yàn)計(jì)算。此外,我們闡述并驗(yàn)證了如何在下游分析中恰當(dāng)?shù)丶{入估計(jì)不確定性。進(jìn)一步地,我們利用低秩函數(shù)型張量奇異值分解(FTSVD)模型將該框架擴(kuò)展至多路函數(shù)型數(shù)據(jù),從而在現(xiàn)有方法無(wú)法支持的情形下實(shí)現(xiàn)貝葉斯多重插補(bǔ)。模擬研究表明,與現(xiàn)有方法相比,BAMIFun 在實(shí)現(xiàn)準(zhǔn)確插補(bǔ)的同時(shí),顯著提升了置信區(qū)間覆蓋率,并使下游推斷更為可靠。基于體力活動(dòng)數(shù)據(jù)集與嬰兒腸道微生物組數(shù)據(jù)集的案例研究,進(jìn)一步驗(yàn)證了所提方法在嚴(yán)重缺失情形下的實(shí)際優(yōu)勢(shì)。算法代碼詳見(jiàn):https://github.com/ZirenJiang/BAMIFun。
關(guān)鍵詞:函數(shù)型數(shù)據(jù)分析,缺失數(shù)據(jù),貝葉斯推斷,多路函數(shù)型數(shù)據(jù),多路數(shù)據(jù)。
1 引言
函數(shù)型數(shù)據(jù)通常在稀疏和/或不規(guī)則的網(wǎng)格上被觀測(cè)(Huang and Kao, 2025)。針對(duì)此類(lèi)數(shù)據(jù)的建模,研究者已開(kāi)發(fā)了多種方法,包括函數(shù)型主成分分析(FPCA)(Yao et al., 2005)、用于聯(lián)合配準(zhǔn)與曲線估計(jì)的貝葉斯方法(Matuk et al., 2022),以及近年來(lái)基于矩陣補(bǔ)全的方法(Kidziński and Hastie, 2024)等。盡管取得了這些進(jìn)展,對(duì)稀疏或不規(guī)則觀測(cè)的函數(shù)型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析仍具挑戰(zhàn)性。主要困難包括:許多方法隱含地依賴(lài)于密集設(shè)計(jì)假設(shè)(Kong et al., 2016);專(zhuān)為稀疏函數(shù)型數(shù)據(jù)設(shè)計(jì)的軟件資源有限(Wood and Wood, 2015; Beyaztas and Shang, 2025; Centofanti et al., 2022; Febrero-Bande and De La Fuente, 2012);以及在嚴(yán)重缺失情形下,方法性能顯著下降(Di et al., 2009; Greven et al., 2011)。
處理稀疏或不規(guī)則函數(shù)型數(shù)據(jù)的一種常見(jiàn)做法是插補(bǔ)缺失觀測(cè)值,并在規(guī)則網(wǎng)格上重構(gòu)個(gè)體特異性軌跡,該方法最早由 Yao 等人(2005)基于 FPCA 提出。具體而言,他們通過(guò)條件期望估計(jì)主成分得分來(lái)重構(gòu)每條軌跡。在高斯假設(shè)下,預(yù)測(cè)通過(guò)最佳線性無(wú)偏預(yù)測(cè)(BLUPs)實(shí)現(xiàn)。此后,這種基于 FPCA 的方法已被擴(kuò)展至多水平(Di et al., 2009; Zipunnikov et al., 2011; Di et al., 2014; Cui et al., 2023)、縱向(Greven et al., 2011; Zipunnikov et al., 2014)、結(jié)構(gòu)化(Shou et al., 2015; Lin et al., 2024)以及多變量(Chiou et al., 2014; Happ and Greven, 2018)等情形。在下文中,我們沿用其原始論文(Yao et al., 2005)中的命名,將此類(lèi)方法稱(chēng)為"PACE 方法"。PACE 方法在每個(gè)缺失位置僅產(chǎn)生一個(gè)插補(bǔ)值,且不提供不確定性量化,因此屬于"單一插補(bǔ)"方法。由于單一插補(bǔ)將重構(gòu)后的軌跡視為真實(shí)值,下游分析中的不確定性度量往往過(guò)于樂(lè)觀,尤其在數(shù)據(jù)嚴(yán)重稀疏的情況下(Rao and Reimherr, 2021; Petrovich et al., 2022)。
相比之下,多重插補(bǔ)框架(Rubin, 1996; Schafer, 1999)通過(guò)生成多個(gè)合理的缺失函數(shù)型觀測(cè)補(bǔ)全方案,顯式地納入插補(bǔ)不確定性。這些補(bǔ)全數(shù)據(jù)集之間的變異反映了插補(bǔ)過(guò)程固有的不確定性,從而使得下游分析的推斷更為有效。針對(duì)稀疏函數(shù)型數(shù)據(jù),已有若干多重插補(bǔ)方法被提出。具體而言,Petrovich 等人(2022)提出了一種頻率學(xué)派的多重插補(bǔ)程序,該方法利用標(biāo)量結(jié)局變量的信息,假設(shè)函數(shù)型協(xié)變量與結(jié)局之間服從廣義可加模型,并從相應(yīng)的條件分布中抽取插補(bǔ)值。Rao 和 Reimherr(2021)改進(jìn)了 missForest 算法,使其能夠處理函數(shù)型協(xié)變量,包括針對(duì)函數(shù)型數(shù)據(jù)的特定預(yù)處理及基于 PACE 的初始化策略。He 等人(2011)通過(guò)函數(shù)型混合效應(yīng)框架聯(lián)合建模函數(shù)型與標(biāo)量協(xié)變量,并基于吉布斯采樣開(kāi)發(fā)了一種貝葉斯多重插補(bǔ)策略。Jang 等人(2021)提出了一種針對(duì)雙變量函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)方法,該方法利用了兩個(gè)函數(shù)型預(yù)測(cè)變量之間的相關(guān)結(jié)構(gòu)。盡管這些多重插補(bǔ)方法在其各自適用情境下有效,但它們?cè)诓逖a(bǔ)過(guò)程中均需要額外的觀測(cè)信息,例如標(biāo)量結(jié)局、標(biāo)量協(xié)變量或輔助函數(shù)型變量。此外,大多數(shù)現(xiàn)有方法僅關(guān)注單層函數(shù)型數(shù)據(jù),其在更復(fù)雜結(jié)構(gòu)數(shù)據(jù)上的表現(xiàn)尚不明確。
因此,針對(duì)稀疏函數(shù)型數(shù)據(jù)的多重插補(bǔ)方法仍發(fā)展不足。現(xiàn)有方法通常依賴(lài)輔助信息進(jìn)行插補(bǔ)。當(dāng)此類(lèi)輔助信息不可得,或其與函數(shù)型數(shù)據(jù)的關(guān)系被錯(cuò)誤設(shè)定時(shí),插補(bǔ)性能便值得懷疑。此外,據(jù)我們所知,目前尚無(wú)任何針對(duì)更復(fù)雜函數(shù)型數(shù)據(jù)結(jié)構(gòu)(如多路函數(shù)型數(shù)據(jù))的多重插補(bǔ)方法。多路數(shù)據(jù)(亦稱(chēng)多維張量數(shù)據(jù))由兩個(gè)以上維度索引的觀測(cè)構(gòu)成(例如:個(gè)體 × 特征 × 訪視),并自然出現(xiàn)在神經(jīng)影像(Lynch and Chen, 2018)、可穿戴設(shè)備(Leroux et al., 2024)和基因組學(xué)(Li and Lock, 2025)等現(xiàn)代應(yīng)用中。當(dāng)其中某一維度為連續(xù)變量(如時(shí)間或空間)時(shí),數(shù)據(jù)即成為多路函數(shù)型數(shù)據(jù)。近期,Jiang, Li 和 Lock(2025)提出了一種針對(duì)張量數(shù)組的貝葉斯多重插補(bǔ)算法(BAMITA),該方法通過(guò)低秩 CANDECOMP/PARAFAC(CP)分解對(duì)張量數(shù)據(jù)進(jìn)行插補(bǔ)。然而,BAMITA 針對(duì)的是離散張量數(shù)組,未納入函數(shù)型數(shù)據(jù)所需的平滑性約束。
為填補(bǔ)函數(shù)型數(shù)據(jù)多重插補(bǔ)方面的關(guān)鍵方法學(xué)空白,我們開(kāi)發(fā)了 BAMIFun:一種針對(duì)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)框架。具體而言,我們的模型(1)在貝葉斯多重插補(bǔ)框架中嵌入懲罰樣條,以約束軌跡平滑性,同時(shí)聯(lián)合量化特征函數(shù)的不確定性;(2)通過(guò)低秩 FPCA 表示對(duì)單層函數(shù)型數(shù)據(jù)執(zhí)行多重插補(bǔ),并依據(jù) Rubin 規(guī)則整合各次插補(bǔ)的估計(jì)結(jié)果,從而支持有效的下游推斷;(3)據(jù)我們所知,首次為多路函數(shù)型數(shù)據(jù)提供了多重插補(bǔ)程序,方法是針對(duì)函數(shù)型張量奇異值分解(FTSVD)模型(Han et al., 2024)開(kāi)發(fā)了一種貝葉斯采樣器。通過(guò)廣泛的模擬研究與真實(shí)數(shù)據(jù)應(yīng)用,我們表明:相較于 BAMITA,我們的 BAMIFun 模型在函數(shù)型數(shù)據(jù)上實(shí)現(xiàn)了顯著更高的插補(bǔ)精度;相較于 PACE 方法,其對(duì)插補(bǔ)條目的置信區(qū)間覆蓋率更優(yōu)。此外,BAMIFun 在下游推斷(例如函數(shù)型回歸)中表現(xiàn)出更高的穩(wěn)定性,顯著改善了覆蓋性質(zhì)。我們將模型進(jìn)一步應(yīng)用于真實(shí)世界數(shù)據(jù)集,包括:(1)來(lái)自美國(guó)國(guó)家健康與營(yíng)養(yǎng)調(diào)查(NHANES)的體力活動(dòng)數(shù)據(jù)集;(2)縱向收集的嬰兒腸道微生物組數(shù)據(jù)集。兩項(xiàng)應(yīng)用的結(jié)果進(jìn)一步支持了模擬研究中觀察到的規(guī)律。
本文其余部分組織如下:第 2 節(jié)介紹背景與問(wèn)題設(shè)定;第 3 節(jié)提出針對(duì)單層函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)算法;第 4 節(jié)將該框架擴(kuò)展至多路函數(shù)型數(shù)據(jù),并介紹相應(yīng)的貝葉斯模型,多重插補(bǔ)算法詳見(jiàn)補(bǔ)充材料;第 5 節(jié)與第 6 節(jié)通過(guò)模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)評(píng)估所提出的 BAMIFun 方法,并與 BAMITA 及 PACE 進(jìn)行比較;第 7 節(jié)總結(jié)并討論。
2 符號(hào)與設(shè)定
![]()
![]()
3 單層函數(shù)型數(shù)據(jù)
3.1 模型
![]()
![]()
![]()
![]()
![]()
![]()
![]()
3.2 基于完整數(shù)據(jù)的吉布斯采樣器
![]()
3.3 貝葉斯函數(shù)型插補(bǔ)算法
![]()
![]()
![]()
![]()
3.4 插補(bǔ)與下游分析的統(tǒng)計(jì)推斷
![]()
![]()
4 多路函數(shù)型數(shù)據(jù)
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
在此,我們沿第三維度對(duì)張量進(jìn)行矩陣化,因?yàn)樵摼S度對(duì)應(yīng)于函數(shù)型觀測(cè)值。在補(bǔ)充材料第 3 節(jié)中,我們給出了模型 (9) 下針對(duì)多路函數(shù)型數(shù)據(jù)的吉布斯采樣器以及相應(yīng)的貝葉斯多重插補(bǔ)算法。
5 模擬實(shí)驗(yàn)
5.1 單層函數(shù)型數(shù)據(jù)的插補(bǔ)性能
5.1.1 數(shù)據(jù)生成機(jī)制
![]()
![]()
5.1.3 結(jié)果
圖 1 報(bào)告了各方法的插補(bǔ)均方誤差(MSE)和覆蓋率。對(duì)于 MSE,當(dāng)缺失比例為 80% 時(shí),我們的 BAMIFun 算法表現(xiàn)與 PACE 相當(dāng)。在 90% 缺失率下,對(duì)于小樣本量( n = 100 ),它顯示出略大的 MSE,但隨著 n 增加,差異逐漸縮小。在極高的缺失率下,我們的 BAMIFun 方法起初的 MSE 高于頻率學(xué)派方法;然而,隨著樣本量增大,差距縮小。在所有設(shè)置中,納入平滑性約束使我們的 BAMIFun 算法在插補(bǔ)精度方面始終優(yōu)于 BAMITA。對(duì)于 95% 置信/可信區(qū)間的覆蓋率,我們的 BAMIFun 方法保持接近名義水平(約 95%)的覆蓋率,顯著高于 PACE。當(dāng)樣本量較小時(shí),BAMITA 表現(xiàn)出覆蓋率不足,這可能是由于其較大的 MSE 所致。盡管其覆蓋率隨樣本量增加而改善,但仍劣于所提出的貝葉斯方法。
![]()
![]()
5.2 基于插補(bǔ)后函數(shù)型數(shù)據(jù)的下游分析
5.2.1 數(shù)據(jù)生成機(jī)制
![]()
![]()
![]()
5.2.3 模擬結(jié)果
圖 2 展示了基于插補(bǔ)后函數(shù)型數(shù)據(jù)的 SoFR 系數(shù)估計(jì)結(jié)果。在估計(jì)的 SoFR 系數(shù)的相對(duì)積分平方誤差 (ISE) 方面,我們的 BAMIFun 方法在大多數(shù)模擬場(chǎng)景中均表現(xiàn)出更優(yōu)的性能。與 PACE 算法相比,我們的算法從樣本量的增加中獲益更多。在某些場(chǎng)景下,PACE 估計(jì)量的均方誤差 (MSE) 甚至隨著樣本量的增加而增加。關(guān)于覆蓋率,BAMIFun 的表現(xiàn)始終優(yōu)于 PACE 算法,后者表現(xiàn)出系統(tǒng)性的覆蓋率不足。這些發(fā)現(xiàn)強(qiáng)調(diào)了所提出的多重插補(bǔ)方法的優(yōu)勢(shì),該方法恰當(dāng)?shù)乜紤]了插補(bǔ)的不確定性,并在下游分析中導(dǎo)出了更可靠的區(qū)間估計(jì)。在補(bǔ)充材料第 3 節(jié)中,我們還展示了平滑參數(shù)通過(guò)交叉驗(yàn)證確定的 BAMIFun 算法的結(jié)果,其結(jié)論與第一個(gè)實(shí)驗(yàn)一致。
![]()
5.3 多路函數(shù)型數(shù)據(jù)的插補(bǔ)性能
5.3.1 數(shù)據(jù)生成機(jī)制
![]()
5.3.2 結(jié)果
我們將我們的 BAMIFun 算法與基于頻率學(xué)派多水平 FPCA(MFPCA)框架(Di et al., 2009)的 PACE 方法進(jìn)行比較。我們未將 BAMITA 納入此比較,因?yàn)槠湓谇笆鰧?shí)驗(yàn)中已被證實(shí)不適用于函數(shù)型數(shù)據(jù)設(shè)定。針對(duì)每個(gè)模擬場(chǎng)景,我們進(jìn)行了 500 次重復(fù)實(shí)驗(yàn)。對(duì)于貝葉斯方法,我們同時(shí)計(jì)算了插補(bǔ)元素的均方誤差(MSE)和經(jīng)驗(yàn)覆蓋率。對(duì)于 PACE 方法,由于現(xiàn)有的 R 語(yǔ)言實(shí)現(xiàn)未提供預(yù)測(cè)函數(shù)型元素的置信區(qū)間,我們僅報(bào)告其均方誤差。
模擬結(jié)果總結(jié)于表 1。對(duì)于具有低秩結(jié)構(gòu)的多水平函數(shù)型數(shù)據(jù),BAMIFun 算法始終優(yōu)于 PACE 方法。
![]()
相比之下,當(dāng)潛在的函數(shù)型結(jié)構(gòu)并非低秩時(shí),BAMIFun 算法的均方誤差(MSE)略高于 PACE。然而,在所有模擬設(shè)定中,BAMIFun 算法的 95% 置信區(qū)間覆蓋率均接近名義水平,即便在無(wú)低秩結(jié)構(gòu)的情形下亦是如此。這些結(jié)果凸顯了 BAMIFun 算法在不同數(shù)據(jù)生成機(jī)制下的穩(wěn)健性與廣泛適用性。
6 案例研究
6.1 單層函數(shù)型數(shù)據(jù)
針對(duì)單層函數(shù)型數(shù)據(jù)集,我們將所提出的 BAMIFun 算法應(yīng)用于美國(guó)國(guó)家健康與營(yíng)養(yǎng)調(diào)查(NHANES)的體力活動(dòng)數(shù)據(jù),并將插補(bǔ)性能與以下方法進(jìn)行比較:(1) PACE 算法,以及 (2) 未納入數(shù)據(jù)集函數(shù)型特征的貝葉斯多重插補(bǔ)算法 BAMITA。NHANES 是由美國(guó)疾病控制與預(yù)防中心開(kāi)展的一項(xiàng)全國(guó)性項(xiàng)目,旨在監(jiān)測(cè)美國(guó)成人和兒童的健康與營(yíng)養(yǎng)狀況(Cui et al., 2021; Cui, Leroux, Smirnova and Crainiceanu, 2022; Cui, Thompson, Carroll and Ruppert, 2022)。在本分析中,我們使用了 2011–2012 和 2013–2014 周期的數(shù)據(jù)(Crainiceanu et al., 2024)。
![]()
我們將每種場(chǎng)景重復(fù) 100 次,并在表 2 中總結(jié)了 MSE 和覆蓋率。在極端缺失情況下,BAMIFun 算法產(chǎn)生的 MSE 略高,盡管當(dāng)缺失比例降低至約 95% 時(shí),這一差距會(huì)縮小。在所有缺失水平下,BAMIFun 算法始終為估計(jì)的 95% 可信區(qū)間提供接近名義水平的經(jīng)驗(yàn)覆蓋率。相比之下,基于 FPCA 的 PACE 算法在所有設(shè)定下的覆蓋率都低得多。
![]()
6.2 多路函數(shù)型數(shù)據(jù)
我們以嬰兒腸道微生物組數(shù)據(jù)集為例,說(shuō)明多路函數(shù)型數(shù)據(jù)的應(yīng)用。人類(lèi)腸道棲息著一個(gè)復(fù)雜且動(dòng)態(tài)的微生物生態(tài)系統(tǒng),該系統(tǒng)在生命早期迅速演化,并在免疫發(fā)育和整體健康中發(fā)揮關(guān)鍵作用。我們分析了一項(xiàng)針對(duì) 52 名入住新生兒重癥監(jiān)護(hù)病房(NICU)的早產(chǎn)兒的縱向研究數(shù)據(jù),該研究在嬰兒出生后的前三個(gè)月內(nèi)重復(fù)收集了糞便樣本(Cong et al., 2017)。不同嬰兒的采樣時(shí)間各異,從而產(chǎn)生了不規(guī)則觀測(cè)的縱向剖面。微生物組成通過(guò) 16S rRNA 測(cè)序進(jìn)行量化,并在屬(genus)水平上匯總相對(duì)豐度,最終在所有樣本中共識(shí)別出 152 個(gè)獨(dú)特的屬。經(jīng)過(guò)標(biāo)準(zhǔn)質(zhì)量控制并過(guò)濾掉稀有分類(lèi)單元后,數(shù)據(jù)形成了一個(gè)以受試者、時(shí)間和微生物屬為索引的三路數(shù)組,這自然地引出了多路函數(shù)型表示:即每位嬰兒都與一組隨時(shí)間變化的、屬特異性的豐度軌跡相關(guān)聯(lián)。我們采用了標(biāo)準(zhǔn)的預(yù)處理技術(shù),并對(duì)數(shù)據(jù)集應(yīng)用了中心對(duì)數(shù)比(clr)變換。
Jiang, Li 和 Lock(2025)也曾使用該嬰兒腸道微生物組數(shù)據(jù)集。然而,由于缺失比例極高且受時(shí)間限制,他們將連續(xù)幾天的結(jié)果進(jìn)行了聚合,最終得到 30 個(gè)時(shí)間區(qū)間。相比之下,我們分析了原始數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)包含在 118 天內(nèi)收集的測(cè)量值。所得的多路函數(shù)型數(shù)據(jù)集維度為 52×152×118,其中 91.1% 的條目因研究設(shè)計(jì)而未被觀測(cè)到,這對(duì)插補(bǔ)構(gòu)成了巨大挑戰(zhàn)。例如,多水平 FPCA 方法(如 refund 包中所實(shí)現(xiàn)的)在此設(shè)定下并不適用,因?yàn)槟承┦茉囌?- 屬組合僅包含一個(gè)觀測(cè)時(shí)間點(diǎn)。
我們?cè)u(píng)估了以下算法的插補(bǔ)性能:(i) 未顯式建模函數(shù)型結(jié)構(gòu)的貝葉斯多重插補(bǔ)(BAMITA);(ii) 針對(duì)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)(BAMIFun),其中平滑參數(shù)被視為未知量并賦予無(wú)信息先驗(yàn)。在補(bǔ)充材料中,我們還展示了通過(guò)交叉驗(yàn)證選擇平滑參數(shù)的 BAMIFun 算法結(jié)果。頻率學(xué)派的多水平 FPCA 方法未被納入考慮,因?yàn)楝F(xiàn)有軟件實(shí)現(xiàn)無(wú)法處理如此極端缺失水平的數(shù)據(jù)集。由于交叉驗(yàn)證已在前述模擬研究和應(yīng)用中得到評(píng)估,且為降低計(jì)算成本,我們未使用交叉驗(yàn)證來(lái)選擇主成分?jǐn)?shù)量。相反,我們將主成分?jǐn)?shù)量從 10 變化至 38,并呈現(xiàn)相應(yīng)的結(jié)果。
針對(duì)每個(gè)模擬實(shí)驗(yàn),我們隨機(jī)抽取 30% 的已觀測(cè)條目作為測(cè)試集,并對(duì)剩余的已觀測(cè)條目應(yīng)用插補(bǔ)方法。對(duì)于每個(gè)主成分?jǐn)?shù)量,我們將實(shí)驗(yàn)重復(fù) 100 次,并在圖 3 中報(bào)告測(cè)試集上的平均插補(bǔ)均方誤差(MSE)。我們的 BAMIFun 算法在所有主成分?jǐn)?shù)量下均始終優(yōu)于 BAMITA 算法。此外,其對(duì)插補(bǔ)條目的覆蓋率達(dá)到了接近名義水平的合理范圍(約 93%)。
![]()
7 討論
在本文中,我們開(kāi)發(fā)了 BAMIFun:一種針對(duì)稀疏觀測(cè)函數(shù)型數(shù)據(jù)的貝葉斯多重插補(bǔ)框架,涵蓋單層與多路函數(shù)型場(chǎng)景。所提出的 BAMIFun 算法為重構(gòu)不完整軌跡提供了一種嚴(yán)謹(jǐn)?shù)姆椒ǎ瑫r(shí)明確量化了插補(bǔ)過(guò)程所引入的不確定性。我們的方法解決了廣泛使用的基于 FPCA 的插補(bǔ)方法(PACE)的一個(gè)關(guān)鍵局限,即這些方法傾向于將插補(bǔ)后的曲線視為真實(shí)已知值,從而低估了下游分析中的不確定性。如模擬研究所示,針對(duì)單層函數(shù)型數(shù)據(jù),我們的 BAMIFun 算法達(dá)到了與 PACE 方法相近的插補(bǔ)精度。然而,通過(guò)有效納入插補(bǔ)不確定性,我們的方法獲得了接近名義水平的覆蓋率,并在下游分析中展現(xiàn)出更優(yōu)的性能。針對(duì)多路函數(shù)型數(shù)據(jù),我們采用了 Han 等人(2024)提出的低秩分解模型,并提出了一種新穎的貝葉斯插補(bǔ)算法。由于該模型與 MFPCA 模型存在差異,兩種方法的插補(bǔ)精度取決于數(shù)據(jù)的具體特征,這在模擬中已得到證實(shí)。
案例研究進(jìn)一步印證了我們的模擬結(jié)果。在 NHANES 研究中,在現(xiàn)實(shí)的高比例人為缺失設(shè)定下(最高達(dá) 97.5%),貝葉斯算法始終為插補(bǔ)值維持了名義水平的覆蓋率,而基于 FPCA 的單一插補(bǔ)則出現(xiàn)了嚴(yán)重的覆蓋率不足。盡管貝葉斯方法產(chǎn)生的均方誤差(MSE)略高,但隨著缺失比例的降低,兩者差距逐漸縮小,且覆蓋率在所有場(chǎng)景下均保持穩(wěn)定。與模擬實(shí)驗(yàn)一致,我們的 BAMIFun 算法在插補(bǔ)精度與覆蓋率兩方面均優(yōu)于 BAMITA 算法。在嬰兒腸道微生物組研究中,我們的 BAMIFun 算法在 MSE 指標(biāo)上顯著優(yōu)于 BAMITA 算法。
我們的貝葉斯算法通過(guò)基展開(kāi)為函數(shù)型數(shù)據(jù)施加平滑性約束;然而,其性能可能依賴(lài)于所選樣條基的類(lèi)型。近期,Sartini 等人(2025)提出了一種替代的 FPCA 框架,該框架在 Stiefel 流形上對(duì)主成分進(jìn)行參數(shù)化。將其方法擴(kuò)展至貝葉斯多重插補(bǔ)將是未來(lái)研究的一個(gè)有趣方向。
原文鏈接:https://arxiv.org/pdf/2605.08018
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.