面試官問數(shù)據(jù)湖架構(gòu),其實(shí)只想聽四個東西:分層存儲怎么設(shè)計(jì)、數(shù)據(jù)怎么流進(jìn)去、湖和倉庫怎么選、以及你的答案有沒有覆蓋粒度、冪等、血緣、對賬這些檢查點(diǎn)。上來就報Databricks或者Snowflake名字的,這一輪基本就掛了。
這套東西不復(fù)雜。最經(jīng)典的考法是"從零設(shè)計(jì)一個分析湖",標(biāo)準(zhǔn)答案是三層 medallion 架構(gòu):bronze層原樣追加源數(shù)據(jù),silver層做去重、類型轉(zhuǎn)換和業(yè)務(wù)主鍵對齊,gold層輸出星型模型的事實(shí)表維度表給BI用。每層的服務(wù)等級、讀寫權(quán)限、保留策略都不一樣。Databricks叫青銅白銀黃金,AWS叫raw/curated/consumption,微軟叫l(wèi)anding/refined/analytics,形狀是一樣的,名字隨便換。
![]()
第二層考數(shù)據(jù)怎么進(jìn)去。套路是 ingestion → 元數(shù)據(jù)目錄 → 計(jì)算引擎,底下掛對象存儲。CDC從Postgres進(jìn)來也好,埋點(diǎn)日志進(jìn)來也好,都是這個管道。面試官想看的是你知不知道怎么保證exactly-once,怎么讓下游能查到"這張表現(xiàn)在有哪些文件"。
第三層是湖、云數(shù)倉、lakehouse三選一。決策點(diǎn)在于開放表格式——Iceberg、Delta、Hudi。需要支持機(jī)器學(xué)習(xí)特征工程、靈活schema演進(jìn)的往湖走;需要嚴(yán)格ACID、純SQL分析的往warehouse走;想兩邊都沾的選lakehouse。但大部分大廠其實(shí)是混著用:湖接高吞吐的原始數(shù)據(jù),warehouse或lakehouse接治理好的分析負(fù)載。
最后一層是答案的結(jié)構(gòu)。合格的回答必須主動提:數(shù)據(jù)粒度怎么定、寫入怎么冪等、血緣怎么追蹤、聚合結(jié)果怎么和源頭對賬。漏一個就被追問,追不上就扣分。這四個檢查點(diǎn)跟具體廠商無關(guān),是面試官心里的評分卡。
整個面試的核心就一句話:能用原理解釋清楚,比知道十個產(chǎn)品名字有用得多。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.