三十年期我們用Oracle數(shù)據(jù)庫的時候是盲目用,那時候用得就很不好,甚至把重啟數(shù)據(jù)庫都當(dāng)成一件恐怖的事情來做。如果不是高手,都不敢輕易重啟數(shù)據(jù)庫,生怕數(shù)據(jù)庫重啟后起不來了。當(dāng)時江湖中這種傳聞也是很多的,我有一次重啟了二十多分鐘還沒起來,只能眼巴巴地看著空空蕩蕩的日志,最后一次日志輸出還是十多分鐘之前。后來我對Oracle了解一些了,知道了每一行啟動日志的含義,也就知道了當(dāng)時系統(tǒng)在清理臨時段,因為數(shù)據(jù)庫好幾年沒重啟過了,所以打掃工作很耗時。再后來了解了REDO和CHECKPOINT的原理,知道數(shù)據(jù)庫重啟時一個沒風(fēng)險的活,就再也不怕去給客戶重啟數(shù)據(jù)庫了。
運(yùn)維最大的恐懼來自于未知,你不理解數(shù)據(jù)庫的原理,沒有相關(guān)的運(yùn)維經(jīng)驗,那么使用數(shù)據(jù)庫還是一件十分恐怖的事情。最大的問題是心里沒底,當(dāng)系統(tǒng)出問題的時候無法定位問題,解決問題。后來有了MOS,一切好了很多,大多數(shù)問題借助MOS都能搞定了。
![]()
前幾天我說我在標(biāo)注國產(chǎn)數(shù)據(jù)庫的運(yùn)維知識,怎么標(biāo)注呢?實際上說簡單也簡單,說復(fù)雜也夠復(fù)雜。就像我標(biāo)注的Oracle LOG_BUFFER參數(shù)這個案例,僅僅從官方文檔中把Oracle關(guān)于LOG_BUFFER的參數(shù)描述復(fù)制到這個地方是不夠用的,因為這里僅僅包含了“知識”,知識是正確而無法直接用于運(yùn)維實踐中的東西。我們必須把“經(jīng)驗”標(biāo)注進(jìn)去,才真正有用。“經(jīng)驗”不一定百分百準(zhǔn)確,甚至還可能有一定的局限性,遠(yuǎn)沒有“知識”的準(zhǔn)確性高,但是經(jīng)驗?zāi)馨l(fā)揮的作用遠(yuǎn)超“知識”。在關(guān)于LOG_BUFFER的標(biāo)注中,不僅要列出官方的知識,還要把LOG_BUFFER與log buffer space 等待與每秒REDO生成量指標(biāo)之間的關(guān)系講清楚,AI才能真正理解這個參數(shù)的定義與使用方法,才能在AI診斷中準(zhǔn)確地對與此參數(shù)相關(guān)的問題分析清楚。
![]()
這是一個系統(tǒng)工程,Oracle數(shù)據(jù)庫的關(guān)鍵參數(shù)有200多個,指標(biāo)有四五百個,等待事件有1500左右,如果能把這些知識都標(biāo)注準(zhǔn)確了,那么對Oracle數(shù)據(jù)庫的診斷分析能力也就相當(dāng)高了,超越某些中等水平的專家應(yīng)該還是可能的。如果只做Oracle還好,如果說還要做20多款國產(chǎn)數(shù)據(jù)庫,那么這個工作量就是很龐大了。目前我們標(biāo)注過的實體節(jié)點(diǎn)已經(jīng)超過6萬個,還沒有覆蓋所有的國產(chǎn)數(shù)據(jù)庫。
當(dāng)然最后AIOPS的能力也受限于標(biāo)注知識的團(tuán)隊的整體能力,如果能力不足,最后做出來的產(chǎn)品能力也就有限了。這也是AI Machine Labs才不到50人,還沒推出任何產(chǎn)品,就能融到20億美金,估值一下子高達(dá)120億美金的主要原因。
目前在進(jìn)行國產(chǎn)庫的知識圖譜的標(biāo)注的時候,我們遇到了很多瓶頸,那就是國產(chǎn)數(shù)據(jù)庫的知識不透明,經(jīng)驗積累極少,從基層運(yùn)維案例中提煉知識和經(jīng)驗的成本太高。等國產(chǎn)數(shù)據(jù)庫廠商搞出自己的MOS不知道要猴年馬月了,甚至我都看不到在未來的5-10年里,某個國產(chǎn)數(shù)據(jù)庫廠商能打造出一款水平達(dá)到20年前Oracle Metalink水準(zhǔn)的知識庫。依托生態(tài)可能是一條更好的路子,去年這一年我也不斷在和各個數(shù)據(jù)庫廠商溝通,能不能一起來做這件事。雖然略有成果,但是還是太少。要想打造出與商業(yè)產(chǎn)品類似的知識庫,光憑我們這種合作是遠(yuǎn)遠(yuǎn)不夠的。在中國,缺乏這方面的戰(zhàn)略投資,因此在這個領(lǐng)域無法做得更好。
目前一切只能依托企業(yè)用戶自身和第三方合作伙伴,靠著企業(yè)用戶花錢來做這些事情了。但是地主家也沒有余糧的時候,想讓企業(yè)在這方面花大錢也是不現(xiàn)實的。前陣子一個客戶說他們手頭有某國產(chǎn)數(shù)據(jù)庫的1萬多個故障告警的案例,從中應(yīng)該能夠提取出不少運(yùn)維經(jīng)驗,不過這個提取誰來做?誰出錢,做出來產(chǎn)權(quán)歸屬是什么?往下一深談,問題還是一堆。有朋友感嘆道:只能讓時間來解決了。我的觀點(diǎn)有些不同,沒有錢,光耗時間,是解決不了這個問題的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.