![]()
智東西
作者 陳駿達(dá)
編輯 心緣
在公眾的傳統(tǒng)認(rèn)知里,AI數(shù)據(jù)標(biāo)注始終帶著某種“數(shù)字流水線”的色彩。
它通常意味著坐在電腦前,重復(fù)處理著圖片、語音或文本,比如給自動(dòng)駕駛圖像逐一框出行人與車輛,為語音系統(tǒng)一句句校對(duì)字幕,或者按照既定規(guī)則為數(shù)據(jù)打上標(biāo)簽。其低門檻、低薪資、機(jī)械性的特質(zhì),堪比AI時(shí)代的“電子廠”。
但當(dāng)大模型浪潮席卷AI行業(yè)之后,數(shù)據(jù)標(biāo)注行業(yè)開始出現(xiàn)一種出人意料的變化。雖然傳統(tǒng)數(shù)據(jù)標(biāo)注工作仍有龐大需求,但越來越多AI企業(yè),尤其是頭部大模型廠商,正在尋找一種更有技術(shù)含量的新型標(biāo)注員。
如今,阿里、字節(jié)、DeepSeek、MiniMax等企業(yè)的一些相關(guān)崗位,不再冠以“數(shù)據(jù)標(biāo)注”的名稱,而是改名為“數(shù)據(jù)百曉生”、“AI出題專家”、“數(shù)據(jù)煉金師”等等。
能力要求也隨之變化。不少崗位的學(xué)歷要求提高到碩士及以上,擁有法律、金融、醫(yī)學(xué)、編程、語言學(xué)等專業(yè)背景,或是具備豐富從業(yè)經(jīng)驗(yàn)和競賽經(jīng)歷的人才更為吃香。
![]()
要求提升后,這些崗位的薪資待遇也有可觀的上浮。在Boss直聘等招聘平臺(tái)上,金融、法律、醫(yī)學(xué)等垂類任務(wù)已經(jīng)出現(xiàn)每小時(shí)500-800元的報(bào)價(jià)。即便是在大廠做外包崗,這類崗位的月薪也從傳統(tǒng)數(shù)據(jù)標(biāo)注三四千元的水平,提高到8000-10000元左右的水平。
大模型時(shí)代的數(shù)據(jù)標(biāo)注,正在成為一種復(fù)雜得多的職業(yè)。而這一變化背后,其實(shí)對(duì)應(yīng)著AI產(chǎn)業(yè)自身的一次轉(zhuǎn)向。
一、AI數(shù)據(jù)標(biāo)注,為什么突然需要專家?
大模型行業(yè)的數(shù)據(jù)供給模式,正在發(fā)生變化。
早期大模型的訓(xùn)練高度依賴海量公開數(shù)據(jù),廠商抓取互聯(lián)網(wǎng)文本、圖片和視頻,讓模型學(xué)習(xí)語言規(guī)律與世界知識(shí)。在這一階段,算力、參數(shù)和數(shù)據(jù)規(guī)模很大程度上決定了模型能力上限,這也構(gòu)成了預(yù)訓(xùn)練階段的Scaling Law。
然而,互聯(lián)網(wǎng)上的數(shù)據(jù)終歸是有限的。2024年,OpenAI前首席科學(xué)家Ilya Sutskever就曾提出一個(gè)觀點(diǎn),互聯(lián)網(wǎng)上用于訓(xùn)練模型的數(shù)據(jù)即將枯竭,這可能會(huì)終結(jié)我們過去所熟知的預(yù)訓(xùn)練范式。
具體到中文上,這一數(shù)據(jù)短缺的問題可能會(huì)更嚴(yán)重。阿里研究院發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書》顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異,英文語料占比高達(dá)59.8%,而中文語料僅占1.3%。
同時(shí),互聯(lián)網(wǎng)數(shù)據(jù)并非天然的高質(zhì)量資源,其中大量內(nèi)容存在重復(fù)、噪聲、錯(cuò)誤甚至相互矛盾的語料。模型可以靠互聯(lián)網(wǎng)數(shù)據(jù)學(xué)習(xí)語言模式,卻未必能夠形成可靠判斷。
![]()
▲某大廠的數(shù)據(jù)標(biāo)注崗位要求中,提到了高質(zhì)量中文數(shù)據(jù)的短缺
合成數(shù)據(jù)雖被視為緩解這一問題的路徑,但難以根本解決問題。模型生成的數(shù)據(jù)受限于自身能力邊界,可以擴(kuò)展已有知識(shí),卻難以創(chuàng)造超出自身認(rèn)知的判斷標(biāo)準(zhǔn)。
因此,后訓(xùn)練階段的Scaling逐漸成為行業(yè)重點(diǎn)。這一階段,模型能力的提升越來越依賴人工反饋,包括模型評(píng)測、偏好數(shù)據(jù)構(gòu)建以及RLHF等工作。模型需要人類告訴它,什么答案更優(yōu),什么邏輯更符合現(xiàn)實(shí),什么表達(dá)更符合專業(yè)標(biāo)準(zhǔn)。
而在金融、法律、醫(yī)療等專業(yè)領(lǐng)域,以及推理、創(chuàng)意寫作等復(fù)雜任務(wù)中,只有具備深厚專業(yè)知識(shí)和判斷能力的人,才能產(chǎn)出真正高質(zhì)量的數(shù)據(jù),反哺模型的能力提升。
二、時(shí)薪可達(dá)500元,但學(xué)歷并非通關(guān)密碼
隨著后訓(xùn)練重要性的持續(xù)提升,從2025年下半年開始,字節(jié)、阿里等國內(nèi)大廠和DeepSeek、MiniMax、智譜等AI頭部廠商,陸續(xù)在招聘平臺(tái)、高校社群和社交媒體上宣傳自家的專家數(shù)據(jù)平臺(tái)或是高級(jí)數(shù)據(jù)標(biāo)注崗位,吸引更多專業(yè)人才加入。
為了理解這類新型數(shù)據(jù)標(biāo)注工作的具體內(nèi)容,智東西采訪了兩位參與者。他們進(jìn)入行業(yè)的路徑不同,所處職業(yè)階段也不相同,對(duì)工作的感受更存在明顯差異,但都在參與同一件事:幫助模型學(xué)習(xí)如何判斷、理解與表達(dá)。
去年,擁有十多年金融和互聯(lián)網(wǎng)從業(yè)經(jīng)歷的Molly,在社交平臺(tái)上看到字節(jié)專家數(shù)據(jù)平臺(tái)Xpert的招募信息后,隨即投遞了簡歷。
▲字節(jié)專家數(shù)據(jù)標(biāo)注平臺(tái)Xpert
真正進(jìn)入平臺(tái)之前,她首先需要通過測試。候選人不僅要證明自身專業(yè)背景,還需要設(shè)計(jì)能夠“難倒模型”的問題。平臺(tái)會(huì)同時(shí)調(diào)用多個(gè)模型進(jìn)行驗(yàn)證,只有當(dāng)至少兩個(gè)模型回答失敗時(shí),題目才有機(jī)會(huì)被認(rèn)定為有效。
Molly并不覺得測試?yán)щy,但她也觀察到,不少參與測試的候選人會(huì)卡在這一環(huán)節(jié)。在她看來,原因并不只是學(xué)歷高低,而是真實(shí)行業(yè)經(jīng)驗(yàn)的差異。“很多碩博學(xué)生沒有真正的從業(yè)經(jīng)歷,所以很難設(shè)計(jì)出有行業(yè)深度的問題。”她說。
最終,Molly進(jìn)入了商科與金融方向的專家任務(wù)組。她提到,這類任務(wù)往往對(duì)應(yīng)真實(shí)業(yè)務(wù)場景。以投資盡調(diào)場景為例,多種模型會(huì)模擬機(jī)構(gòu)對(duì)項(xiàng)目開展評(píng)估,圍繞風(fēng)險(xiǎn)、運(yùn)營與商業(yè)可行性生成數(shù)份上萬字分析報(bào)告。
而她的工作,則是以金融從業(yè)者的視角,對(duì)這些結(jié)果進(jìn)行比較與判斷:哪份分析更符合真實(shí)業(yè)務(wù)邏輯,風(fēng)險(xiǎn)識(shí)別是否充分,評(píng)估框架是否貼近實(shí)際決策流程。完成選擇之后,工作并未結(jié)束。她還需要進(jìn)一步拆解判斷過程,從多個(gè)維度解釋依據(jù),并指出其他答案存在的問題。
這類任務(wù)采用時(shí)薪制,根據(jù)測試結(jié)果和專業(yè)能力進(jìn)行分級(jí)。Molly觀察到,在金融方向,300元至500元時(shí)薪并不罕見。
需要補(bǔ)充的是,這份工作的時(shí)薪并不能直接換算為月薪,其薪酬完全與工作量掛鉤,專家每天接多少任務(wù)、平臺(tái)每天放多少任務(wù),都會(huì)影響專家在一段時(shí)間內(nèi)的總收入。
在Xpert上,大多數(shù)任務(wù)都可以在線完成,但需要全程錄屏以防作弊,確保判斷來自真實(shí)專家,而非其他AI工具。
在Molly看來,這份工作的核心能力要求并不是學(xué)歷,而是長期積累的行業(yè)經(jīng)驗(yàn),真正做過投資、做過評(píng)估,才知道模型的問題在哪。
除了金融相關(guān)任務(wù),Molly有時(shí)也會(huì)主動(dòng)選擇一些時(shí)薪較低的邏輯題。在她眼里,這些任務(wù)更像桌游,因此做起來頗有趣味。
談起這些經(jīng)歷時(shí),Molly始終帶著一種明顯的興奮感。我們問她是否享受這份工作,她幾乎沒有猶豫地說道:“很快樂。”
三、創(chuàng)意外殼之下,數(shù)據(jù)標(biāo)注仍是流水線?
不是所有人都像Molly那樣,將這份工作視為享受。
畢業(yè)于中國礦業(yè)大學(xué)的淵星在2025年5月以外包身份進(jìn)入一家互聯(lián)網(wǎng)大廠,從事AI小說方向的標(biāo)注工作,半年后離職。這是他人生中的第一份工作。他說:“在入職之前,我沒有任何工作經(jīng)驗(yàn),也沒有做過數(shù)據(jù)標(biāo)注。”
他所在的AI小說項(xiàng)目組剛成立不久,正處于缺人階段。相比成熟團(tuán)隊(duì)優(yōu)先招募有標(biāo)注經(jīng)驗(yàn)的從業(yè)者,這個(gè)組更看重寫作背景。
淵星恰好符合這一點(diǎn)。他有出版經(jīng)歷,也拿過一些寫作獎(jiǎng)項(xiàng),因此即使缺乏標(biāo)注經(jīng)驗(yàn),仍順利通過面試進(jìn)入團(tuán)隊(duì)。
但真正入職后,他發(fā)現(xiàn),這份工作的實(shí)際內(nèi)容與外界對(duì)“AI小說”的想象并不完全一致:拋去創(chuàng)意工作的外殼,其本質(zhì)上是一套高度細(xì)分的數(shù)據(jù)生產(chǎn)流程。
淵星所在的團(tuán)隊(duì)需要同時(shí)處理多個(gè)模型生成結(jié)果:同一個(gè)小說指令會(huì)被交給該大廠的模型以及其他競品模型作答,標(biāo)注員則負(fù)責(zé)逐條閱讀、比較,并依據(jù)規(guī)則判斷問題所在。
這份工作對(duì)專業(yè)能力有著不低的要求。團(tuán)隊(duì)里有大概一半人干過編劇,其他人則有網(wǎng)文創(chuàng)作、媒體投稿的經(jīng)歷,標(biāo)注員需要判斷人物行為是否符合設(shè)定、劇情推進(jìn)是否合理、沖突是否成立,一切都被拆解成細(xì)致的評(píng)分標(biāo)準(zhǔn)。
完成問題識(shí)別后,標(biāo)注員還要給模型輸出打分,并在部分項(xiàng)目中對(duì)文本進(jìn)行人工改寫,刪除冗余描寫、修補(bǔ)邏輯漏洞,或重新調(diào)整結(jié)構(gòu)。其中一項(xiàng)工作是為長篇小說“抽細(xì)綱”。一部十幾章、上萬字的小說,需要被逐章提煉成結(jié)構(gòu)化大綱,再作為模型擴(kuò)寫和訓(xùn)練的數(shù)據(jù)輸入。
從本質(zhì)上來看,這更像一種需要文學(xué)判斷力的流水線工作,任務(wù)高度重復(fù)、標(biāo)準(zhǔn)化。淵星認(rèn)為,標(biāo)注員在生態(tài)鏈中的位置很低。
淵星稱,他的工作時(shí)間是每天上午9:30到晚上6:30,中午有90分鐘休息時(shí)間,上下班時(shí)間彈性,基本不會(huì)加班。
盡管對(duì)文學(xué)審美和寫作能力有一定要求,但淵星的薪資水平并不高。他在北京工作,每月到手收入約為8000元,五險(xiǎn)一金按當(dāng)?shù)刈畹蜆?biāo)準(zhǔn)繳納。
四、同一份數(shù)據(jù)標(biāo)注,不同的職業(yè)現(xiàn)實(shí)
同樣從事數(shù)據(jù)標(biāo)注,Molly與淵星卻身處兩個(gè)截然不同的世界:一邊是高度專業(yè)、能獲得價(jià)值感的崗位,另一邊雖也有專業(yè)性要求,卻更像是枯燥壓抑的流水線。
這種分化,也塑造了他們對(duì)AI行業(yè)完全不同的理解。
Molly對(duì)這份工作抱有明顯認(rèn)同。在她看來,制造數(shù)據(jù)、訓(xùn)練AI本質(zhì)上是一種知識(shí)共享過程。金融專家、法律專家、心理咨詢師都在向模型輸入經(jīng)驗(yàn),而模型再以更低成本回流給社會(huì)。
在過去一年里,她明顯感受到模型迭代越來越快。金融領(lǐng)域里,監(jiān)管規(guī)則和行業(yè)變化頻繁,而早期模型經(jīng)常無法識(shí)別這些變化,如今類似問題已經(jīng)減少。
除了標(biāo)注工作外,Molly還將AI應(yīng)用到了她的另一個(gè)身份上。她經(jīng)營著一家心理咨詢工作室,過去,咨詢師需要花費(fèi)大量成本尋求專業(yè)督導(dǎo)(由經(jīng)驗(yàn)豐富的咨詢師對(duì)其他咨詢師的工作進(jìn)行評(píng)估和支持),而現(xiàn)在,她開始借助模型完成部分督導(dǎo)的需求。
她相信,這會(huì)讓專業(yè)服務(wù)變得更加普惠。
淵星的感受則更克制。他承認(rèn)模型在進(jìn)步,但這種進(jìn)步并不總是直觀,尤其在小說領(lǐng)域,半年時(shí)間里,他并未看到令人驚艷的變化。
更重要的是,他始終難以確認(rèn)自己的勞動(dòng)究竟產(chǎn)生了多大作用。模型吸收的是海量數(shù)據(jù),而他處理的只是極小部分。即便模型提升,他也無法清楚判斷,哪些改變真正來自自己的工作。
這種感覺,他形容為“黑箱”。勞動(dòng)存在,但成果距離自己很遠(yuǎn)。
淵星還在他的敘述中提到一個(gè)體驗(yàn)——“被挑刺”。在日常工作中,數(shù)據(jù)必須經(jīng)過質(zhì)檢員修改才能提交。質(zhì)檢員每改完一篇,都會(huì)在群里@標(biāo)注員并指出問題,群里幾乎全是問題反饋,從不說哪里寫得好。
然而,在小說標(biāo)注這種高度主觀的任務(wù)中,所謂“錯(cuò)誤”并不總是絕對(duì)的,而更像是不同理解之間的差異。但在流程中,它仍然會(huì)被呈現(xiàn)為需要修正的問題。
淵星觀察到,很多標(biāo)注員在工作中開始懷疑自己的價(jià)值,他們所處的工作氛圍也比較壓抑。在他工作的半年時(shí)間里,有兩位同事因此離職。
結(jié)語:誰在教會(huì)AI理解世界
如何高效地組織人類經(jīng)驗(yàn),正成為大模型下一階段競爭的關(guān)鍵因素。在這一過程中,像Molly和淵星這樣的參與者,構(gòu)成了連接模型與真實(shí)行業(yè)經(jīng)驗(yàn)的關(guān)鍵節(jié)點(diǎn):他們將自身的專業(yè)知識(shí)與判斷能力,按照易于模型理解與吸收的形式重新組織,再注入訓(xùn)練與反饋流程之中。
在大模型時(shí)代,這項(xiàng)工作不再以相對(duì)單一、固定的形態(tài)存在,而是被進(jìn)一步細(xì)化、拆解。從通用標(biāo)注走向領(lǐng)域分工,從簡單判斷走向復(fù)雜推理,從結(jié)果打分走向過程解釋,數(shù)據(jù)生產(chǎn)正在形成更精細(xì)的任務(wù)鏈條。
與此同時(shí),也需要看到這種新型知識(shí)工作給人帶來的差異體驗(yàn)。有人在其中獲得價(jià)值感,也有人在重復(fù)與標(biāo)準(zhǔn)化流程中被消耗。如何讓人的經(jīng)驗(yàn)被更有尊嚴(yán)地對(duì)待、讓專業(yè)判斷的價(jià)值被更清晰地看見,正在成為這個(gè)新生產(chǎn)體系中無法回避的問題。
注:Molly、淵星均為化名
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.