保觀 | 聚焦保險(xiǎn)創(chuàng)新
由于近期公眾號(hào)推送機(jī)制改變,歡迎您在公眾號(hào)首頁點(diǎn)擊右上【···】,將保觀設(shè)為“星標(biāo)”,及時(shí)跟蹤行業(yè)最新資訊
隨著人工智能技術(shù)的快速發(fā)展,大模型已經(jīng)成為驅(qū)動(dòng)金融行業(yè)生態(tài)變革的重要力量。在這一大背景下,如何科學(xué)、客觀地評(píng)估金融大模型的真實(shí)能力,成為全行業(yè)所關(guān)注的焦點(diǎn)。
近日,由上海人工智能實(shí)驗(yàn)室聯(lián)合金融行業(yè)權(quán)威機(jī)構(gòu)共同推出的CNFinBench評(píng)測榜單正式發(fā)布,引起了業(yè)內(nèi)的廣泛關(guān)注。
據(jù)悉,該榜單分別從金融專業(yè)知識(shí)、業(yè)務(wù)理解和分析、推理和計(jì)算、合規(guī)性和風(fēng)險(xiǎn)控制、應(yīng)用程序安全性五個(gè)核心維度,對(duì)國內(nèi)外主流大語言模型進(jìn)行了全方位的專業(yè)評(píng)估,為金融行業(yè)選擇大模型應(yīng)用提供了重要參考依據(jù)。
![]()
具體來看,本次榜單共收錄11款全球領(lǐng)先的金融大模型,涵蓋國內(nèi)外開源與閉源兩大類型。同時(shí)11款大模型在五大測評(píng)維度中各有側(cè)重,反映出不同研發(fā)主體在金融大模型領(lǐng)域的技術(shù)優(yōu)勢與布局方向。
具體來看,“金融專業(yè)知識(shí)問答”考察的是模型對(duì)金融概念、法規(guī)的掌握程度,DeepSeek-R1以73.5的單項(xiàng)得分排名第一;
“金融業(yè)務(wù)理解與分析”評(píng)估的是模型處理實(shí)際業(yè)務(wù)流程的能力,Gemini-2.5-Flash以65.2的單項(xiàng)得分排名第一;
“金融事實(shí)推理與計(jì)算”評(píng)估的是模型在復(fù)雜金融場景下的邏輯推演能力,PinganGPT-Qwen3-32B以78.0的單項(xiàng)得分排名第一;
“金融合規(guī)與風(fēng)險(xiǎn)控制”評(píng)估的是模型對(duì)監(jiān)管要求的敏感性與判斷力,Doubao-1.5-pro以57.4的單項(xiàng)得分排名第一;
“金融內(nèi)生與應(yīng)用安全”評(píng)估的是模型在應(yīng)用過程中的穩(wěn)定性和安全性,Gemini-2.5-Flash以99.7的單項(xiàng)得分排名第一。
其中由平安集團(tuán)推出的金融大模型PinganGPT-Qwen3-32B以綜合得分66.1分的成績摘得榜單第一名,成為本次測評(píng)中的最大亮點(diǎn)。在加速迭代的AI浪潮中,平安在金融領(lǐng)域多年沉淀的技術(shù)實(shí)力仍然不容小覷。
本文將對(duì)上榜的11款大模型進(jìn)行深度分析,解讀各模型的測評(píng)表現(xiàn)、技術(shù)特點(diǎn)等。
1.PinganGPT-Qwen3-32B
發(fā)布時(shí)間:2026年2月5日
綜合評(píng)分:66.1
PinganGPT-Qwen3-32B由中國平安旗下團(tuán)隊(duì)Omni-Sinitic研發(fā),于2026年2月5日正式發(fā)布,并在3月4日完成更新,作為一款閉源金融大模型,參數(shù)量僅32B,卻以66.1的綜合得分?jǐn)孬@榜單第一。
在測評(píng)表現(xiàn)上,該模型的金融專業(yè)知識(shí)評(píng)分為69.3分、業(yè)務(wù)理解和分析為56.7分、推理和計(jì)算為78分、合規(guī)性和風(fēng)險(xiǎn)控制為54.7分、應(yīng)用程序安全性為72分,其中推理和計(jì)算得分是五大測評(píng)維度中評(píng)分最高的一項(xiàng),其他維度得分同樣處于上游水平,全方位的優(yōu)異表現(xiàn)印證了平安集團(tuán)在金融垂直領(lǐng)域的技術(shù)積累。
具體來看,該款模型依托平安30萬億字節(jié)的海量金融數(shù)據(jù)、3.2 萬億高質(zhì)量文本語料訓(xùn)練而成,能夠?qū)崿F(xiàn)復(fù)雜金融場景下的精準(zhǔn)數(shù)值計(jì)算與嚴(yán)謹(jǐn)邏輯推理,如今已經(jīng)廣泛的應(yīng)用于平安生態(tài)內(nèi)的車險(xiǎn)報(bào)案、智能問數(shù)、費(fèi)用審核等97個(gè)實(shí)際業(yè)務(wù)場景。
此外,中國平安依托于全金融牌照和自主研發(fā)的金融大模型,將人工智能技術(shù)嵌入到客戶服務(wù)、風(fēng)險(xiǎn)減量、信貸風(fēng)控等多個(gè)領(lǐng)域,實(shí)現(xiàn)內(nèi)部效率重構(gòu)到外部生態(tài)賦能的完整閉環(huán)。截至2025年前三個(gè)季度,中國平安已沉淀30萬億字節(jié)數(shù)據(jù),覆蓋近2.50億個(gè)人客戶,超75億圖片語料,以海量數(shù)據(jù)為基礎(chǔ),讓AI持續(xù)拓展場景應(yīng)用的深度和廣度。
2.DeepSeek-R1
發(fā)布時(shí)間:2025年5月28日
綜合評(píng)分:66.0
DeepSeek-R1由DeepSeek研發(fā),于2025年5月28日正式發(fā)布,作為一款開源大模型,671B的超大參數(shù)量成為本次榜單的一大亮點(diǎn),并以66.0的綜合得分位居榜單第二名,充分展現(xiàn)出在金融大模型領(lǐng)域的強(qiáng)勁競爭力。
在測評(píng)表現(xiàn)上,該模型的金融專業(yè)知識(shí)評(píng)分為73.5分、業(yè)務(wù)理解和分析為54.4分、推理和計(jì)算為76.9分、合規(guī)性和風(fēng)險(xiǎn)控制為48.8分、應(yīng)用程序安全性為76.6分。其中金融專業(yè)知識(shí)問答是11家大模型中評(píng)分最高的,合規(guī)與風(fēng)險(xiǎn)控制得分稍低,也是與第一名拉開差距的關(guān)鍵因素之一。
具體來看,DeepSeek-R1最大的優(yōu)勢就是能夠在超大參數(shù)量支撐下,具備較強(qiáng)的知識(shí)儲(chǔ)備與推理能力,在金融專業(yè)知識(shí)的覆蓋度與準(zhǔn)確性上表現(xiàn)突出,但在風(fēng)險(xiǎn)預(yù)警等場景下,性能仍有較大提升空間。
3.Doubao-1.5-pro
發(fā)布時(shí)間:2025年1月22日
綜合評(píng)分:64.3
Doubao-1.5-pro由字節(jié)跳動(dòng)研發(fā),于2025年1月22日正式發(fā)布,作為一款閉源大模型,其參數(shù)量未公開,憑借64.3的綜合得分,位居榜單第三名,是國內(nèi)自研金融大模型的重要代表之一。
在測評(píng)表現(xiàn)上,該模型展現(xiàn)出均衡的發(fā)展特點(diǎn),其中金融專業(yè)知識(shí)評(píng)分為72.9分、業(yè)務(wù)理解和分析為52.8分、推理和計(jì)算為66.0分、合規(guī)性和風(fēng)險(xiǎn)控制為57.4分、應(yīng)用程序安全性為72.4分。
作為字節(jié)跳動(dòng)在大模型領(lǐng)域的核心成果,Doubao-1.5-pro依托字節(jié)跳動(dòng)在自然語言處理、人工智能技術(shù)上的數(shù)據(jù)積累,具備較強(qiáng)的自然語言交互能力與場景適配能力,能滿足金融客服、智能咨詢等標(biāo)準(zhǔn)化的金融場景需求。同時(shí)在合規(guī)風(fēng)險(xiǎn)把控上表現(xiàn)尤為突出,進(jìn)一步滿足了金融融行業(yè)監(jiān)管和政策法規(guī)要求。
4.Claude-sonnet4
發(fā)布時(shí)間:2025年5月22日
綜合評(píng)分:63.5
Claude-sonnet4由美國科技公司Anthropic研發(fā),于2025年 5月22日正式發(fā)布,作為海外的頭部科技企業(yè)的閉源大模型,其參數(shù)量未公開,以63.5的綜合得分位居榜單第四名,潛力十分巨大。
在測評(píng)表現(xiàn)上,該模型金融專業(yè)知識(shí)評(píng)分為71.3分、業(yè)務(wù)理解和分析為61.2分、推理和計(jì)算為52.7分、合規(guī)性和風(fēng)險(xiǎn)控制為51.5分、應(yīng)用程序安全性為80.8分。其中除了合規(guī)與風(fēng)險(xiǎn)控制是短板,其他領(lǐng)域的得分都處于上游水平。
與其他大模型有所不同,Claude-sonnet4在自然語言理解、復(fù)雜業(yè)務(wù)場景分析上具備不小的優(yōu)勢,可以根據(jù)任務(wù)復(fù)雜度靈活分配算力,從而進(jìn)行快速響應(yīng),以及復(fù)雜問題分析。所以目前Claude-sonnet4主要用于日常開發(fā)或者企業(yè)級(jí)落地應(yīng)用中,憑借其出色的成本效益和穩(wěn)定可靠性,成為眾多開發(fā)團(tuán)隊(duì)的首選主力模型。
5.Qwen3-235B-A22B-Instruct
發(fā)布時(shí)間:2025年7月21日
綜合評(píng)分:62.2
Qwen3-235B-A22B-Instruct由阿里巴巴研發(fā),于2025年7月21日正式發(fā)布,參數(shù)量在本次上榜開源模型中處于中等水平,綜合得分62.2分,位居榜單第5名。
在測評(píng)表現(xiàn)上,該模型表現(xiàn)較為均衡。具體來看,金融專業(yè)知識(shí)評(píng)分為63.4分、業(yè)務(wù)理解和分析為60.4分、推理和計(jì)算為62.3分、合規(guī)性和風(fēng)險(xiǎn)控制為51.6分、應(yīng)用程序安全性為73.1分,僅應(yīng)用程序安全性這一項(xiàng)得分突破了70。
作為阿里系大模型在金融領(lǐng)域的重要布局,該模型與阿里旗下的電商、金融生態(tài)深度融合,在推理能力、多語言支持、工具調(diào)用上具備天然的優(yōu)勢。不過在金融專業(yè)知識(shí)深度、合規(guī)風(fēng)險(xiǎn)把控上仍有提升空間。未來有望依托阿里的技術(shù)生態(tài),在更多的金融場景里實(shí)現(xiàn)落地。
6.Gemini-2.5-Flash
發(fā)布時(shí)間:2025年4月17日
綜合評(píng)分:58.9
Gemini-2.5-Flash由海外頭部科技企業(yè)谷歌研發(fā),于2025年4月17日正式發(fā)布,作為閉源大模型,其參數(shù)量未公開,以58.9的綜合得分位居榜單第六名。
在測評(píng)表現(xiàn)上,與其他的大模型有所不同,該模型呈現(xiàn)出極度不均衡的特點(diǎn),99.7的金融內(nèi)生與應(yīng)用安全得分創(chuàng)下本次榜單的最高分,而金融專業(yè)知識(shí)問答得分僅23.0、合規(guī)與風(fēng)險(xiǎn)控制得分僅36.6,均位列榜單倒數(shù),成為其綜合得分偏低的主要原因。
作為谷歌旗下的重要大模型之一,Gemini-2.5-Flash在模型安全、業(yè)務(wù)場景分析、邏輯推理上具備一定的優(yōu)勢,這體現(xiàn)了谷歌在人工智能安全、數(shù)據(jù)隱私保護(hù)上的技術(shù)積淀。但值得注意的是,海外大模型進(jìn)入中國市場時(shí),期監(jiān)管政策適配性、專業(yè)術(shù)語的理解成為了進(jìn)入中國市場的主要障礙。
7.TouchstoneGPT-7B-Instruct
發(fā)布時(shí)間:2024年11月8日
綜合評(píng)分:58.4
TouchstoneGPT-7B-Instruct由粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院研發(fā),于2024年11月8日正式發(fā)布,是一款開源小參數(shù)量大模型,以 58.4的綜合得分位居榜單第七名,是中小科研機(jī)構(gòu)在金融大模型領(lǐng)域的代表案例之一。
在測評(píng)表現(xiàn)上,該模型表現(xiàn)中規(guī)中矩,金融專業(yè)知識(shí)評(píng)分為64.8分、業(yè)務(wù)理解和分析為40.8分、推理和計(jì)算為59.3分、合規(guī)性和風(fēng)險(xiǎn)控制為53.5分、應(yīng)用程序安全性為73.4分。
TouchstoneGPT-7B-Instruct最大的特點(diǎn)是部署成本低、運(yùn)行效率高,適合中小金融機(jī)構(gòu)進(jìn)行部署運(yùn)用。但是因?yàn)槭芟抻趨?shù)量的影響,該模型在金融業(yè)務(wù)理解與分析上存在不小的短板,難以滿足復(fù)雜的金融場景需求,所以不適合大型金融機(jī)構(gòu)進(jìn)行部署運(yùn)用。
8.GPT-4o
發(fā)布時(shí)間:2025年5月13日
綜合評(píng)分:56.6
GPT-4o由海外科技公司OpenAI研發(fā),于2025年5月13日正式發(fā)布,其參數(shù)量暫未公開,以56.6的綜合得分位居榜單第八名,表現(xiàn)低于外界預(yù)期。
在測評(píng)表現(xiàn)上,該模型的發(fā)展較為均衡,但整體得分水平偏下。其中金融專業(yè)知識(shí)評(píng)分為37.5分、業(yè)務(wù)理解和分析為63.9分、推理和計(jì)算為69.0分、合規(guī)性和風(fēng)險(xiǎn)控制為41.8分、應(yīng)用程序安全性為70.8分。
作為全球領(lǐng)先的通用大模型,GPT-4o的優(yōu)勢是成本與效率優(yōu)化顯著、綜合性能領(lǐng)先,同時(shí)可以深度集成至ChatGPT全平臺(tái)。但該模型受限于研發(fā)時(shí)間與行業(yè)數(shù)據(jù)積累,在金融專業(yè)知識(shí)、業(yè)務(wù)理解、合規(guī)風(fēng)控上存在明顯的不足。
9.Kimi-K2-Instruct
發(fā)布時(shí)間:2025年9月5日
綜合評(píng)分:53.6
Kimi-K2-Instruct由Moonshot研發(fā),于2025年9月5日正式發(fā)布,作為一款超大參數(shù)量的開源大模型,其1000B的參數(shù)量為本次榜單之最,與超大參數(shù)量形成鮮明反差的是綜合得分僅53.6,位居榜單第九名。
在測評(píng)表現(xiàn)上,該模型呈現(xiàn)兩極分化的特點(diǎn)。其中金融專業(yè)知識(shí)評(píng)分為35.4分、業(yè)務(wù)理解和分析為53.8分、推理和計(jì)算為59.8分、合規(guī)性和風(fēng)險(xiǎn)控制為24.3分、應(yīng)用程序安全性為69.0分。
作為千億參數(shù)量的開源大模型,Kimi-K2-Instruct在需要強(qiáng)計(jì)算能力的場景中具備較強(qiáng)的優(yōu)勢,比如數(shù)據(jù)建模、金融量化分析、邏輯推理等等。但在金融專業(yè)知識(shí)、合規(guī)風(fēng)控上存在明顯短板。這說明大參數(shù)量并非金融大模型的核心競爭力,未來還需要結(jié)合金融行業(yè)數(shù)據(jù)進(jìn)行專項(xiàng)訓(xùn)練。
10.Fin-R1
發(fā)布時(shí)間:2025年3月21日
綜合評(píng)分:49.5
Fin-R1由上海財(cái)經(jīng)大學(xué)團(tuán)隊(duì)研發(fā),于2025年3月21日正式發(fā)布,作為一款由高校科研實(shí)驗(yàn)室推出的開源小參數(shù)量大模型,綜合得分為49.5,居榜單第十名。
在測評(píng)表現(xiàn)上,該模型得分均處于下游水平。其中金融專業(yè)知識(shí)評(píng)分為36.8分、業(yè)務(wù)理解和分析為50.8分、推理和計(jì)算為60.1分、合規(guī)性和風(fēng)險(xiǎn)控制31.4分、應(yīng)用程序安全性為68.5分。
作為高校科研成果,F(xiàn)in-R1的研發(fā)重點(diǎn)更多的放在技術(shù)創(chuàng)新上,因此在金融專業(yè)知識(shí)、合規(guī)風(fēng)險(xiǎn)控制、業(yè)務(wù)理解等方面并不占據(jù)優(yōu)勢,因此難以與商業(yè)金融場景進(jìn)行適配。
11.Llama3.3-70B-Instruct
發(fā)布時(shí)間:2024年12月6日
綜合評(píng)分:46.0
Llama3.3-70B-Instruct由海外科技巨頭Meta研發(fā),于2024年12月6日正式發(fā)布,70B的參數(shù)量處于中等水平,以46.0的綜合得分成為本次榜單的最后一名。
在測評(píng)表現(xiàn)上,該模型得分均位列下游。其中金融專業(yè)知識(shí)評(píng)分為22.9分、業(yè)務(wù)理解和分析為53.8分、推理和計(jì)算為59.8分、合規(guī)性和風(fēng)險(xiǎn)控制24.3分、應(yīng)用程序安全性為69.0分。
該模型最大的特點(diǎn)就是成本低、性能優(yōu)秀,且在大模型領(lǐng)域具備一定的技術(shù)影響力。而在此次測評(píng)中的不佳表現(xiàn)的主要原因是該模型的側(cè)重點(diǎn)放在了自然語言交互,而在金融領(lǐng)域中缺乏針對(duì)性的訓(xùn)練與優(yōu)化。
最后,CNFinBench發(fā)布的金融大模型測評(píng)榜單,為行業(yè)提供了專業(yè)的評(píng)估和參考。同時(shí)以平安集團(tuán)為代表的金融大模型,已經(jīng)充分展現(xiàn)出國內(nèi)在金融大模型領(lǐng)域的技術(shù)實(shí)力和數(shù)據(jù)積累。未來隨著AI技術(shù)與金融業(yè)務(wù)的持續(xù)融合,金融大模型將發(fā)揮愈加重要的作用。
保觀知識(shí)星球
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.