網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

金融大模型哪家強(qiáng)？11款主流達(dá)模型橫向測評(píng)，中國平安“險(xiǎn)勝”DeepSeek登頂權(quán)威榜單

2026-04-02 19:53:04　來源: 保觀

浙江舉報(bào)

分享至

保觀 | 聚焦保險(xiǎn)創(chuàng)新

由于近期公眾號(hào)推送機(jī)制改變，歡迎您在公眾號(hào)首頁點(diǎn)擊右上【···】，將保觀設(shè)為“星標(biāo)”，及時(shí)跟蹤行業(yè)最新資訊

隨著人工智能技術(shù)的快速發(fā)展，大模型已經(jīng)成為驅(qū)動(dòng)金融行業(yè)生態(tài)變革的重要力量。在這一大背景下，如何科學(xué)、客觀地評(píng)估金融大模型的真實(shí)能力，成為全行業(yè)所關(guān)注的焦點(diǎn)。

近日，由上海人工智能實(shí)驗(yàn)室聯(lián)合金融行業(yè)權(quán)威機(jī)構(gòu)共同推出的CNFinBench評(píng)測榜單正式發(fā)布，引起了業(yè)內(nèi)的廣泛關(guān)注。

據(jù)悉，該榜單分別從金融專業(yè)知識(shí)、業(yè)務(wù)理解和分析、推理和計(jì)算、合規(guī)性和風(fēng)險(xiǎn)控制、應(yīng)用程序安全性五個(gè)核心維度，對(duì)國內(nèi)外主流大語言模型進(jìn)行了全方位的專業(yè)評(píng)估，為金融行業(yè)選擇大模型應(yīng)用提供了重要參考依據(jù)。

具體來看，本次榜單共收錄11款全球領(lǐng)先的金融大模型，涵蓋國內(nèi)外開源與閉源兩大類型。同時(shí)11款大模型在五大測評(píng)維度中各有側(cè)重，反映出不同研發(fā)主體在金融大模型領(lǐng)域的技術(shù)優(yōu)勢與布局方向。

具體來看，“金融專業(yè)知識(shí)問答”考察的是模型對(duì)金融概念、法規(guī)的掌握程度，DeepSeek-R1以73.5的單項(xiàng)得分排名第一；

“金融業(yè)務(wù)理解與分析”評(píng)估的是模型處理實(shí)際業(yè)務(wù)流程的能力，Gemini-2.5-Flash以65.2的單項(xiàng)得分排名第一；

“金融事實(shí)推理與計(jì)算”評(píng)估的是模型在復(fù)雜金融場景下的邏輯推演能力，PinganGPT-Qwen3-32B以78.0的單項(xiàng)得分排名第一；

“金融合規(guī)與風(fēng)險(xiǎn)控制”評(píng)估的是模型對(duì)監(jiān)管要求的敏感性與判斷力，Doubao-1.5-pro以57.4的單項(xiàng)得分排名第一；

“金融內(nèi)生與應(yīng)用安全”評(píng)估的是模型在應(yīng)用過程中的穩(wěn)定性和安全性，Gemini-2.5-Flash以99.7的單項(xiàng)得分排名第一。

其中由平安集團(tuán)推出的金融大模型PinganGPT-Qwen3-32B以綜合得分66.1分的成績摘得榜單第一名，成為本次測評(píng)中的最大亮點(diǎn)。在加速迭代的AI浪潮中，平安在金融領(lǐng)域多年沉淀的技術(shù)實(shí)力仍然不容小覷。

本文將對(duì)上榜的11款大模型進(jìn)行深度分析，解讀各模型的測評(píng)表現(xiàn)、技術(shù)特點(diǎn)等。

1.PinganGPT-Qwen3-32B

發(fā)布時(shí)間：2026年2月5日

綜合評(píng)分：66.1

PinganGPT-Qwen3-32B由中國平安旗下團(tuán)隊(duì)Omni-Sinitic研發(fā)，于2026年2月5日正式發(fā)布，并在3月4日完成更新，作為一款閉源金融大模型，參數(shù)量僅32B，卻以66.1的綜合得分?jǐn)孬@榜單第一。

在測評(píng)表現(xiàn)上，該模型的金融專業(yè)知識(shí)評(píng)分為69.3分、業(yè)務(wù)理解和分析為56.7分、推理和計(jì)算為78分、合規(guī)性和風(fēng)險(xiǎn)控制為54.7分、應(yīng)用程序安全性為72分，其中推理和計(jì)算得分是五大測評(píng)維度中評(píng)分最高的一項(xiàng)，其他維度得分同樣處于上游水平，全方位的優(yōu)異表現(xiàn)印證了平安集團(tuán)在金融垂直領(lǐng)域的技術(shù)積累。

具體來看，該款模型依托平安30萬億字節(jié)的海量金融數(shù)據(jù)、3.2 萬億高質(zhì)量文本語料訓(xùn)練而成，能夠?qū)崿F(xiàn)復(fù)雜金融場景下的精準(zhǔn)數(shù)值計(jì)算與嚴(yán)謹(jǐn)邏輯推理，如今已經(jīng)廣泛的應(yīng)用于平安生態(tài)內(nèi)的車險(xiǎn)報(bào)案、智能問數(shù)、費(fèi)用審核等97個(gè)實(shí)際業(yè)務(wù)場景。

此外，中國平安依托于全金融牌照和自主研發(fā)的金融大模型，將人工智能技術(shù)嵌入到客戶服務(wù)、風(fēng)險(xiǎn)減量、信貸風(fēng)控等多個(gè)領(lǐng)域，實(shí)現(xiàn)內(nèi)部效率重構(gòu)到外部生態(tài)賦能的完整閉環(huán)。截至2025年前三個(gè)季度，中國平安已沉淀30萬億字節(jié)數(shù)據(jù)，覆蓋近2.50億個(gè)人客戶，超75億圖片語料，以海量數(shù)據(jù)為基礎(chǔ)，讓AI持續(xù)拓展場景應(yīng)用的深度和廣度。

2.DeepSeek-R1

發(fā)布時(shí)間：2025年5月28日

綜合評(píng)分：66.0

DeepSeek-R1由DeepSeek研發(fā)，于2025年5月28日正式發(fā)布，作為一款開源大模型，671B的超大參數(shù)量成為本次榜單的一大亮點(diǎn)，并以66.0的綜合得分位居榜單第二名，充分展現(xiàn)出在金融大模型領(lǐng)域的強(qiáng)勁競爭力。

在測評(píng)表現(xiàn)上，該模型的金融專業(yè)知識(shí)評(píng)分為73.5分、業(yè)務(wù)理解和分析為54.4分、推理和計(jì)算為76.9分、合規(guī)性和風(fēng)險(xiǎn)控制為48.8分、應(yīng)用程序安全性為76.6分。其中金融專業(yè)知識(shí)問答是11家大模型中評(píng)分最高的，合規(guī)與風(fēng)險(xiǎn)控制得分稍低，也是與第一名拉開差距的關(guān)鍵因素之一。

具體來看，DeepSeek-R1最大的優(yōu)勢就是能夠在超大參數(shù)量支撐下，具備較強(qiáng)的知識(shí)儲(chǔ)備與推理能力，在金融專業(yè)知識(shí)的覆蓋度與準(zhǔn)確性上表現(xiàn)突出，但在風(fēng)險(xiǎn)預(yù)警等場景下，性能仍有較大提升空間。

3.Doubao-1.5-pro

發(fā)布時(shí)間：2025年1月22日

綜合評(píng)分：64.3

Doubao-1.5-pro由字節(jié)跳動(dòng)研發(fā)，于2025年1月22日正式發(fā)布，作為一款閉源大模型，其參數(shù)量未公開，憑借64.3的綜合得分，位居榜單第三名，是國內(nèi)自研金融大模型的重要代表之一。

在測評(píng)表現(xiàn)上，該模型展現(xiàn)出均衡的發(fā)展特點(diǎn)，其中金融專業(yè)知識(shí)評(píng)分為72.9分、業(yè)務(wù)理解和分析為52.8分、推理和計(jì)算為66.0分、合規(guī)性和風(fēng)險(xiǎn)控制為57.4分、應(yīng)用程序安全性為72.4分。

作為字節(jié)跳動(dòng)在大模型領(lǐng)域的核心成果，Doubao-1.5-pro依托字節(jié)跳動(dòng)在自然語言處理、人工智能技術(shù)上的數(shù)據(jù)積累，具備較強(qiáng)的自然語言交互能力與場景適配能力，能滿足金融客服、智能咨詢等標(biāo)準(zhǔn)化的金融場景需求。同時(shí)在合規(guī)風(fēng)險(xiǎn)把控上表現(xiàn)尤為突出，進(jìn)一步滿足了金融融行業(yè)監(jiān)管和政策法規(guī)要求。

4.Claude-sonnet4

發(fā)布時(shí)間：2025年5月22日

綜合評(píng)分：63.5

Claude-sonnet4由美國科技公司Anthropic研發(fā)，于2025年 5月22日正式發(fā)布，作為海外的頭部科技企業(yè)的閉源大模型，其參數(shù)量未公開，以63.5的綜合得分位居榜單第四名，潛力十分巨大。

在測評(píng)表現(xiàn)上，該模型金融專業(yè)知識(shí)評(píng)分為71.3分、業(yè)務(wù)理解和分析為61.2分、推理和計(jì)算為52.7分、合規(guī)性和風(fēng)險(xiǎn)控制為51.5分、應(yīng)用程序安全性為80.8分。其中除了合規(guī)與風(fēng)險(xiǎn)控制是短板，其他領(lǐng)域的得分都處于上游水平。

與其他大模型有所不同，Claude-sonnet4在自然語言理解、復(fù)雜業(yè)務(wù)場景分析上具備不小的優(yōu)勢，可以根據(jù)任務(wù)復(fù)雜度靈活分配算力，從而進(jìn)行快速響應(yīng)，以及復(fù)雜問題分析。所以目前Claude-sonnet4主要用于日常開發(fā)或者企業(yè)級(jí)落地應(yīng)用中，憑借其出色的成本效益和穩(wěn)定可靠性，成為眾多開發(fā)團(tuán)隊(duì)的首選主力模型。

5.Qwen3-235B-A22B-Instruct

發(fā)布時(shí)間：2025年7月21日

綜合評(píng)分：62.2

Qwen3-235B-A22B-Instruct由阿里巴巴研發(fā)，于2025年7月21日正式發(fā)布，參數(shù)量在本次上榜開源模型中處于中等水平，綜合得分62.2分，位居榜單第5名。

在測評(píng)表現(xiàn)上，該模型表現(xiàn)較為均衡。具體來看，金融專業(yè)知識(shí)評(píng)分為63.4分、業(yè)務(wù)理解和分析為60.4分、推理和計(jì)算為62.3分、合規(guī)性和風(fēng)險(xiǎn)控制為51.6分、應(yīng)用程序安全性為73.1分，僅應(yīng)用程序安全性這一項(xiàng)得分突破了70。

作為阿里系大模型在金融領(lǐng)域的重要布局，該模型與阿里旗下的電商、金融生態(tài)深度融合，在推理能力、多語言支持、工具調(diào)用上具備天然的優(yōu)勢。不過在金融專業(yè)知識(shí)深度、合規(guī)風(fēng)險(xiǎn)把控上仍有提升空間。未來有望依托阿里的技術(shù)生態(tài)，在更多的金融場景里實(shí)現(xiàn)落地。

6.Gemini-2.5-Flash

發(fā)布時(shí)間：2025年4月17日

綜合評(píng)分：58.9

Gemini-2.5-Flash由海外頭部科技企業(yè)谷歌研發(fā)，于2025年4月17日正式發(fā)布，作為閉源大模型，其參數(shù)量未公開，以58.9的綜合得分位居榜單第六名。

在測評(píng)表現(xiàn)上，與其他的大模型有所不同，該模型呈現(xiàn)出極度不均衡的特點(diǎn)，99.7的金融內(nèi)生與應(yīng)用安全得分創(chuàng)下本次榜單的最高分，而金融專業(yè)知識(shí)問答得分僅23.0、合規(guī)與風(fēng)險(xiǎn)控制得分僅36.6，均位列榜單倒數(shù)，成為其綜合得分偏低的主要原因。

作為谷歌旗下的重要大模型之一，Gemini-2.5-Flash在模型安全、業(yè)務(wù)場景分析、邏輯推理上具備一定的優(yōu)勢，這體現(xiàn)了谷歌在人工智能安全、數(shù)據(jù)隱私保護(hù)上的技術(shù)積淀。但值得注意的是，海外大模型進(jìn)入中國市場時(shí)，期監(jiān)管政策適配性、專業(yè)術(shù)語的理解成為了進(jìn)入中國市場的主要障礙。

7.TouchstoneGPT-7B-Instruct

發(fā)布時(shí)間：2024年11月8日

綜合評(píng)分：58.4

TouchstoneGPT-7B-Instruct由粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院研發(fā)，于2024年11月8日正式發(fā)布，是一款開源小參數(shù)量大模型，以 58.4的綜合得分位居榜單第七名，是中小科研機(jī)構(gòu)在金融大模型領(lǐng)域的代表案例之一。

在測評(píng)表現(xiàn)上，該模型表現(xiàn)中規(guī)中矩，金融專業(yè)知識(shí)評(píng)分為64.8分、業(yè)務(wù)理解和分析為40.8分、推理和計(jì)算為59.3分、合規(guī)性和風(fēng)險(xiǎn)控制為53.5分、應(yīng)用程序安全性為73.4分。

TouchstoneGPT-7B-Instruct最大的特點(diǎn)是部署成本低、運(yùn)行效率高，適合中小金融機(jī)構(gòu)進(jìn)行部署運(yùn)用。但是因?yàn)槭芟抻趨?shù)量的影響，該模型在金融業(yè)務(wù)理解與分析上存在不小的短板，難以滿足復(fù)雜的金融場景需求，所以不適合大型金融機(jī)構(gòu)進(jìn)行部署運(yùn)用。

8.GPT-4o

發(fā)布時(shí)間：2025年5月13日

綜合評(píng)分：56.6

GPT-4o由海外科技公司OpenAI研發(fā)，于2025年5月13日正式發(fā)布，其參數(shù)量暫未公開，以56.6的綜合得分位居榜單第八名，表現(xiàn)低于外界預(yù)期。

在測評(píng)表現(xiàn)上，該模型的發(fā)展較為均衡，但整體得分水平偏下。其中金融專業(yè)知識(shí)評(píng)分為37.5分、業(yè)務(wù)理解和分析為63.9分、推理和計(jì)算為69.0分、合規(guī)性和風(fēng)險(xiǎn)控制為41.8分、應(yīng)用程序安全性為70.8分。

作為全球領(lǐng)先的通用大模型，GPT-4o的優(yōu)勢是成本與效率優(yōu)化顯著、綜合性能領(lǐng)先，同時(shí)可以深度集成至ChatGPT全平臺(tái)。但該模型受限于研發(fā)時(shí)間與行業(yè)數(shù)據(jù)積累，在金融專業(yè)知識(shí)、業(yè)務(wù)理解、合規(guī)風(fēng)控上存在明顯的不足。

9.Kimi-K2-Instruct

發(fā)布時(shí)間：2025年9月5日

綜合評(píng)分：53.6

Kimi-K2-Instruct由Moonshot研發(fā)，于2025年9月5日正式發(fā)布，作為一款超大參數(shù)量的開源大模型，其1000B的參數(shù)量為本次榜單之最，與超大參數(shù)量形成鮮明反差的是綜合得分僅53.6，位居榜單第九名。

在測評(píng)表現(xiàn)上，該模型呈現(xiàn)兩極分化的特點(diǎn)。其中金融專業(yè)知識(shí)評(píng)分為35.4分、業(yè)務(wù)理解和分析為53.8分、推理和計(jì)算為59.8分、合規(guī)性和風(fēng)險(xiǎn)控制為24.3分、應(yīng)用程序安全性為69.0分。

作為千億參數(shù)量的開源大模型，Kimi-K2-Instruct在需要強(qiáng)計(jì)算能力的場景中具備較強(qiáng)的優(yōu)勢，比如數(shù)據(jù)建模、金融量化分析、邏輯推理等等。但在金融專業(yè)知識(shí)、合規(guī)風(fēng)控上存在明顯短板。這說明大參數(shù)量并非金融大模型的核心競爭力，未來還需要結(jié)合金融行業(yè)數(shù)據(jù)進(jìn)行專項(xiàng)訓(xùn)練。

10.Fin-R1

發(fā)布時(shí)間：2025年3月21日

綜合評(píng)分：49.5

Fin-R1由上海財(cái)經(jīng)大學(xué)團(tuán)隊(duì)研發(fā)，于2025年3月21日正式發(fā)布，作為一款由高校科研實(shí)驗(yàn)室推出的開源小參數(shù)量大模型，綜合得分為49.5，居榜單第十名。

在測評(píng)表現(xiàn)上，該模型得分均處于下游水平。其中金融專業(yè)知識(shí)評(píng)分為36.8分、業(yè)務(wù)理解和分析為50.8分、推理和計(jì)算為60.1分、合規(guī)性和風(fēng)險(xiǎn)控制31.4分、應(yīng)用程序安全性為68.5分。

作為高校科研成果，F(xiàn)in-R1的研發(fā)重點(diǎn)更多的放在技術(shù)創(chuàng)新上，因此在金融專業(yè)知識(shí)、合規(guī)風(fēng)險(xiǎn)控制、業(yè)務(wù)理解等方面并不占據(jù)優(yōu)勢，因此難以與商業(yè)金融場景進(jìn)行適配。

11.Llama3.3-70B-Instruct

發(fā)布時(shí)間：2024年12月6日

綜合評(píng)分：46.0

Llama3.3-70B-Instruct由海外科技巨頭Meta研發(fā)，于2024年12月6日正式發(fā)布，70B的參數(shù)量處于中等水平，以46.0的綜合得分成為本次榜單的最后一名。

在測評(píng)表現(xiàn)上，該模型得分均位列下游。其中金融專業(yè)知識(shí)評(píng)分為22.9分、業(yè)務(wù)理解和分析為53.8分、推理和計(jì)算為59.8分、合規(guī)性和風(fēng)險(xiǎn)控制24.3分、應(yīng)用程序安全性為69.0分。

該模型最大的特點(diǎn)就是成本低、性能優(yōu)秀，且在大模型領(lǐng)域具備一定的技術(shù)影響力。而在此次測評(píng)中的不佳表現(xiàn)的主要原因是該模型的側(cè)重點(diǎn)放在了自然語言交互，而在金融領(lǐng)域中缺乏針對(duì)性的訓(xùn)練與優(yōu)化。

最后，CNFinBench發(fā)布的金融大模型測評(píng)榜單，為行業(yè)提供了專業(yè)的評(píng)估和參考。同時(shí)以平安集團(tuán)為代表的金融大模型，已經(jīng)充分展現(xiàn)出國內(nèi)在金融大模型領(lǐng)域的技術(shù)實(shí)力和數(shù)據(jù)積累。未來隨著AI技術(shù)與金融業(yè)務(wù)的持續(xù)融合，金融大模型將發(fā)揮愈加重要的作用。

保觀知識(shí)星球

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.