<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      lmdeploy v0.12.3:視頻輸入、Qwen3.5、TurboMind 壓縮張量、Ray 安全 API 等重大升級全面解析

      0
      分享至




      LMDeploy 在 2026 年 4 月 8 日發布了 v0.12.3 版本。這一版本覆蓋了Features、Improvements、Bug fixes、Other四大部分,累計19 位貢獻者、46 個 commits、472 個 files changed,屬于一次覆蓋面非常廣、實用性非常強的版本更新。

      如果你正在關注 LMDeploy 的推理能力、多模態支持、Qwen3.5 適配、TurboMind 能力、Ray 相關改造、部署穩定性優化,那么這個版本幾乎可以說是一次“系統級增強”。

      一、v0.12.3 版本概覽

      本次版本更新的關鍵詞非常明確:

      • ?多模態能力增強

      • ?Qwen3.5 全面適配與優化

      • ?TurboMind 推理能力增強

      • ?Ray 與服務端安全性改進

      • ?RoPE / mRoPE 相關統一與修復

      • ?緩存、端點、生成、圖像視頻處理等關鍵鏈路修復

      • ?CI、Docker、Python 代碼現代化改造

      從更新列表看,這次版本不只是修復 bug,更像是一次圍繞模型推理、服務穩定性和工程化能力的集中升級。

      二、核心功能更新:v0.12.3 帶來了什么 1)支持視頻輸入

      這是本版本最受關注的特性之一:支持視頻輸入

      這意味著 LMDeploy 的多模態輸入能力進一步擴展,不再局限于文本或靜態圖像,開始向視頻類輸入場景延伸。對于本地推理、視頻理解、多模態交互等場景來說,這是非常關鍵的能力升級。

      從更新內容來看,視頻輸入并不是一個邊角功能,而是被列為正式 Features,說明其在版本中具有明顯的功能地位。

      2)TurboMind 完整支持 compressed-tensors gs32

      本版本中,TurboMind 新增了對compressed-tensors gs32的完整支持。

      這類更新通常意味著推理引擎在處理壓縮權重、量化模型或相關張量格式時,兼容性與穩定性得到進一步增強。對于依賴 TurboMind 的用戶來說,這是一項非常重要的底層能力提升,直接關系到模型加載、運行與推理表現。

      3)Draft model update params

      本版本加入了Draft model update params

      從功能名稱來看,這是對草稿模型參數更新流程的增強,屬于推理鏈路中的關鍵能力優化。雖然更新信息本身沒有展開細節,但從其被列為 Features 可以看出,這項能力已經進入正式支持范圍。

      三、重點改進:Qwen3.5 相關更新最密集

      v0.12.3 中,Qwen3.5 相關內容非常多,幾乎貫穿了多個模塊,是本次更新最核心的主題之一。

      1)支持 Qwen3.5 在 Volta 上運行

      版本更新中明確提到:support qwen3.5 on volta

      這意味著 Qwen3.5 在 Volta 相關環境中的支持能力得到增強,進一步擴大了其可部署范圍。

      2)優化 Qwen3.5

      本版本還包含了專門的Optimize Qwen3.5

      這說明 Qwen3.5 不只是“能跑”,而是繼續在性能、兼容性或推理表現上進行針對性優化。

      3)Qwen3.5 PyTorch 多模態推理修復

      更新中提到:fix qwen3.5 pytorch multimodal inference

      這是針對 Qwen3.5 在 PyTorch 多模態推理路徑上的修復,說明在多模態場景中,Qwen3.5 的推理鏈路已經被納入重點保障范圍。

      4)Qwen3.5 FP8 支持修復

      版本還修復了:fix qwen3.5 fp8 support

      FP8 支持是推理精度、性能與模型部署中常見的重要方向之一。該修復表明 Qwen3.5 在 FP8 路徑上得到了進一步完善。

      5)Qwen3.5 MTP 支持

      本次更新還包含:Support qwen35 with mtp

      這說明 Qwen3.5 與 MTP 相關的支持能力也被納入版本升級內容中,進一步增強了其適配范圍。

      6)Qwen3Coder 工具調用參數拆分

      版本中還加入了:Split/tool call args json for qwen3coder tool calls (Qwen3.5)

      這項更新與 Qwen3.5 的 tool call 能力有關,說明工具調用參數的 JSON 拆分處理方式得到了調整和支持,屬于面向工具調用鏈路的修復和增強。

      四、多模態與視覺相關升級 1)視頻輸入支持

      前面已經提到,本版本新增了視頻輸入支持,這是非常明確的多模態擴展。

      2)圖像 / 視頻 resize 函數修復

      本版本還修復了:fix image / video resize function

      這說明圖像和視頻在尺寸處理過程中存在的問題被修正了。對于多模態輸入來說,resize 是非常基礎但關鍵的一環,關系到輸入是否能正確進入模型鏈路。

      3)Qwen3-VL-MOE 增加 R3

      更新中提到:add R3 for qwen3-vl-moe models

      這屬于對視覺語言混合模型的適配增強,說明 Qwen3-VL-MOE 在本版本中也得到進一步支持。

      五、推理引擎與底層能力增強 1)Builtin mrope

      本版本加入了Builtin mrope

      這意味著 mRoPE 相關能力開始成為 LMDeploy 的內建組成部分之一。對于模型推理中的位置編碼處理,這類變化通常非常關鍵。

      2)RoPE 初始化對齊

      更新中提到:Align rope init in lmdeploy

      這說明 LMDeploy 內部 RoPE 初始化邏輯得到了對齊處理,屬于底層一致性增強。

      3)統一 rope device

      本版本還包括:unify rope device

      這意味著 RoPE 所使用的設備處理邏輯被統一,減少不同路徑下的設備差異問題。

      4)動態 NTK 設備修復

      更新中還提到:fix dynamic ntk device

      動態 NTK 相關流程中設備處理問題被修復,有助于提升運行穩定性。

      5)準備緩存前先準備 chunk indices

      版本中有一項改進:prepare chunk indices before cache initialize

      這說明緩存初始化流程中的前置準備工作被調整了順序,屬于推理鏈路中的時序優化。

      6)支持 recurrent-gdr 和 causal-conv1d-update 的 cache_seqlen

      更新中提到:support cache_seqlen on recurrent-gdr and causal-conv1d-update

      這類內容指向緩存長度相關能力增強,屬于底層推理狀態管理的優化。

      7)release state cache

      版本還加入了:release state cache

      這說明狀態緩存釋放邏輯得到補充,有利于資源管理與運行穩定性。

      六、Ray 與服務端相關改進 1)安全 Ray API

      版本中提到:safe ray api

      這說明 Ray API 的使用變得更加安全,屬于服務編排和并行處理鏈路中的重要改進。

      2)刪除 ray remote function return value

      本版本還包含:delete ray remote function return value

      這表明 Ray remote function 的返回值處理邏輯被調整,屬于運行行為和接口行為上的變化。

      3)當 proxy_url 為空時,api_server 端口順序分配

      更新中提到:Assign sequential api_server ports when proxy_url is unset

      這項改進與服務端口分配邏輯相關,當 proxy_url 未設置時,api_server 會按順序分配端口,提升部署可控性。

      4)修復 generate endpoint

      版本還修復了:fix generate endpoint

      這意味著生成接口鏈路存在的問題得到了處理,直接影響推理服務可用性。

      5)修復多輪聊天

      更新中提到:fix multiround chat

      說明多輪對話場景中的問題已被修復,這對在線對話服務很關鍵。

      6)修復 metrics

      版本還修復了:fix metrics

      這通常意味著監控指標輸出、統計或采集鏈路得到修正。

      7)修復安全問題

      更新列表中還明確提到:fix security issues

      這說明本版本包含安全性修復,屬于必須重視的升級項。

      七、TurboMind 與模型推理相關修復 1)ApplyTokenBitmaskInplace 維度不匹配修復

      版本中提到:fix(turbomind): fix dimension mismatch in ApplyTokenBitmaskInplace

      這是 TurboMind 相關的關鍵修復,說明在應用 token bitmask 的過程中出現了維度不匹配問題,本次已修復。

      2)pagedattention pointer range 修復

      更新中提到:fix pagedattention pointer range

      PagedAttention 是推理中常見技術點之一,這類修復通常與底層指針范圍、內存訪問或計算邊界有關,屬于非常關鍵的穩定性修正。

      3)Torch AWQ 修復

      版本中還提到:Fix torch awq

      這意味著 Torch AWQ 相關路徑的問題已被修復,對依賴該路徑的推理流程來說是重要補強。

      八、模型兼容性與特殊模型支持 1)Intern-S1-Pro 兼容 Transformers 5.0+

      版本中提到:Make Intern-S1-Pro compatible with Transformers 5.0+

      這說明 Intern-S1-Pro 的兼容性得到提升,能夠適配 Transformers 5.0 及以上版本。

      2)Intern-S1-Pro 代碼簡化

      更新中還包含:simplify interns1 pro codes

      這表示相關代碼路徑做了簡化處理,有利于維護和后續迭代。

      3)glm4.7-flash 修復

      版本中還提到:fix glm4.7-flash

      說明該模型相關的問題已被修正。

      九、工程化與 CI / Docker / Python 代碼現代化

      除了推理與模型本身,v0.12.3 還對工程體系做了不少整理。

      1)添加舊版測試工作流和測試配置

      版本中有:[ci] add legacy test workflow and test config

      這說明 CI 流程中補充了舊版測試工作流與測試配置,便于兼容歷史路徑的驗證。

      2)修復 CI 錯誤

      更新中提到:Fix CI errors including linting error and unit test error

      說明本次修復了 CI 中的 linting 錯誤和單測錯誤。

      3)使用 pyupgrade 和 ruff 現代化 Python 代碼

      版本中提到:Use pyupgrade and ruff to modernize LMDeploy Python Code

      這是對 Python 代碼風格和質量的現代化處理,涉及自動化代碼規范與升級。

      4)減少 CI 內存占用

      更新中提到:reduce ci memory

      說明 CI 運行過程中的內存壓力被降低。

      5)Docker 工作流中添加 safe.directory

      版本中提到:fix: add safe.directory for git in docker workflows

      這屬于 Docker 構建或工作流中的 Git 安全配置修復。

      6)添加 nightly docker build workflow

      更新中提到:[ci] add nightly docker build workflow

      這表示新增了 nightly docker 構建流程。

      7)拆分 Docker wheel 準備步驟并使用 Python 3.12 作為默認版本

      版本中還提到:split docker wheel preparation into staged build steps and use python 3.12 as the default version

      這說明 Docker wheel 的準備流程被拆成分階段構建步驟,并將 Python 3.12 設為默認版本。

      8)添加 CLAUDE.md 和 Claude Code skills

      更新中還包含:chore: add CLAUDE.md and Claude Code skills

      這屬于倉庫文檔與代碼輔助能力方面的補充。

      十、其他重要改動與補充 1)外部 pg bundles 下 worker 排序修復,并支持 persistent buffer for update_params

      版本中有一項較長的更新:[Fix][Feat] Fix worker sorting with external pg bundles & Support persistent buffer for update_params

      這說明在外部 pg bundles 場景下的 worker 排序問題得到了修復,同時 update_params 還支持 persistent buffer。

      2)禁用 fla intracard_backend

      更新中提到:disable fla intracard_backend

      這屬于某個后端能力的禁用調整。

      3)支持 qwen3.5 on volta 與 qwen35 with mtp 同時出現

      這兩項內容說明 Qwen3.5 的支持矩陣在本版本中被持續擴展,體現出版本更新對該模型系列的集中投入。

      4)添加 R3、統一 rope、builtin mrope、cache_seqlen、state cache 等一系列底層改動

      這些更新雖然分散,但整體上表明 v0.12.3 在“位置編碼、緩存管理、推理穩定性、設備一致性”方面做了大量基礎建設。

      十一、v0.12.3 的版本定位總結

      如果把這次更新概括成一句話,那就是:

      v0.12.3 是一次圍繞多模態、Qwen3.5、TurboMind、Ray 安全性、底層推理鏈路與工程化能力的全面增強版本。

      它的特點非常明顯:

      • ?新能力上:支持視頻輸入,增強多模態場景

      • ?模型上:Qwen3.5 相關支持與優化最密集

      • ?引擎上:TurboMind、RoPE、cache、pagedattention 等底層鏈路均有補強

      • ?服務上:generate endpoint、多輪聊天、metrics、端口分配、安全 API 均有修復

      • ?工程上:CI、Docker、Python 代碼規范持續現代化

      這不是一個單點修復版本,而是一個覆蓋推理、部署、兼容、性能與穩定性的綜合升級版本。

      十二、結語

      代碼地址:github.com/InternLM/lmdeploy

      對于正在使用 LMDeploy 的開發者來說,v0.12.3 值得重點關注,原因并不只是“版本號變了”,而是它集中解決了多個核心方向的問題:

      • ? 想用視頻輸入的,可以關注本次多模態擴展;

      • ? 重點跑 Qwen3.5 的,可以關注其多項適配、優化與修復;

      • ? 依賴 TurboMind 的,可以關注 compressed-tensors gs32、ApplyTokenBitmaskInplace、pagedattention 等底層修復;

      • ? 關注服務部署和在線推理的,可以關注 Ray 安全 API、端口分配、generate endpoint、多輪聊天與 metrics 修復;

      • ? 關注工程體系的,可以關注 CI、Docker、Python 現代化改造。

      總的來說,LMDeploy v0.12.3 是一次“面向可用性、兼容性、穩定性和擴展性”的扎實升級。

      我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      直接用手抓著吃!馬斯克在中國的國宴上徹底放飛自我

      直接用手抓著吃!馬斯克在中國的國宴上徹底放飛自我

      阿龍聊軍事
      2026-05-15 05:31:42
      根本不在乎!同樣是看儀仗隊政客和商人的區別顯出來了!

      根本不在乎!同樣是看儀仗隊政客和商人的區別顯出來了!

      阿龍聊軍事
      2026-05-15 10:48:40
      文班正式站隊GOAT!承認詹姆斯最強,卻把“歷史第一”投給了喬丹

      文班正式站隊GOAT!承認詹姆斯最強,卻把“歷史第一”投給了喬丹

      體育閑話說
      2026-05-15 09:11:58
      梁贊下起“石油雨”,阿斯特拉罕遭“化武襲擊”!基輔數十人死傷

      梁贊下起“石油雨”,阿斯特拉罕遭“化武襲擊”!基輔數十人死傷

      鷹眼Defence
      2026-05-15 16:55:31
      2024年至今球衣銷量榜:庫里第一,克拉克第二,詹姆斯第三

      2024年至今球衣銷量榜:庫里第一,克拉克第二,詹姆斯第三

      懂球帝
      2026-05-15 14:15:07
      不能錯過!5月15日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!5月15日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      畫夕
      2026-05-15 18:24:43
      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      FUFASHION
      2026-05-14 21:06:25
      馬斯克幼子帶火虎頭包!19年老牌淘寶店爆火:單日銷量翻了十幾倍

      馬斯克幼子帶火虎頭包!19年老牌淘寶店爆火:單日銷量翻了十幾倍

      快科技
      2026-05-15 06:10:09
      本澤馬參與?皇馬更衣室再爆猛料,阿韋洛亞搞針對,姆巴佩怒了

      本澤馬參與?皇馬更衣室再爆猛料,阿韋洛亞搞針對,姆巴佩怒了

      祥談體育
      2026-05-15 19:13:41
      停止運營!西安交警碑林大隊發布通告

      停止運營!西安交警碑林大隊發布通告

      91.6陜西交通廣播
      2026-05-14 20:24:12
      白宮的鏡頭為解放軍停留5秒,特朗普很喜歡,美國人直夸鐵的紀律

      白宮的鏡頭為解放軍停留5秒,特朗普很喜歡,美國人直夸鐵的紀律

      Ck的蜜糖
      2026-05-15 18:06:38
      三個輪子也能開!全新豹 5 豹 8 首發云輦-P Ultra,30.58 萬元起

      三個輪子也能開!全新豹 5 豹 8 首發云輦-P Ultra,30.58 萬元起

      愛范兒
      2026-05-14 15:30:17
      穿禮服的吳小姐,為啥被全網討伐?

      穿禮服的吳小姐,為啥被全網討伐?

      雷斯林
      2026-05-14 15:01:03
      75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

      75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

      娛說瑜悅
      2026-04-04 15:38:01
      突發!黃金、白銀跳水

      突發!黃金、白銀跳水

      每日經濟新聞
      2026-05-15 14:06:07
      杜特爾特盟友沖進國會,抓人的特工緊隨其后,現場一片嘩然

      杜特爾特盟友沖進國會,抓人的特工緊隨其后,現場一片嘩然

      你笑的好甜美
      2026-05-14 16:28:48
      3天讓一眾美國高官開了眼界,魯比奧感嘆:中國軍力不愧世界第二

      3天讓一眾美國高官開了眼界,魯比奧感嘆:中國軍力不愧世界第二

      李健政觀察
      2026-05-15 18:16:45
      表決結果出爐,53比39,江啟臣對卓榮泰出手了,傅崐萁或做出讓步

      表決結果出爐,53比39,江啟臣對卓榮泰出手了,傅崐萁或做出讓步

      起喜電影
      2026-05-15 18:24:53
      新款奔馳CLE上市 售價45.76-59.98萬元

      新款奔馳CLE上市 售價45.76-59.98萬元

      車質網
      2026-05-15 12:51:58
      沒有比較就沒有傷害!如果換她來演憶秦娥,劉浩存就不會被罵了

      沒有比較就沒有傷害!如果換她來演憶秦娥,劉浩存就不會被罵了

      真的八卦小學弟
      2026-05-14 12:00:24
      2026-05-15 20:11:00
      moonfdd incentive-icons
      moonfdd
      福大大架構師每日一題
      1227文章數 68關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      親子
      數碼
      本地
      時尚
      公開課

      親子要聞

      這可是你自愿吃的啊~

      數碼要聞

      “小創世神”:XIKII INDUSTRY FF20 Series機箱亮相

      本地新聞

      用蘇繡的方式,打開江西婺源

      56歲逆風翻盤,她怎么從全網群嘲變成了大家的天才女友?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天干天天射天天操| 国产欧美日韩精品一区二区三区| 无码日韩做暖暖大全免费不卡| 免费视频欧美无人区码| 吉木萨尔县| 国产精品午夜视频自在拍| 国产日韩av免费无码一区二区三区| 高潮射精日本韩国在线播放| 国产精品妖精视频| 精品123区| 日韩欧美亚洲综合久久| 亚洲大尺度无码无码专区| 国产三级精品三级在线区| 久久久久国产精品四虎| 欧美黑人又粗又大高潮喷水| 99视频免费| 九九九精品成人免费视频小说| 伊人久久大香线蕉综合中文字幕| 中文字幕日韩精品一区二区三区| 好男人神马影院www免费| 亚洲人妻系列中文字幕| 色综合天天综合天天综| 麻豆国产在线观看一区二区| 国产精品女同一区三区五区| 亚洲成a人片网站| 精品福利一区| 石林| 久久五十路丰满熟女中出| 好吊妞av| 久久久久久久综合| 制服丝袜亚洲欧美中文字幕| 99国产精品久久久久久久成人热| 少妇高潮喷水久久久影院| 欧美xxxxx精品| 聚色我要色综合| 日本无码中出| 99久久精品无码专区无| 韩国免费A级毛片久久| jlzzjlzz亚洲女人18| 女人毛片a级大学毛片免费| 国产精品久久久天天影视香蕉|