5月7日,阿里千問在PC端正式上線AI語(yǔ)音輸入功能。用戶通過快捷鍵就可以在微博、QQ郵箱、PS、谷歌瀏覽器等各類桌面應(yīng)用中直接調(diào)用這一輸入能力。
Windows端按下右Alt鍵,Mac端按下右Command鍵即可激活,不需要手動(dòng)復(fù)制粘貼或切換應(yīng)用界面。
千問語(yǔ)音輸入的功能邏輯并非簡(jiǎn)單的語(yǔ)音轉(zhuǎn)文字,它能對(duì)口語(yǔ)內(nèi)容做去語(yǔ)氣詞、糾錯(cuò)、格式化整理處理,還支持基于上下文的智能回復(fù)。
用戶也可以直接下達(dá)創(chuàng)作、問答、翻譯等指令,比如口述“幫我做一份第一季度銷售數(shù)據(jù)的PPT”,千問會(huì)直接調(diào)用相關(guān)能力生成文件。目前該功能已經(jīng)全面開放,所有用戶可以通過千問PC端免費(fèi)使用。
這個(gè)功能上線的時(shí)間點(diǎn)值得注意,就在幾周前,微軟發(fā)布了自研語(yǔ)音識(shí)別模型MAI-Transcribe-1,支持25種語(yǔ)言,企業(yè)級(jí)轉(zhuǎn)錄起步價(jià)每小時(shí)0.36美元,部分性能指標(biāo)超過了OpenAI的Whisper-large-v3。
Cohere在三月底也開源了20億參數(shù)的語(yǔ)音識(shí)別模型Cohere Transcribe,采用Apache 2.0協(xié)議,可以直接部署在終端設(shè)備上,無需頻繁調(diào)用云端算力。全球頭部AI公司幾乎在同一時(shí)間加大了對(duì)語(yǔ)音識(shí)別和交互的投入。
在這些進(jìn)展中,千問的一個(gè)明顯差異是免費(fèi)的PC端應(yīng)用場(chǎng)景。微軟的主要發(fā)力點(diǎn)在企業(yè)服務(wù)和開發(fā)者工具,Cohere聚焦于企業(yè)級(jí)語(yǔ)音識(shí)別的開源部署。千問的語(yǔ)音輸入沒有向用戶收費(fèi),也不僅限于特定辦公軟件,而是在全桌面環(huán)境內(nèi)通用。
一個(gè)不能回避的問題是,語(yǔ)音輸入在大模型應(yīng)用中到底是一個(gè)基礎(chǔ)能力還是核心入口。有分析預(yù)測(cè)2026年下半年,語(yǔ)音輸入加AI改寫會(huì)成為主流AI產(chǎn)品的標(biāo)配功能。
從這一邏輯看,千問在PC端上線語(yǔ)音輸入更像是構(gòu)建完整產(chǎn)品體系的必要步驟,而不是一次產(chǎn)品層面的重大突破,但免費(fèi)策略確實(shí)降低了體驗(yàn)門檻。
此前有觀點(diǎn)認(rèn)為市場(chǎng)缺乏既免費(fèi)、又具備AI結(jié)構(gòu)化改寫能力、同時(shí)對(duì)中文友好的語(yǔ)音輸入工具。千問填補(bǔ)了這個(gè)空檔。
與此同時(shí),微軟、谷歌、OpenAI等公司對(duì)語(yǔ)音交互的投入遠(yuǎn)不止輸入法層面。OpenAI計(jì)劃在2026年發(fā)布新一代音頻語(yǔ)言模型,并以此為基礎(chǔ)推進(jìn)語(yǔ)音驅(qū)動(dòng)的硬件設(shè)備。
開源方案如Cohere Transcribe也在挑戰(zhàn)傳統(tǒng)語(yǔ)音識(shí)別市場(chǎng)格局,整個(gè)產(chǎn)業(yè)在語(yǔ)音技術(shù)上的競(jìng)爭(zhēng)已經(jīng)進(jìn)入了從模型性能到應(yīng)用落地的全面比拼。
語(yǔ)音交互的便利性毋庸置疑,但千問上線這個(gè)功能后更大的看點(diǎn)在于它在PC端能走多遠(yuǎn)。
大模型應(yīng)用正在從單純的對(duì)話工具向?qū)嶋H解決任務(wù)的智能體演進(jìn),語(yǔ)音輸入降低了用戶調(diào)用AI能力的門檻,但真正決定價(jià)值的仍然是模型執(zhí)行任務(wù)的準(zhǔn)確性和可靠性。
千問選擇在PC端優(yōu)先落地語(yǔ)音輸入,可能不僅僅是為了做一個(gè)方便的輸入工具,而是為更大范圍的智能體操作鋪路。
目前千問語(yǔ)音輸入已經(jīng)可以完成制作PPT、整理表格、輸出Word文檔等跨應(yīng)用任務(wù)。這類操作在PC端比移動(dòng)端更順暢,因?yàn)镻C操作系統(tǒng)本身提供了更高的權(quán)限和更開放的API調(diào)用空間。
這也是為什么大部分能夠真正自主執(zhí)行任務(wù)的AI智能體都優(yōu)先選擇PC端部署,千問的這一步,看似是輸入方式的更新,但真正指向的是AI在PC端的深度嵌入。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.