一個開發者最近開源了個小工具,能在瀏覽器里實時判斷你有沒有戴眼鏡。不是什么云端API,也不需要上傳照片——攝像頭畫面直接進模型,推理結果立刻出來。整個流程跑下來,平均延遲只有27毫秒。
這個項目叫FrameFind。作者最初只是想試試瀏覽器本地跑計算機視覺能有多快,結果做出了一個讓自己都意外的速度。
![]()
核心技術棧很精簡:ONNX Runtime Web負責推理,MediaPipe的FaceMesh提取面部關鍵點,可選WebGPU加速,不支持時自動降級。模型本身只有6.2MB,第一次加載后能被瀏覽器緩存,回頭再打開幾乎是秒啟動。
真正讓速度起飛的,是一個反直覺的裁剪策略。作者沒有讓模型處理完整畫面,而是用FaceMesh landmarks定位眼睛區域,只把112x112像素的小塊送進模型。ROI(感興趣區域)縮小后,計算量斷崖式下跌,幀率卻穩住了。
完整流水線長這樣:FaceMesh定位 → 眼部區域裁剪 → 張量歸一化 → ONNX推理 → 時序平滑。最后一步 smoothing 是必須的,因為單幀預測會抖動,尤其遇到光線變化或面部遮擋時,連續幾幀的結果需要加權平均才能穩定輸出。
作者還封裝了一個React hook,意圖很明顯:讓前端開發者能直接拖進UI,不用管底層管線。另外配了個Node.js版本做服務端圖片處理,但瀏覽器端才是主戰場。
這個項目的真正野心不在"眼鏡檢測"這個功能本身。作者想驗證的是:小型專用視覺模型,能不能讓瀏覽器里的實時交互變得更實用?
傳統做法是把視頻幀發到服務器,或者調用重量級云API。FrameFind走了一條相反的路——計算全部留在客戶端。代價是模型必須夠小、夠專,好處也直觀:零網絡延遲、零隱私泄露風險、零服務器成本。
6.2MB的體積,27毫秒的推理速度,這兩個數字放在一起,說明瀏覽器本地跑輕量CV模型已經跨過"能用"的門檻,正在逼近"好用"。
項目已開源,Demo和代碼鏈接在作者主頁。如果你在做需要實時視覺反饋的Web應用,這個流水線值得參考。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.