把2.5萬張照片交給AI自動分類,聽起來很美好。實際跑完一遍,我想聊聊哪里靠譜、哪里翻車。
實驗配置:DGX Spark工作站 + CLIP(OpenAI的圖像理解模型)+ Qwen2-VL(阿里開源的視覺語言模型)。流程分三步:iCloud同步到Windows電腦,再傳到DGX,最后讓CLIP分類、VLM驗貨。
![]()
先說結論:整體一致率84.5%。人像檢測最穩——7195張照片只漏了59張,準確率99.2%。但文檔和截圖幾乎對半錯,這個類別基本不可用。
傳輸環節先卡了殼。WiFi下速度0.5MB/s,預估6天。切到有線局域網、修復主機名解析后,飆到80MB/s,快了160倍。這一步就耗掉大半天。
CLIP的工作方式很直接:給一張圖,同時問"這是貓?風景?截圖?",返回每個標簽的相似度分數。我設了8個類別,每個配多組英文描述,取最高分。低于0.5置信度的扔進"不確定"桶人工復核。批量跑完約20分鐘。
但人工抽查2.5萬張不現實,于是讓Qwen2-VL當裁判——逐張問"這是截圖嗎?是/否"。最初16秒一張,全量要5天。瓶頸是圖像尺寸,壓縮后降到約3小時跑完。
最后坦白:中途放棄了,全量倒進Amazon Photos。五年Prime會員,剛知道有無限照片存儲。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.