AirJelly 發(fā)布了內(nèi)測(cè)版本。
這是一款桌面端 AI 助手——通過屏幕截圖捕捉你的工作上下文,理解你的意圖,并主動(dòng)幫你執(zhí)行任務(wù)。
開發(fā)團(tuán)隊(duì)叫「持續(xù)低熵」(Low Entropy AI),創(chuàng)始人柏特是一名 00 后。去年他在字節(jié)主導(dǎo)了一款名為 MineContext 的上下文工程產(chǎn)品,隨后便離職創(chuàng)業(yè),很快拿到了來自五源資本的第一筆融資。
「MineContext 是 AirJelly 的腳手架。」
AirJelly 的核心理念是:不追求全量記錄用戶行為,而是以 Enter 鍵為錨點(diǎn),捕捉用戶每一次表達(dá)意圖的瞬間。基于這些意圖,AI 將行為建模為任務(wù),主動(dòng)推送下一步建議,甚至直接幫你完成。
「人的行為是一條軌跡,全量收集所有線條不方便,但記錄其中的關(guān)鍵點(diǎn),點(diǎn)和點(diǎn)之間 AI 是能補(bǔ)出來的。」
從「回答你的問題」升級(jí)到「預(yù)測(cè)你的下一步」,AirJelly 的口號(hào)是「Next Enter Prediction」,野心很大,但很讓人期待。
![]()
以下是 Founder Park 與 AirJelly 創(chuàng)始人柏特的對(duì)話,經(jīng)編輯整理。
產(chǎn)品官網(wǎng):https://www.airjelly.ai/
??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享
超 22000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。
邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進(jìn)群后,你有機(jī)會(huì)得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;
最精準(zhǔn)的 AI 產(chǎn)品曝光渠道
0100 后團(tuán)隊(duì),從字節(jié)出走
Founder Park:介紹一下你們整個(gè)團(tuán)隊(duì),以及之前的一些經(jīng)歷。
柏特:我 2021 年在西安電子科技大學(xué)讀的本科,人工智能專業(yè)。本科期間,在 SwanLab、DataWhale 有一些開源項(xiàng)目經(jīng)歷。
大二那年,我去奇績(jī)創(chuàng)壇做 Campus Scout,看了不少項(xiàng)目。當(dāng)時(shí)對(duì)創(chuàng)業(yè)的認(rèn)知更多來自奇績(jī)的理念。大三在西電,也有幸獲得了挑戰(zhàn)杯的國金,因此積攢了不少創(chuàng)業(yè)的技能點(diǎn)
后來保研拿到了復(fù)旦的 offer,但因?yàn)橐恍C(jī)緣巧合沒去成。2025 年,去西湖大學(xué)做了幾個(gè)月 research intern,本來準(zhǔn)備再申請(qǐng)博士,這兩段寶貴經(jīng)歷也讓我接受了一些簡(jiǎn)單的科研訓(xùn)練。
大概在去年 5 月底,我之前在字節(jié)實(shí)習(xí)過的團(tuán)隊(duì)說要招一個(gè)負(fù)責(zé)開源的產(chǎn)品經(jīng)理,day1 就能直接 lead 項(xiàng)目。我當(dāng)時(shí)判斷,在字節(jié)這樣的平臺(tái)能直接負(fù)責(zé)項(xiàng)目是最寶貴的機(jī)會(huì),在經(jīng)過了漫長(zhǎng)的七輪面試之后,我加入了字節(jié)。
入職后,我看了一些前沿方向,決定瞄準(zhǔn) Context Engineering,做一個(gè)開源應(yīng)用叫 MineContext。花了兩個(gè)多月時(shí)間,發(fā)布了產(chǎn)品。這個(gè)項(xiàng)目在社區(qū)內(nèi)有了一定知名度,一路上曲折的經(jīng)歷,讓我積攢了運(yùn)營(yíng),商業(yè),產(chǎn)品,開源以及科研相關(guān)的技能點(diǎn),加上機(jī)會(huì)非常難得,于是過往的人生 connect the dots,命運(yùn)的推背感促使我決定出來創(chuàng)業(yè)了。出來花了不到一個(gè)月融了第一筆錢,初始團(tuán)隊(duì)就是在字節(jié)一起共事過的小伙伴,大家意愿都不錯(cuò),幾個(gè)人就一起出來了。
Founder Park:團(tuán)隊(duì)現(xiàn)在大概什么規(guī)模,是線下還是遠(yuǎn)程?
柏特:團(tuán)隊(duì)算上正職和實(shí)習(xí)生總共 11 個(gè)人,都在北京線下辦公。我們認(rèn)為線下溝通更高效、更敏捷,很多事可以直接講掉,不需要專門拉會(huì)議。
我們團(tuán)隊(duì)最大的特點(diǎn),可以拆成三個(gè) A:
第一個(gè)是 Agency,高度自驅(qū)。我們沒有打卡制度,同事經(jīng)常半夜看到有意思的東西也會(huì)在群里發(fā)。我們總結(jié)了一個(gè)「兩點(diǎn)半定律」,當(dāng)然不是強(qiáng)迫的——有人版本開發(fā)得爽了可能自己就干到兩三點(diǎn)。我們最新的版本是昨天凌晨 3:56 一個(gè)同事自己打磨完發(fā)出來的。
第二個(gè)是 Ambitious。大家都待過字節(jié),是那種對(duì)大廠祛魅的年輕人,希望在 AI 時(shí)代做出更偉大的事情。
第三個(gè)是 AI Native。團(tuán)隊(duì)基本都是 00 后,高度使用 AI 工具來最大化工作效率。所有 AI 工具都支持報(bào)銷,如果有人發(fā)現(xiàn)好的工具安利給大家用上了,還會(huì)拿到額外獎(jiǎng)勵(lì)。
Founder Park:團(tuán)隊(duì)現(xiàn)在還在招人嗎?
柏特:求賢若渴。第一個(gè)是 Agent 開發(fā),我們希望能招更多 10 倍乃至 100 倍 AI 工程師;第二個(gè)是算法崗,VLM 后訓(xùn)練、記憶系統(tǒng)、Proactive 觸發(fā),都有不少需要算法優(yōu)化的部分;第三是 Marketing 相關(guān)的人才,我們認(rèn)為這會(huì)是未來科技行業(yè)至關(guān)重要的崗位,attention is all you need!
我們團(tuán)隊(duì)偏通才,全員都有 Coding 背景,包括我們的設(shè)計(jì)師,之前就在百度做過前端。
02純記錄 Context 工具賣不出錢
AI產(chǎn)品必須能交付結(jié)果
Founder Park:在字節(jié)時(shí),你們做了 MineContext,到現(xiàn)在出來創(chuàng)業(yè)做了 AirJelly,中間的變化以及思考過程是怎樣的?
柏特:MineContext 最早的規(guī)劃不止做應(yīng)用,底層框架也要做,但我們覺得應(yīng)用是最好收集用戶反饋的方式,基于應(yīng)用可以迭代出更敏捷的框架,所以先做了應(yīng)用,叫「MineContext」,因?yàn)樽龅氖巧舷挛墓こ獭?/p>
MineContext 到 AirJelly 有很大的不同。AirJelly 某種程度可以理解為,MineContext 是它的腳手架,但不是說優(yōu)化一下就變成 AirJelly 了。中間我們也思考過很多方向,比如 Claude Code 的簡(jiǎn)易化、任務(wù)管理編排、人機(jī)協(xié)作等等。
OpenClaw 出來之后,我們仔細(xì)研究了它背后那套 Pi 框架,發(fā)現(xiàn)效果非常棒。我們把它接入了原有的流程,再結(jié)合 MineContext 對(duì)屏幕理解和上下文捕捉的理念,產(chǎn)生了 1+1 大于 2 的效果。整個(gè)方向,大概在今年 2 月初定下來的。
Founder Park:之前的嘗試都跟 Context 相關(guān)嗎?
柏特:我們最核心的理念一直沒變,就是要獲取更多的 Context,也用了很多屏幕截圖做額外補(bǔ)充。唯一的區(qū)別是,我們之前在糾結(jié)做純粹記錄的工具、編排類工具,還是帶有很強(qiáng)執(zhí)行能力的工具。后來經(jīng)過了大量用戶訪談,決定了目前這個(gè)形態(tài)。
Founder Park:MineContext 是收集上下文,到現(xiàn)在的 AirJelly 是直接交付結(jié)果,為什么要做這個(gè)轉(zhuǎn)變?是覺得單純收集上下文在現(xiàn)階段不太夠了嗎?
柏特:對(duì),MineContext 核心做的是收集和分析,產(chǎn)出各種報(bào)告,日?qǐng)?bào)、Insight、提示等等。AirJelly 最初也曾想過只做收集不做執(zhí)行,但后來發(fā)現(xiàn)幾個(gè)問題。
第一,純粹收集分析這種形態(tài),過去互聯(lián)網(wǎng)有過先例,但你會(huì)發(fā)現(xiàn)它賣不出去錢——用戶付費(fèi)意愿非常低,最多接受一次性永久付費(fèi)。但 AI 時(shí)代我們需要消耗 Token,這根本不成立。
第二,純記錄的東西使用頻率會(huì)很低,可能偶爾想著去看一眼。一直在幕后,很難讓用戶注意到它,天花板也比較低。
后來我們?cè)囍尤肓?Pi 框架,發(fā)現(xiàn)結(jié)合上我們的上下文,它能交付的結(jié)果非常棒。同時(shí)我們一直想做 Proactive,如果有很棒的 Context,把它建模成用戶的意圖和行為軌跡,再加上強(qiáng)大的底層 Agent 能力,就有望邁向一種非常通用的 Proactive Agent。所以最終決定要做 Proactive Agent。
03全量記憶記錄,對(duì)用戶來說毫無價(jià)值
Founder Park:從你們最開始對(duì)于產(chǎn)品的設(shè)想到現(xiàn)在的最新版本,在功能或者方向上有什么大的調(diào)整嗎?
柏特:第一個(gè)是,我們一開始想完全不做 chat 的形式,因?yàn)楫?dāng)時(shí)感覺這個(gè)形態(tài)太老套了,大家都在做。后來 Pi 框架之后,發(fā)現(xiàn)有 chat 的能力確實(shí)非常強(qiáng),加上我們的記憶也能更大化地利用,所以最后還是把 chat 加回來了。
另一個(gè)是,我們最早是做全量記錄的,有一系列智能策略,比如防抖、判斷什么時(shí)候該截什么時(shí)候不該截。后來做了一個(gè)實(shí)驗(yàn):換成只在按 Enter 時(shí)截圖,結(jié)果發(fā)現(xiàn)效果還可以。
全量記錄可能收集到 60 分的信息,但有 5 分的錯(cuò)誤。換成 Enter 后可能剩 50 分信息,但錯(cuò)誤只有一兩分。人對(duì)錯(cuò)誤的容忍度很低,一個(gè)錯(cuò)誤推送比少記幾件事更容易讓用戶覺得產(chǎn)品不好。
舉個(gè)例子:你在刷朋友圈,剛好看到朋友發(fā)了一個(gè)帖子,全量截圖可能把這個(gè)截下來,以為你要做這件事,這就是 5 分的錯(cuò)誤,實(shí)際上對(duì)用戶來說毫無價(jià)值。
同時(shí),在成本上有巨大下降的。沒有 Enter 機(jī)制前,每天截圖大概約 1500 張,有了之后平均 300 張,成本直接降為了原來的五分之一。再有就是,用戶可控性也更好,有 Enter 的話,用戶大概知道什么東西是會(huì)被截圖的,有這個(gè)感知。
Founder Park:在產(chǎn)品前期階段,你們會(huì)看哪些關(guān)鍵指標(biāo)來判斷功能設(shè)計(jì)是否達(dá)到預(yù)期了?除了日活、使用時(shí)長(zhǎng)。
柏特:我覺得最核心的是兩個(gè)點(diǎn)。第一是 Token 消耗量,尤其是用戶用 Agent 做任務(wù)時(shí)的消耗,這能證明我們的 Agent 能力,也能證明記憶加 Agent 能力給用戶帶來了真實(shí)價(jià)值。日常分析的消耗是偏固定的,做任務(wù)的消耗才是核心指標(biāo)。
第二是 Proactive 接收率。我們的整條鏈路是:截圖 → 分析 → 建模成 Event → 歸納成 Task → 推斷 Next Step → 觸發(fā) Proactive → Agent 執(zhí)行 → 推送給用戶。如果用戶愿意接收這個(gè) Proactive,代表整條鏈路基本都是好的;如果不愿意,可能整條鏈路某個(gè)環(huán)節(jié)做錯(cuò)了。
我們最早的版本,Proactive 和截圖、Task 沒有完全打通,用了一些其他機(jī)制。后來把整條鏈路打通之后,對(duì)整體優(yōu)化來說是更理想的情況。
Founder Park:你們會(huì)預(yù)期用戶用 Agent 完成什么任務(wù)?
柏特:理論上 OpenClaw、Cowork 的用戶能做什么,我們都能完成得更好,因?yàn)橛懈嗟?Context。
我自己日常基本就只用我們這個(gè)產(chǎn)品了,之前還會(huì)用 Manus、Gemini、Cursor,現(xiàn)在基本都不用了,不管是調(diào)研、寫產(chǎn)品文檔、還是寫代碼提交,都在這里閉環(huán)。我現(xiàn)在所有融資的 PPT 都是讓 AirJelly 做的,因?yàn)樗牢冶容^全量的信息,而且能力也比較強(qiáng)。
Founder Park:怎么讓用戶覺得可以把重要的事情放進(jìn)來?會(huì)有一些引導(dǎo)嗎?
柏特:對(duì),而且這是所有企圖做通用 Agent 的人必須面對(duì)的一個(gè)問題。你拿 OpenClaw 干什么,拿現(xiàn)在的 ChatGPT 干什么?其實(shí)未必一下子能完全說得出來,不同的人,有不同的用法。
一是,我們提供一個(gè)更全量的 Context 捕獲和記憶;其次是,我們能提供一個(gè)很好的 Agent 執(zhí)行。我們內(nèi)置了一些模板,比如你可以讓它分析你的工作情況,給你出一些下一步的計(jì)劃,或者出日?qǐng)?bào)。下一步,根據(jù)不同職業(yè)或行為習(xí)慣的人,探索出一些有意思的用法。
Founder Park:所以,你們會(huì)根據(jù)用戶的一些行為,主動(dòng)給他推一些可能跟場(chǎng)景相關(guān)的典型案例?
柏特:對(duì)。我們的一個(gè)設(shè)計(jì)原則是,AI 時(shí)代,不是一個(gè)設(shè)定死的 workflow。它能輸出什么,拿到不同的 Context 能達(dá)到什么樣程度,都是一個(gè)很難說的狀態(tài)。
我們相信兩個(gè)東西:第一是相信 AI,第二是相信用戶。用戶也許能發(fā)現(xiàn)更有意思的東西。包括我們自己也是用戶,最早也沒想著直接用它來給產(chǎn)品經(jīng)理寫代碼,是用著用著后來發(fā)現(xiàn)可以的。很多東西未必是你預(yù)設(shè)好的,很多也是用戶探索的,但前提是你要提供給他很棒的 Context 收集和很棒的 agent。
04只需要記錄意圖的關(guān)鍵點(diǎn),就能補(bǔ)出中間的「軌跡線」
Founder Park:你們自己是怎么理解 Context 的?
柏特:過去做 Context 的人,一般把它分為畫像和事件兩類,通過聊天來收集。我們現(xiàn)在更關(guān)注的是捕捉用戶的「意圖」,由意圖推導(dǎo)事件,再組織成任務(wù)。
過去的 Episodic Memory(事件記憶)就是「某人在某個(gè)時(shí)間做了什么事」,本質(zhì)上是召回性的,知道某個(gè)時(shí)間點(diǎn)做了什么。但我們覺得一個(gè)事情最好能把它完整推下去、完整建模。
Founder Park:截圖想記錄的真正東西是什么?是用戶的決策過程嗎?
柏特:舉個(gè)例子:你在某個(gè)場(chǎng)合,基于某些已知上下文說了一句話。把這句話和前一句聯(lián)系在一起,AI 大概就能知道你在了解什么信息,進(jìn)而推斷出你的意圖。兩次 Enter 之間,基于截圖的上下文,AI 能推斷出中間大概發(fā)生了什么。再有就是人的意圖表達(dá),某種程度上也已經(jīng)暗含了一些信息了。
我們把這些串起來組織成 Event,再基于 Event 推斷 Task。這樣不管是對(duì)用戶回顧、還是做 Proactive 推送都更有價(jià)值。散亂的「我做了什么」價(jià)值不大,但建模成 Task 之后,用戶方便回顧繼續(xù),AI 也方便做主動(dòng)觸發(fā)。
Founder Park:選擇「Enter」的形式,是覺得它代表用戶「確定要做某件事」的起點(diǎn)嗎?
柏特:Enter 不完全是一個(gè)開始,也可以是一個(gè)階段性的節(jié)點(diǎn)。你可以把人的行為理解為一條軌跡,全量收集這些軌跡不那么方便,但如果記錄其中的關(guān)鍵點(diǎn),通過點(diǎn)和點(diǎn)之間 AI 能大概把中間的線補(bǔ)出來。同時(shí)基于這些點(diǎn),也能預(yù)測(cè)你的下一個(gè)點(diǎn)可能是什么,然后做 Proactive 觸發(fā)。
我們最早是定時(shí)截圖,后來想能不能加入關(guān)鍵幀,比如 Enter 或點(diǎn)擊或 Ctrl+C/V。再后來發(fā)現(xiàn) Enter 這一幀的價(jià)值最大,而且損失也沒那么多,就換成了 Enter。
Founder Park:不同軟件里的 Enter 行為差別很大,你們是怎么處理的?
柏特:我們除了屏幕權(quán)限之外還獲取了 Accessibility 權(quán)限,能知道 Enter 那一刻光標(biāo)在哪里、在哪個(gè)應(yīng)用。微信輸入框里的 Enter 和瀏覽器輸入框的 Enter 是不一樣的,Word 或 Notion 那種多行文本也能拿到背景信息。
所以按下 Enter 那一刻,我們會(huì)把「在什么應(yīng)用里、輸入框是什么類型、當(dāng)前在做什么、相關(guān)上下文」一起輸進(jìn)去,不只是簡(jiǎn)單截個(gè)圖做 OCR。
Founder Park:Cursor 記錄的是 Tab 鍵行為,你們記錄的是 Enter 鍵,有什么區(qū)別嗎?
柏特:Cursor 的 Tab 我覺得很大程度上是一個(gè)早期傳播和用戶心智的事情。你看他現(xiàn)在其實(shí)也都是用右側(cè)的 Agent 窗口,基本沒人用那個(gè) Tab 了。但它最早能想到「通過 Tab 這個(gè)動(dòng)作來觸發(fā) AI」,說明這個(gè)洞察還挺好的。
我們也想打造類似的形象:人和 AI 的交互、搜索,都是通過 Enter。我們也想通過 Enter 這個(gè)動(dòng)作,讓用戶直覺上把「輸入意圖」和「觸發(fā) AI 感知」關(guān)聯(lián)在一起。
我們之后還會(huì)上一個(gè)功能叫「Next Enter Prediction」,就是基于你過去的行為軌跡,預(yù)測(cè)你下一次 Enter 要回什么、要提交什么。這個(gè)功能某種程度也是對(duì) Enter 作為意圖錨點(diǎn)的進(jìn)一步延伸。
05Task 是比時(shí)間線更好的記憶組織方式
Founder Park:AirJelly 現(xiàn)在的記憶系統(tǒng)大概是怎么樣的?怎么區(qū)分當(dāng)下重要的和上周重要的東西?
柏特:數(shù)據(jù)庫都是在本地的,記憶系統(tǒng)分兩塊:靜態(tài)的信息建模成 Entity,比如某個(gè)人是誰、某個(gè)項(xiàng)目是什么,類似 Graph 的形式。動(dòng)態(tài)的信息建模成 Task,了解這個(gè)事情的前因后果、做得怎樣、之后可以怎么做。
召回時(shí)會(huì)綜合向量檢索和關(guān)鍵詞檢索并疊加一些 Agentic RAG 的機(jī)制,在記憶權(quán)重上我們會(huì)有一套時(shí)間衰減機(jī)制,比較遠(yuǎn),召回少的記憶的時(shí)間權(quán)重低一點(diǎn)。
Founder Park:現(xiàn)在的記憶機(jī)制,和你們?nèi)ツ曜?MineContext 時(shí)相比,有什么大的區(qū)別?
柏特:MineContext 是「平鋪直敘」的——你的意圖、行為、過程,所有東西都平鋪著存,只用一個(gè)字段做區(qū)分。
AirJelly 是有進(jìn)一步加工的:把你跟事件相關(guān)的東西,一步步加工成 Task,一個(gè) Task 里包含了多條小的行為記錄。我們有一個(gè)洞察:Context 也有高低之分。首先是「意圖 Context」比較重要,其次是「Context 的組織程度」也有高低之分——就像 Coding Agent 把代碼組織成目錄結(jié)構(gòu),目錄本身隱含的信息量非常大。
我們把截圖和行為組織成 Task → Event 的層級(jí),你先召回 Task,再看它下面有哪些 Event、意圖和截圖,然后做進(jìn)一步的分析,這比全散著一股腦召回要好非常多。
Founder Park:這個(gè)「Task」里面包含什么?
柏特:大概包含:標(biāo)題、核心摘要、創(chuàng)建時(shí)間、完成情況、Progress、Next Step、關(guān)鍵詞(用了什么應(yīng)用、大概什么內(nèi)容),以及下方的 Event 列表,各個(gè)小階段做了什么,怎么拼接成了當(dāng)前的 Task 狀態(tài)。這些全由 AI 來判斷和寫入。
同時(shí),之后 Task 和用戶自己創(chuàng)建的 Todo 也會(huì)是打通的:用戶主動(dòng)添加的 Todo,日常被自動(dòng)識(shí)別的相關(guān)行為也會(huì)自動(dòng)吸附上去。
Founder Park:為什么選擇用數(shù)據(jù)庫的形式,不是 Markdown 文件?
柏特:Markdown 是一種挺好的形式,但在我們這個(gè)場(chǎng)景下有點(diǎn)偷懶。OpenClaw、Rewind、Dayflow 很多產(chǎn)品最核心的是時(shí)間,某個(gè)時(shí)間做了什么事。但在 AI 時(shí)代,你做事情未必是連續(xù)的,你可能早上做一下,下午再做一下。按時(shí)間記錄不完全合理,還是應(yīng)該按任務(wù)記錄。
再有就是 Token 消耗問題。Markdown 的方式,你想找某個(gè)東西可能得大量地讀,修改也得把內(nèi)容扔給 AI 分析再改,有大量隱性消耗。而我們用數(shù)據(jù)庫,召回時(shí)篩選最相似的部分就行,不需要把所有內(nèi)容都讀一遍。
06下一步,想做「Next Enter Prediction」
Founder Park:怎么理解你說的「Next Enter Prediction」?
柏特:比如你在某個(gè)微信群回了一條消息,然后切去 ChatGPT 或 Gemini 討論了一會(huì)兒,再切回這個(gè)微信群,這時(shí)候你大概要說什么?如果上下文足夠,AI 是能推理出來的。
我們未來可能會(huì)實(shí)現(xiàn)這樣的效果:基于你的 Session 切換和記錄的上下文,等你下次切回某個(gè)聊天窗口時(shí),直接推斷「你可能想回復(fù) XX」,提供幾個(gè)選項(xiàng),你通過一個(gè)簡(jiǎn)單的交互確認(rèn)就發(fā)出去了,不需要自己打字了。
Founder Park:如果這個(gè)設(shè)想再進(jìn)一步,能不能在你還沒切回來頁面的時(shí)候就直接替你做了?
柏特:對(duì),其實(shí)我們現(xiàn)在的 Proactive 已經(jīng)是在推斷你的下一步可能是什么,然后幫你做了。但「直接幫你想好要回什么」這件事,它其實(shí)并不比直接幫你做更多,但給人的感受會(huì)更妙,讓用戶感知到了「AI 在這個(gè)時(shí)刻知道你要干什么,而且把內(nèi)容都給你準(zhǔn)備好了」。而且通過不斷選擇選項(xiàng),也能越來越準(zhǔn)確地建模用戶的偏好。
Founder Park:你們現(xiàn)在是怎么判斷,什么時(shí)候彈一個(gè) Proactive 推送的?
柏特:我們現(xiàn)在的做法是:只要觸發(fā)了新的 Task 或者 Task 有更新,就會(huì)有新的 Next Step 進(jìn)入推送池。然后判斷兩個(gè)條件:推送的閾值夠不夠、最近是不是太頻繁了。兩個(gè)都滿足,就彈出來了。
我們其實(shí)沒有完全判斷用戶是不是在專注。這個(gè)設(shè)計(jì)來自我在字節(jié)的一個(gè)靈感,我們?cè)谧止?jié)不開會(huì)的時(shí)候大家做自己的事,你在專注工作,旁邊的人突然說「黃柏特這個(gè)東西你幫我看一下」,或者「黃柏特這個(gè)我搞完了你看下」。這種打擾程度其實(shí)還好,但它是非常高效的協(xié)作方式。我們想實(shí)現(xiàn)類似的效果。
最終決定權(quán)還是在用戶手里,你可以選擇現(xiàn)在處理,或者先忙完手里的事再處理。
Founder Park:現(xiàn)在截屏的時(shí)候,桌面的水母會(huì)有一個(gè)小的喂食設(shè)計(jì)。
柏特:對(duì),觸發(fā)的時(shí)候水母喂一塊餅干或者小龍蝦這種形式,有一種通過 enter 養(yǎng)水母的感覺。這樣既讓用戶有感知,又不會(huì)太突兀。
Founder Park:你預(yù)想的 Proactive 終極畫面是什么樣的?
柏特:我們能收集你的意圖、最近的 Task 列表、在什么工具里完成的、一般通過什么方式完成的,這些我們都能收集到。加上強(qiáng)大的 Agent 能力,理論上可以 7×24 小時(shí)執(zhí)行。
現(xiàn)在的任務(wù)是人設(shè)定的,所以執(zhí)行偏單線程。但假如 Agent 能基于你的行為建模出你可能有 5 個(gè)任務(wù)要做,這 5 個(gè)任務(wù)你真的需要做但你不知道,同時(shí)幫你把這 5 個(gè)任務(wù)都執(zhí)行了,那就是多線程的 Proactive 人機(jī)協(xié)作,效率會(huì)大幅提升。
Founder Park:幫人類發(fā)現(xiàn)可能漏掉的、值得去做的事,甚至 agent 直接把這個(gè)事幫你完成了。
柏特:對(duì),比如說我今天有幾件確定的事,跟 Founder Park 的專訪、下午去聊融資、以及要準(zhǔn)備發(fā)邀請(qǐng)碼。這幾件事各自還會(huì)有前置任務(wù),比如準(zhǔn)備怎么回答、準(zhǔn)備一版 PPT。理論上這些確定性都比較強(qiáng)的事情,Agent 都可以并行跑起來。
過去的主動(dòng)式 Agent 產(chǎn)品能在 15 分鐘內(nèi)推一件事就不錯(cuò)了,多了就是打擾。但如果足夠準(zhǔn)、跟你的任務(wù)足夠相關(guān),5 分鐘推 5 件事也不是不可能。甚至不需要固定時(shí)間,判斷出你在準(zhǔn)備這個(gè)大綱的內(nèi)容就直接幫你寫了。執(zhí)行可以做得更激進(jìn),但需要 Task 識(shí)別和 Proactive 接受度都得達(dá)到一個(gè)閾值。
07Aha Moment,是讓用戶第一次感受到「AI 真的懂我」
Founder Park:你們做用戶調(diào)研的時(shí)候找了哪些人?核心用戶畫像是誰?
柏特:前期調(diào)研了 MineContext 的早期核心用戶,找了產(chǎn)品經(jīng)理、在讀博士生和 Marketing 從業(yè)者。我們認(rèn)為這幾類人能提出更有價(jià)值的見解。
理論上對(duì)所有知識(shí)工作者都有價(jià)值,人都有記錄的需求。但如果一定要有畫像,最核心的三類是:
第一是超級(jí)個(gè)體(OPC),就是那種多線程、高度自驅(qū)的獨(dú)立工作者;第二是 ADHD 人群,他們天然多線程、頻繁切換,對(duì)記錄和組織有強(qiáng)需求。我們其實(shí)最早第一版 BP 就預(yù)設(shè)了面向 ADHD 人群的場(chǎng)景;第三是初創(chuàng)公司團(tuán)隊(duì),他們需要知道自己時(shí)間花在哪里,跟哪些內(nèi)外部的人產(chǎn)生聯(lián)系,高效記錄并在之后使用。
我們自己團(tuán)隊(duì)的設(shè)計(jì)師、產(chǎn)品經(jīng)理就是高強(qiáng)度用戶。隨著 AI 的發(fā)展,多線程工作的人也會(huì)越來越多。
Founder Park:你們希望在哪個(gè)環(huán)節(jié)讓用戶感覺到這個(gè)產(chǎn)品的 aha moment?
柏特:我自己有兩個(gè) aha moment。第一個(gè)是直接讓 AirJelly 給自己寫代碼——因?yàn)樗泻軓?qiáng)的記憶能力,知道 AirJelly 本身的進(jìn)展,能通過本地文件或群聊了解到信息,再加上比較強(qiáng)的 Coding 能力,可以直接自己分析、交流、寫代碼。
但這個(gè)可能不是面向通用用戶的。對(duì)通用用戶來說,產(chǎn)品初始狀態(tài)是一個(gè)普通的對(duì)話界面。在你按了幾次 Enter 記錄了一些信息之后,它會(huì)有更多你的上下文,然后彈出一個(gè) Proactive,我覺得這個(gè)應(yīng)該是第一個(gè)能讓用戶感受到 aha 的時(shí)刻。
我們現(xiàn)在的 Onboarding 做法是讓用戶選擇職業(yè),選完之后右側(cè)會(huì)展示這類職業(yè)常用的場(chǎng)景,以及基于這些場(chǎng)景可能出現(xiàn)的 Proactive 效果,讓用戶提前感知到。
我們?cè)趯ふ覂煞N case:第一種是「很快」,用了幾分鐘、按了幾次 Enter 之后,它能出一個(gè)跟你剛才在做的事相關(guān)的 Proactive,哪怕比較簡(jiǎn)單,也能讓用戶感知到「它在關(guān)注我」。第二種是「最 magical」,一定是只有 AirJelly 才能實(shí)現(xiàn)的場(chǎng)景。
Founder Park:你們的產(chǎn)品想給新用戶呈現(xiàn)什么樣的感覺?比如,他剛剛安裝完之后,應(yīng)該怎么用?
柏特:我們其實(shí)想給用戶帶來的感覺是,有了 AirJelly 之后,你不需要有任何額外的操作,你只是像往常一樣與人交流,使用 AI,檢索信息。你的全部意圖都能被記錄下來,你可以隨時(shí)查看自己在什么時(shí)間做了什么,自己在推進(jìn)哪些任務(wù),偶爾還會(huì)有 AI 伙伴出來主動(dòng)幫你完成任務(wù)。
此外產(chǎn)品會(huì)有一個(gè)「養(yǎng)水母」的概念,桌面上有一只水母,有點(diǎn)像皮卡丘或者超能 nono。水母記錄了你的 enter 次數(shù),以及它最近給你提的 Proactive,你可以選擇執(zhí)行或忽略,通過這種方式讓水母和你的同步越來越準(zhǔn)。
08最終目標(biāo)是降低用戶日常工作、認(rèn)知的「熵增」
Founder Park:你們團(tuán)隊(duì)的名字有什么寓意嗎?
柏特:我們團(tuán)隊(duì)的中文名叫「持續(xù)低熵」,英文叫 Low Entropy AI。熵在物理學(xué)里是熱力學(xué)第二定律,衡量混亂和有序,是非常第一性的原理,某種程度比萬有引力還要更本質(zhì)。
名字有三層含義。
第一層是產(chǎn)品層面:我們希望產(chǎn)品能給用戶帶來有序,
第二層是生物學(xué)層面:薛定諤說過「生命以負(fù)熵為食」,保持低熵代表一種活力。我也希望團(tuán)隊(duì)能始終保持活力,哪怕以后變大了也不會(huì)得大公司病。我們的公司 Slogan 是「Context,Not Control」——多給上下文,少搞控制。這也借鑒了字節(jié)和亞馬遜的管理哲學(xué)。
第三層是人工智能層面:交叉熵?fù)p失函數(shù)代表預(yù)測(cè)分布和真實(shí)分布之間的距離。我們希望通過人機(jī)協(xié)作,讓人逐步更深刻地認(rèn)識(shí)自己的行為和工作本質(zhì)。
Founder Park:熵這個(gè)東西其實(shí)還蠻好玩的。之前 Elys 的創(chuàng)始人也說過,想用 AI 來減少人與人之間交互的熵增。我覺得你們有點(diǎn)異曲同工之妙。Elys 想解決的是人與人之間去除干擾和誤解后的高效交流。
你們的低熵指的是人和人之間的,還是人和各種事物之間的?
柏特:我們認(rèn)為第一層肯定是人和人之間的,第二層是人和 AI 之間的,以及未來可能會(huì)有 AI 與 AI 之間的。但我們現(xiàn)在最希望的是第一層:用我們這個(gè)產(chǎn)品能把日常工作的認(rèn)知負(fù)載盡量結(jié)構(gòu)化、盡量有序。
Elys 這個(gè)產(chǎn)品我們也測(cè)試過,他們公司叫「自然選擇」,也提過用人機(jī)協(xié)作來降低熵——他們想解決的是人和人之間的,去除干擾和誤解之后的高效交流。我們瞄準(zhǔn)的是人在工作和認(rèn)知上的有序狀態(tài),異曲同工。
「持續(xù)低熵」這個(gè)名字在投資圈里反應(yīng)很好,當(dāng)你把它扔給對(duì)方,他會(huì)覺得「這還挺妙的」。水母的意象我們也覺得很好,快人一步搶注了這兩者我們還是非常興奮的。
Founder Park:明白了,就是追求在各種關(guān)系里面都達(dá)到一個(gè)更穩(wěn)定、更高效的狀態(tài)。
柏特:對(duì),我們公司的 slogan 也是。第一條是「Context,not control」,更多的上下文,更少的控制,這個(gè)既是產(chǎn)品理念,也是我們公司的哲學(xué)。還有一點(diǎn)是「Clarity,from chaos」,從混亂到秩序。
我們希望保持的其實(shí)不是一種僵死的有序,希望擁抱一定的混亂,然后從混亂中誕生出有序。這也是我們的一個(gè)追求,因?yàn)槟撤N程度的混亂也能帶來更多的可能性,但我們最終是要把它塑造成一種低熵、一種秩序。
Founder Park:AirJelly 的名字是怎么來的?
柏特:AirJelly 的名字來源于設(shè)計(jì)理念。
首先是我們希望產(chǎn)品能夠連接各處的 Context,有一種無處不在有足夠輕靈的感覺,就像空氣一樣,于是想著帶上 Air;另外我們做屏幕截圖和理解,這是一個(gè)比較激進(jìn)的事情,需要在設(shè)計(jì)上做大量工作來降低用戶的心理負(fù)擔(dān)。我們最早想叫 Aether,以太是光的介質(zhì),感知能力很強(qiáng)。但后來覺得最好做一個(gè)動(dòng)物形象——從 LLama 開始很多 AI 項(xiàng)目都用動(dòng)物形象,在傳播上和用戶感知上也更好接受。找了大量動(dòng)物形象之后,發(fā)現(xiàn)水母感知能力很強(qiáng),同時(shí)又非常簡(jiǎn)單,疊加上「輕靈」的理念,就叫了 AirJelly。
用戶調(diào)研時(shí),我們拿了具體的水母形象設(shè)計(jì)給一些人看,大家的反應(yīng)是「一看就非常可愛」,就用了目前這個(gè)版本。
Founder Park:水母的形象太可愛了,有些用戶會(huì)不會(huì)把它當(dāng)桌面小寵物,影響對(duì)工作助手的認(rèn)知?
柏特:我們這代人都知道寶可夢(mèng)和數(shù)碼寶貝,那些形象也很可愛、隨身攜帶,但能力非常強(qiáng)。OpenClaw 是龍蝦形象,大家不會(huì)因?yàn)橛X得它可愛就覺得它沒能力。能力本身用戶實(shí)際體驗(yàn)是不受影響的,但怎么讓用戶愿意絲滑地體驗(yàn)進(jìn)來,第一步還是設(shè)計(jì)得溫和可愛一些。
還有,OpenClaw 這一波傳播挺有意思的,「養(yǎng)蝦」都成了一個(gè)流行詞了。我們也希望「養(yǎng)水母」能有類似的傳播效果。
Founder Park:用戶的隱私問題,現(xiàn)在你們是怎么解決的?
柏特:我們有 PII(個(gè)人識(shí)別信息)脫敏技術(shù),能涂掉或替換敏感信息。實(shí)際處理的圖片也不是原始圖片,我們會(huì)判斷哪些是重心部分,只截取重心區(qū)域。這套涂抹機(jī)制目前還在評(píng)估中。
我們確實(shí)也想試探下「水溫」,用戶到底能接受到什么程度?這個(gè)問題其實(shí)連我們自己也不確定。
我們也做好了被罵的準(zhǔn)備。被罵有兩種情況:一種是做得太爛,那沒得救;另一種是做得比較激進(jìn)、具有變革性,這種也會(huì)被罵,但我覺得這不完全是壞事。
理想情況是達(dá)到 OpenClaw 那種狀態(tài):有人 concern,有人罵,但整體上可控。在 AI 時(shí)代,大家對(duì)激進(jìn)產(chǎn)品的接受度和嘗鮮意愿都比以前高了很多,這是有利的環(huán)境。
09ScreenMemory,在 PC 端仍然是一片「空白地帶」
Founder Park:你們?cè)趺纯?AirJelly 的競(jìng)品?
柏特:Rewind 和 Recall 現(xiàn)在基本都不做了。在 PC 端,其實(shí)是一個(gè)「空白地帶」。
我覺得 Rewind 最有意思,他們剛出來的時(shí)候,VLM 還不行,用的都是 OCR。把數(shù)據(jù)沉淀下來之后,因?yàn)?Agent 能力不夠強(qiáng),加上用的是 OCR 圖片,做不了太多事情,可能就是問問「什么時(shí)候做了什么」,價(jià)值非常有限。
在硬件方面,LOOKI 想做的故事跟我們有點(diǎn)像,All in Proactive。但我們和 LOOKI 不同的是,不做全量記錄,更多是以意圖為導(dǎo)向。
Founder Park:PC 端之前有很多嘗試,但到今天好多都沒做了。
柏特:ScreenPipe 還在做,但產(chǎn)品化能力不太行。Dayflow 也是類似的問題。
現(xiàn)在的節(jié)點(diǎn)有一個(gè)很大不同的是,Agent 能力足夠強(qiáng)了,模型加框架都強(qiáng)了很多,記憶也做得更好,召回的東西的價(jià)值能被更大程度體現(xiàn)出來。所以這是一個(gè)比較好的節(jié)點(diǎn),但還是需要有執(zhí)行能力,不能只做記錄和分析。
MineContext 當(dāng)時(shí)也有一個(gè)簡(jiǎn)單的對(duì)話,但用的是其他家的大模型,也沒用上 OpenClaw 的底層框架,召回推斷做得都不行。我們現(xiàn)在模型強(qiáng)了、框架強(qiáng)了、記憶做得更好,體驗(yàn)會(huì)比以前好非常多。
Founder Park:你們擔(dān)心大廠來做同樣的事嗎?
柏特:我在字節(jié)待過,對(duì)大廠的認(rèn)知比較清楚。核心項(xiàng)目資源是夠的,但流程很長(zhǎng);非核心項(xiàng)目,資源其實(shí)比創(chuàng)業(yè)公司少很多,MineContext 當(dāng)時(shí)就是這種感覺。
再有一點(diǎn)是,大廠對(duì)隱私類產(chǎn)品決策很謹(jǐn)慎,未必敢第一個(gè)「吃螃蟹」。我們上了,他們可能才會(huì)跟上。
如果大廠下場(chǎng),第一反應(yīng)應(yīng)該是:說明方向?qū)α耍覀児乐狄獫q(笑)。其次,我們長(zhǎng)期會(huì)是一個(gè)入口級(jí)的產(chǎn)品,大廠做了,大家也都會(huì)需要這樣類似的機(jī)會(huì)。
最后還有一個(gè)點(diǎn)是,我們?cè)诖罅看嬗洃洠脩粲玫迷骄迷缴岵坏秒x開,所以這是一個(gè)天然的護(hù)城河。
Founder Park:AirJelly 最終會(huì)是什么形態(tài)?
柏特:長(zhǎng)期會(huì)是一個(gè)入口級(jí)的產(chǎn)品。接下來,我們會(huì)做團(tuán)隊(duì)版,每個(gè)人有自己的 AI Agent,兩個(gè) Agent 之間可以相互交流,判斷有沒有需要同步的信息。如果你想了解同事最近的工作進(jìn)展,直接問你自己的 Agent 就行。我甚至覺得這是一種未來的團(tuán)隊(duì)協(xié)作形態(tài)。我們內(nèi)部已經(jīng)在試用了,我們會(huì)在充分打磨好權(quán)限管理后推出這個(gè)功能,如果你想提前體驗(yàn)有兩個(gè)方法,加入我們,或者成為我們的投資人哈哈。
Founder Park:你覺得 AI 個(gè)人助手在未來兩年,會(huì)發(fā)生什么變化?
柏特:從更長(zhǎng)期的來看,未來每個(gè)人都要有自己的 Agent。
我覺得 Agent Network 是必然的一個(gè)方向。最近 Moltbook 被 Meta 收購了,Agent 之間可以互聯(lián)互通的協(xié)議會(huì)逐漸成型。
Agent 之間通過開放協(xié)議連入某個(gè)公共平臺(tái)進(jìn)行交流和社交,可能是替你進(jìn)行一些社交,或者代替你跟別人的 Agent 交換信息。這時(shí)候誰的 Agent 有最多、最有效的記憶,誰的個(gè)人助手就更不一樣。協(xié)議是開放的,所以未必只能用某一個(gè)工具,記憶的積累才是最核心的壁壘。
![]()
轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.