
OpenAI 9.25發了個關於多模態版本的Blog說chatGPT現在能夠看、聽、說了,體驗過的同學反饋還不錯,那這意味着什麼?
應用>純粹的智能改進
同純粹的智能提升相比多模態是一種應用可能性的提升。如果說原本的大模型瓮中之腦,那多模態無疑是把給這個瓮中之腦接上和現實世界相聯的觸角。
從技術上,這意味着之前這是在多種算法的綜合上發力,而不是單純的強調智能這一個維度。這種銜接在過去其實是吃力的,OpenAI看起來也沒把這問題解決的特別好,所以在文章中貼了這麼一小段:
這啥意思呢?其實是說語音識別通用度不好,反過來推測一點就是語音識別還沒有自己的大模型。希望OpenAI能在這種綜合和銜接上取得進展。
值得一提的是,這種方向和很多人心心念念的GPT5是不完全重疊的,GPT5更像是讓瓮中之腦更為強大,而多模態綜合則是讓現有大腦的智力得到更好的發揮。如果OpenAI貼着多模態走,那意味着他們在戰略上把應用放到了更前面。這是對的,並且和人類的大腦產生智能的情況更貼近。人類大腦皮層是相似的,但因為感知反饋處理內容不同而分成了不同的功能區來處理聽覺、視覺和味道。
OpenAI如果真的如預期在這條路上徹底跑通商業模式,那無疑是對整個行業的最大刺激,也會給自己打下超級巨頭的堅實基礎。
從應用上這意味着應用範圍的拓寬。那裡需要多模態呢?顯然是物理空間。純粹的瓮中之腦其實是把應用局限在數字空間,而多模態則打通數字和物理世界。最直接的,這類能力會激活多模態的應用。
典型的多模態應用是什麼呢?是PokemanGo
介於純粹的數字世界和純粹的物理世界之間就是這種增強現實的場景,沒多模態這類應用根本玩不轉。
在過去這做起來成本太高了,算法的綜合像一道天塹一樣,讓只有很少的公司才能做,而做的人裡面只有很少的人才能成功,而綜合後的大模型如果能削減這個壁壘,那顯然的這類應用就可以像當年的App一樣,只承擔產品化的部分,進而迎來自己的大普及。
但多模態的路線所影響的卻不只是這類增強現實應用,它的影響需要放在整個AI產品化進程的角度來看,才更清楚。
過去十年AI的創業其實是失敗的,但核心的好處是讓我們把所有的坑都趟了一遍,更容易在這些失敗的基礎上,看清和經營未來的現實。
(華為的戰略從側面反映過去這十年硬應用的探索,重點可以回想N)
背後隱含的產品路線
我們畫下不精確的產品路線圖。
遞進次序是純粹數字空間,數字和物理空間融合,硬件產品,機電類產品,另一個軸是智能的多模態程度,如:單一維度的通用智能和多模態的通用智能,那產品分布會是:
如果再加個維度,每一類中再有兩類:一類是幻覺無礙的,一類是需要解決幻覺問題的。
那麼很可能就可以得到這次大模型驅動的產品落地的次序。產品上會從軟應用到硬應用再到機械應用,特徵上會從幻覺有益到需要對沖。
這麼說可能不容易懂,我們拿過去的產品做個類比(嘗試的好處就這麼出來了,可以舉例子)。
同樣是對話,客服是軟應用,智能音箱是硬應用,招待機器人則是機械應用。
這些產品看着超級像,但每加一部分外延都導致遊戲規則有巨大變化。
軟應用的輸入相對容易標準化,到硬應用則變的麻煩,在語音上過去我們用近場和遠場來形容這種差異。都是對話,需不需要解決環境干擾問題導致的產品複雜度會有巨大差異。到現在為止,智能音箱其實也沒徹底解決這問題,你在邊上放電視它一樣會變不好使。
類似的準備好圖片的人臉識別和真實場景的人臉識別有同樣問題。後者沒準就需要在光線沒那麼好的情景下處理問題。
硬應用同機械應用比自身的穩定性會形成更多問題。比如機器人突然間脖子扭的角度不對,或者一條狗跑來跑去的時候腿瘸了,即使還是能夠聽說,那產品體驗也會出現巨大起伏。
詳細挖掘差異還會有很多,也許看着沒那麼大,但真做產品這種細小差異是忽略不得的。
如果把純粹數字的新特徵比喻成是一個巨大的氫氣球,可以四處亂跑,成本不高。那硬應用差不多相當於掛塊磚頭,機械應用則像掛一個小鉛球。掛的東西論體積遠不如氣球,但對氫氣球能不能飛起來影響是巨大的。
為了它能飛起來,最好的辦法是尊重新的環境條件,然後配個大引擎變成飛機。而變飛機顯然是個系統工程。
上面這種產品分類正好也就是Agent的分類。多模態的進展同樣會打開Agent的範圍。真做這類產品,打造自己的飛機,核心依賴會是什麼呢?
回到系統型超級應用:多模態Agent的典型架構
典型Agent的運行狀態是這樣:
這看着很常識,但其實帶來一個巨大挑戰。
你的多模態大模型是統一的,但你的應用是分散的。(單一產品的集成這問題不大,但那反倒是特例)
大模型的通用能力,需要一種通用的通路才能很好的輸出去,否則就像武俠小說里說的內功很好,但經脈很差,沒的發揮。
為了把這種通用能力發揮出去,最關鍵的就是需要對感知一側進行通用的抽象和管理。
這裡面有個依賴次序,各種應用本質上依賴多模態大模型,但多模態大模型依賴多模態的感知。
這種依賴遞進影響什麼呢?
影響特徵的傳導次序,本質上被依賴方的特徵會傳導到後者去,後者只能扛着。反向傳播則影響要小的多。
比如多模態感知在產品上肯定具現成五花八門各種產品,然後數據從各種傳感器來,傳感器會完成模擬到數字的轉化,所以出來的基本都是結構化數據。
這就導致必然出現過去操作系統中的硬件抽象層,是個傳統工作要解決基礎架構問題,要有一個抽象層覆蓋五花八門的設備。
多模態應用則要充分利用大模型的特徵,這時候接口形態都會發生巨大變化。會從傳統的API一點點變成現在的NLI。你需要適應大模型的基礎特徵,比如面對前面提到的幻覺問題。API的調用值是變化的,但它的Schema是穩定的,是在限定的Schema下返回各種值。但NLI,則Schema也是打開的。這就不好應對需要確定結果的場景。是真正的挑戰。
分層並分割這種應用後得到什麼呢,會得到系統型超級應用。
參照:AI個體戶的崛起:普通人「屁胡」的機會、模式和風險
系統型超級應用的極簡例子
我們舉個最簡單的例子:
假設你想給自己做個數字分身,打理自己在各個平台上的活動。
那麼對個人而言,你需要創建基本人設、風格(風格要考慮目標平台場景的特徵)等。你的應用基於這種人設通過NLI和大模型進行交互產出對應的圖文、視頻等內容。
內容產出後希望能覆蓋抖音、視頻號等,那這部分要能自動操作對應的平台,並從對應平台抓取反饋再進行進一步的產出。這部分操作和反饋的方式其實是平台定義的。
這時候就會發現多模態大模型的能力是共通的,人設是共通的,但平台相關操作是個性化的,所以如果真想做簡單了,那就需要區隔這三層,通用大模型給平台操作部分的指令總是:發布XX,平台操作部分的反饋總是,當前評論是XX,還是API和HAL的範疇。但基於人設、風格、熱點等產出內容的部分則完全不一樣了,肯定是要走NLI的。典型的操作系統三層分割,但面向應用一端接口會有很大變化。
小結
和朋友閒聊時有時會說提到:如果放在一個大的時間軸上看,那麼起於百餘年前的社會變革其實遠未結束,而我們猶在變革之中等待下一個穩定態。同樣的把時間刻度縮小,再把這個視角挪回來看人工智能那其實是一樣的,過往一切關於智能硬件的嘗試都會換個樣子重來,螺旋遞進,尋找自己下一個穩定的形式。-(文:李智勇/鈦媒體)
文章定位: