過去半年,向量數據庫成為為數不多在AIGC光環下迅速走紅的賽道,甚至有人將其視為AIGC成功的基石。7月4日,騰訊雲也正式宣布推出向量數據庫,成為大廠中首例,目前阿里雲、亞馬遜雲等尚未釋放出明確信號。
「誰最先發布並不重要,重要的是誰有強大的資源能夠將這件事情快速落實下去。」一位數據庫產業觀察者對鈦媒體表示。對於大廠而言,是否要做一個獨立的數據庫還有待高層戰略選擇和布局節奏。但資本市場絕不會錯過追逐任何一個風口。
今年4月,Pinecone獲得了a16z領投的1億美元B輪融資,估值一度達到7.5億美元。作為OpenAI的合作方之一,Pinecone團隊的創始人Liberty還是亞馬遜AI實驗室的領導者,創建了當前有名的機器學習平台SageMaker。而另一家同為OpenAI合作方、且估值超過5億美金的團隊,是來自中國的Zilliz。據鈦媒體獨家獲悉,近段時間,多家VC正在聯絡Zilliz試圖給出新一輪融資,而這家企業距上一輪融資不足一年。
據鈦媒體不完全統計,僅在2023年4月前後的一個月內,這個賽道已經相繼有數家企業獲得主流投資機構的投資,除了Pinecone外,還有Weaviate的5000萬美元B輪融資、Qdrant的750萬美元種子輪融資、Chroma的1800萬美元種子輪融資……向量數據庫無疑給了資本市場新的投資槓桿,但也有相關從業者預警,「想要做好需要積累,現在入局向量細分賽道已經晚了。」
向量數據庫在大模型時代中展現出了巨大的商業機會。東北證券分析指出,向量數據庫市場空間巨大,目前處於從0-1階段。預測到2030年,全球向量數據庫市場規模有望達到500億美元,國內向量數據庫市場規模有望超過600億人民幣。
不過,目前來看,這個賽道仍然充滿變數。
一方面,應用廣泛。即便傳統數據庫廠商不單獨研發向量數據庫,基本上也會選擇主張支持原生的向量詞嵌入和向量搜索引擎。對於那些缺乏向量檢索功能的數據庫,實現它可能也是時間早晚的問題。而對於有能力的大企業客戶也完全可以基於開源引擎嘗試使用,在此之前,許多互聯網公司、AI大公司也早就在使用向量引擎。值得一提的是,最近這段時間就連老牌MongoDB也在其NoSQL數據庫中增加向量搜索的方式進入到這股潮流。
另一方面,向量數據庫依然有其落地的技術難點。例如相似性檢索和計算複雜度的問題,對於Clickhouse的依賴性問題;作為一款面向AI應用的新型數據庫(與現有的SQL稍做區分),它並沒有替換已有的數據庫,依然需要跟傳統數據庫搭配使用。
值得一提的是,AIGC大模型到來,實際上帶來了新的場景應用點,這跟以往向量數據庫廠商在探索的客戶場景會有所不同。探索與創新,會顯得十分重要。未來數據庫能不能為上層的AI應用提供穩定、高性能的基礎設施能力,才是重點考察方向。
目前業內也在尋求數據庫與AIGC大模型的結合方式,例如阿里雲今年最新迭代的雲原生多模數據庫Lindorm,也可以支持AIGC場景應用。
「能力是ready的,但沒有人會非常有把握,因為現在AI的變化太快了,跟數據庫的結合應該有更多的層次。」國內某數據庫創業公司負責人表示,通過過去一段時間與客戶的交流,現在正做的事情是將AI能力植入到其所倡導的Serverless HTAP數據庫架構中。
結合墨天輪去年10月公布的全球數據庫行業分析報告可以看到,其從技術維度將向量數據庫產品進行了拆分:包括向量檢索庫、向量插件、向量字段、向量執行化引擎。這其實也在透露出一個問題:當下火的其實並不完全是向量數據庫,而是在向量這一場景下的價值收益。
向量數據庫怎麼就火了
近期,許多具備大模型技術棧研發實力的企業,都會不約而同地提及「應用語言向量檢索技術用於模型訓練」。
在技術界,向量檢索並不是一個新名詞。但它的發展與人工智能浪潮的推動高度綁定。
向量,顧名思義Embedding,最開始的用於文本表達的詞向量,到後來可用於表達圖片、視頻、語音等非結構化數據轉化的深層語義,通過數據向量化可被計算機識別、使用,且在轉化的過程中不丟失信息。一開始,向量技術也基本使用於互聯網大公司的業務場景中。
圖片引用自Pinecone博客
例如,微軟Bing搜索引擎,在2000年就曾宣布使用向量實現搜索引擎的增強,可處理2000多億張網頁的向量數據。在那個時代,這個數據已經非常龐大了,但在更多的工業界或實驗室里,向量數據仍處於小規模驗證的階段。
真正的改變則來自於2017年前後,伴隨深度學習在工業界的廣泛落地,實際應用場景下的數據量級開始直線增加。這一年,FAIR研究人員開源了(FAISS,Facebook AI Similarity Search)AI向量相似性檢索庫,在十億級數據集上創建了鄰近搜索、且運行於GPU的k-selection算法。2020年7月,谷歌研究院開源了向量相似性搜索庫ScaNN,提出新的數據集向量壓縮技術,以提高向量檢索的準確性。
實際上,在此期間,國內的互聯網公司也沒閒着,據說阿里巴巴自研了Proxima,對於更多的企業,包括創業廠商在內,也會使用向量相似性檢索技術的相關開源組件如Faiss、Nmslib和Annoy等ANN庫,京東零售基於Faiss的Vearch也已經在各自規模化業務場景中投入使用。
創業公司Zilliz從2018年開始布局做向量數據庫,2019年開源了Milvus,單獨作為一個品類進行研發創新。其做法比較明確:開源Milvus向量數據庫,持續運營積累大量社區開發者使用;在商業化方面,推出雲端全託管數據庫服務Zilliz Cloud,並與Milvus形成插件化集成,與國產大模型進行對接。
不過,不同於2017年前後在行業風口和資本熱錢影響下成立的一批AI公司,一開始就瞄準向量數據庫創業賽道的企業其實寥寥無幾。即便Zilliz也並非是從創業之初錨定向量數據庫——Zilliz創始人星爵在去年9月與鈦媒體交流時曾解釋:「AI時代,數據處理的類型和計算體系架構都發生了較大變化,但當時團隊對最終產品形態是什麼,並不是很清晰。不斷交流的過程中,我們意識到企業對海量非結構化數據管理的需求。」
總結起來,在向量數據庫的發展過程中,技術進展和創新起到了重要的推動作用。
首先在數據層面,向量作為一個新型數據處理單元,其數據量達到了一定規模,需要一個專用的管理系統,對管理的複雜度如分布式、高可用性、數據的一致性和備份等要求也越來越高。
其次,數據庫系統的研究者和工程師們不斷改進和優化向量數據庫的存儲引擎、索引結構和查詢算法,提高了向量數據的存儲效率和查詢性能。
此外,隨着硬件技術的發展,如GPU、FPGA、ARM架構芯片的應用,也為向量數據庫的性能提升帶來了新的機會。
這三點因素共同促使了向量數據庫系統的誕生——想要高效處理這些海量的向量數據,就需要更細分、更專業的數據基礎設施,為向量構建專門的數據庫處理系統。
現階段,客戶有必要替換嗎?
從產品層面講,如果傳統數據庫廠商不單獨研發向量數據庫,那麼基本上會主張支持原生的向量詞嵌入和向量搜索引擎。
向量數據庫市場的陣營在ChatGPT影響之前就已經在形成分化,既包括提供開源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業化服務產品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數據庫廠商Elastic和Redis基於自身提供的向量檢索功能等等。
這其實也表明了當前向量數據庫市場存在的兩種路線:一個是基於分析數據庫的向量化執行引擎,英文是Vectorization,這是學術界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執行方式,用於處理傳統的結構化數據如表單等,更多的是結構化數據分析數據裡面做並行執行的一種方式,在新型的處理芯片上進行處理。
另一個則是推出向量數據庫(Vector Database),本質上處理的是AI領域的一類新型數據類型,例如對多模數據的處理,相比其他的向量檢索技術在檢索速度和精準性上都有了一個很高的提升。
後者的做法也基本在幾家主流雲廠商如亞馬遜雲、阿里雲上能夠看到,而這些雲平台應用市場也會提供給這些第三方向量數據庫企業進行託管。例如,阿里雲開發的內存數據庫Tair,在兼容Redis生態的同時,也具備向量檢索能力,實現緩存+向量二合一,已經投入在電商等場景。
「如果你看好AI,你就可以看好向量數據庫。」2023年的大模型大火一段時間後,騰訊雲數據庫團隊最終明確了這樣一個邏輯。
騰訊雲會更傾向於倡導向量數據庫「專庫專用」的理念,並且認可這樣一個趨勢。騰訊雲正式發布向量數據庫時,騰訊雲數據庫副總經理羅雲這樣對鈦媒體解釋:「向量檢索技術確實不是今天才有,在此之前有像基於Faiss庫的單機檢索引擎,也有已有數據庫上外掛插件的形態,還有的則是具備Purpose-built的獨立向量數據庫。」
在他看來,由於向量檢索是一個極消耗CPU和內存資源的工作,當支撐的業務負載越來越大之後,之前這種傳統的插件形式就會面臨一定的挑戰。而獨立向量數據庫可以讓用戶更好地精細化管理大模型訓練時的資源成本和時間問題。此外,還由於客戶對私域數據的保護,不會放在共有雲的大模型平台上進行訓練,而是更願意將私域數據存儲在向量數據庫中,當需要推理時就會將一部分信息傳遞給大模型作推理。雲廠商提供的數據服務會更有競爭力。
據羅雲所述,騰訊雲自研的分布式向量數據庫核心引擎Olama,原名ElasticFaiss,最早於2019年4月進行孵化,過去幾年,Olama對開源架構技術點持續優化,以支撐越來越多的算法庫。
目前,處在探索期的向量數據庫依然充滿挑戰:一是數據存儲和索引。由於向量數據通常具有高維度和大規模的特點,傳統的存儲和索引方法無法滿足其高效查詢的需求。二是查詢性能和計算複雜度。由於向量數據的特殊性質,相似性搜索和向量操作往往需要進行大量的計算和比較。三是數據質量和準確性。向量數據中可能存在噪聲、缺失值和異常值等問題,這些問題會對數據的查詢和分析結果產生不良影響等。
相較於大模型的高調火熱,向量數據庫仍然靠近底層,並沒有達到真正意義上的全民皆知,向量數據庫更多時候是需要集成到其他平台或雲上被銷售。
而從需求端看,過去,向量檢索還主要聚焦於機器學習和數據挖掘領域,通過高效的數據存儲和查詢工具,使得相似性搜索和聚類分析成為可能。在推薦系統中,向量數據庫助力個性化推薦,根據用戶興趣和商品相似性,呈現給用戶最貼切的推薦結果。
如今,在ChatGPT爆火之後,前來諮詢向量數據庫的客戶也絡繹不絕,並且湧現出了一批新的中小型開發者。Zilliz團隊的一個直觀感受是,目前大家主要的競爭會集中在產品功能設計和易用性上。如Midjourey只有11人團隊,這類小團隊用戶業務更加聚焦於大模型應用,這與此前大數據量的互聯網B端用戶有明顯需求的不同。
一位售前人員解釋,還是要根據客戶的業務屬性,需要的數據庫系統是否解決的是面向AI應用的部分。
無論怎樣,外界正在意識到向量數據庫作為一種新型數據庫存在的價值。不過,理解大模型只是AI的其中一種形態,泛化能力變強,場景通用性也更強。以大模型助力AI落地變得更順暢的過程中,還有很多可優化空間。-(鈦媒體/作者:楊麗*編輯:蓋虹達)
文章定位: