編者按:本文來自微信公眾號(hào) 王智遠(yuǎn)(ID:Z201440),作者:王智遠(yuǎn),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
前兩天,有個(gè)融資新聞傳到了國內(nèi)。
地址在加利福尼亞州舊金山,日期是7月16日。一個(gè)專門研究如何在人工智能時(shí)代改進(jìn)搜索的實(shí)驗(yàn)室,Exa,宣布:共計(jì)融到2200萬美元。
這筆錢Lightspeed Venture Partners帶頭。還有英偉達(dá)(NVIDIA)的風(fēng)險(xiǎn)投資部門和Y Combinator也參與投資;目的是幫助Exa快速發(fā)展,打造一個(gè)全新的搜索引擎,專門服務(wù)于人工智能。
什么?幫助人工智能,打造全新搜索?是的,你沒聽錯(cuò)。他們要給人工智能加個(gè)“外腦”,或者說,在搜索功能上加點(diǎn)新東西,讓AI搜索更強(qiáng)進(jìn)。
這讓我很好奇,Exa到底是個(gè)什么樣的公司?有什么特別的技術(shù)?創(chuàng)始團(tuán)隊(duì)背景是怎樣的?為什么這么多資本投他們?
帶著問題,我進(jìn)行一番探索,發(fā)現(xiàn)一些不同的線索。
01
首先,你可能不信,Exa創(chuàng)始人很年輕,思想很前衛(wèi)。
首席執(zhí)行官Will Bryk現(xiàn)在27歲,聯(lián)合創(chuàng)始人Jeff Wang才26歲。 不過,你可能會(huì)驚訝,這兩位好朋友在ChatGPT推出之前就已經(jīng)創(chuàng)辦了這家公司。
那么,這家公司是做什么的呢?
Exa公司位于舊金山,是Cerebral Valley AI社區(qū)的一部分。這是一個(gè)國外專注于人工智能、機(jī)器學(xué)習(xí)、自然語言處理和數(shù)據(jù)科學(xué)的社區(qū)。
最開始,Exa構(gòu)建一個(gè)工具,這個(gè)工具能讓人工智能模型做類似網(wǎng)絡(luò)搜索的事情。 這主要包括了從互聯(lián)網(wǎng)上查找信息,以及幫助客戶回答問題的人工智能聊天機(jī)器人,還有一些公司希望用來策劃培訓(xùn)數(shù)據(jù)。
創(chuàng)始人早些年花100萬美元買了GPU,他們使用矢量數(shù)據(jù)庫和嵌入技術(shù)(這不是基于經(jīng)典Transformer的大型語言模型),開始建立一個(gè)機(jī)器學(xué)習(xí)模型,模型被訓(xùn)練來本能地理解鏈接,而不是單個(gè)的詞或句子。
Exa公司的創(chuàng)始人Will Bryk,解釋了他們的搜索引擎和普通搜索引擎有什么不一樣。他說:
通常AI搜索,像變形金剛,會(huì)猜你接下來可能會(huì)說什么單詞 ;但他們的搜索引擎不是猜單詞,而是猜鏈接,也就是你瀏覽網(wǎng)頁時(shí)可能會(huì)點(diǎn)開的下一個(gè)網(wǎng)址。
我們是看大家在網(wǎng)上分享什么鏈接,來訓(xùn)練搜索引擎,所以,是一種全新的方式,不同于一般的搜索引擎只根據(jù)關(guān)鍵詞來找東西。
就像大型語言模型通過提供最有可能的下一個(gè)單詞來完成句子一樣,Exa的系統(tǒng)會(huì)提供最有可能的鏈接(可能是十個(gè))。 但是,你不會(huì)在里面看到像在普通搜索引擎中那樣的搜索引擎優(yōu)化的垃圾信息,或者那些諷刺的、由人工智能生成的無用內(nèi)容。
Jeff Wang說:
公司最初目標(biāo)不是為了服務(wù)人工智能,而是,想探索怎樣利用人工智能來打造更好的搜索。
Exa之前有一個(gè)免費(fèi)版本,允許任何人有限地嘗試使用我們的搜索引擎,除此之外,還有幾個(gè)不同等級(jí)的付費(fèi)服務(wù)。這樣,Exa能賺一些錢,除了運(yùn)行自己的 GPU 集群外,Exa 的產(chǎn)品托管在 AWS 上。
結(jié)果,當(dāng)ChatGPT爆火之后,很多人工智能公司開始向Exa請(qǐng)求他們的搜索引擎API版本,以便能將用到自己的模型中去。
之后事情就一發(fā)不可收拾了,現(xiàn)在已經(jīng)有數(shù)千名開發(fā)者在使用我們的產(chǎn)品,客戶也越來越多,從那以后,Exa獲得了極大的關(guān)注。
例如:
Databricks就是Exa的一個(gè)大客戶,它主要用Exa來為自己的模型培訓(xùn)計(jì)劃尋找大型的訓(xùn)練數(shù)據(jù)集。
不難看出,這家公司并不像谷歌、Perplexity這樣基因的公司,它們專注開發(fā)針對(duì)人工智能需求的技術(shù),一開始用戶群體是B端、針對(duì)AI搜索創(chuàng)業(yè)有需求的團(tuán)隊(duì)。
那么,Exa公司的創(chuàng)立的原因是什么呢?
創(chuàng)始人們對(duì)現(xiàn)在的互聯(lián)網(wǎng)環(huán)境很不滿意。他們覺得,互聯(lián)網(wǎng)本來是個(gè)找信息很方便的好地方,現(xiàn)在因?yàn)榇蠹覡?zhēng)搶注意力變得越來越商業(yè)化,也變得扭曲了。
尤其是谷歌搜索,在谷歌,有一整個(gè)行業(yè)叫做搜索引擎優(yōu)化(SEO)。這個(gè)行業(yè)目的,是用各種技巧讓網(wǎng)頁在搜索結(jié)果里排名靠前,這樣就能吸引更多人的注意。
結(jié)果就是,哪怕你只是簡(jiǎn)單地想知道“感冒了怎么辦?”你也會(huì)看到一大堆網(wǎng)站在爭(zhēng)搶排名,而不是真的提供最有用的信息。
02
嗯,的確是不錯(cuò)的想法。我?guī)е闷嬉策M(jìn)行了測(cè)試。
打開官網(wǎng),映入眼簾的幾個(gè)英文:The web, organized(AI的搜索引擎), 顯然,搜索引擎不只是為個(gè)人使用,更多是為AI搜索服務(wù)的;實(shí)際上個(gè)人也可以用。
我搜的第一個(gè)問題是:Exa和Perplexity有什么不同?
它并沒有像其他AI搜索軟件那樣,直接給我答案,而是展示一堆列表;在Exa的搜索結(jié)果里,左側(cè)有固定類別的分類,我可以按照PDF、GitHub、公司、新聞、紙媒、推文、播客帖子等來篩選信息源。
當(dāng)我點(diǎn)擊“公司”類別后,就能看到來自各種公司網(wǎng)站的相關(guān)信息。
比如:
它給我顯示一條9個(gè)月前Perplexity官網(wǎng)的幫助文檔。點(diǎn)進(jìn)去后,里面有關(guān)于Perplexity的介紹,說Perplexity是獲取信息的最快方式,是一個(gè)工具,能讓全世界的人用自己的語言或在自己的水平上學(xué)習(xí)任何東西。
我也可以不點(diǎn)進(jìn)去,直接把鼠標(biāo)懸停在標(biāo)題上,右側(cè)就會(huì)出現(xiàn)一個(gè)摘要,自動(dòng)形成一個(gè)總結(jié)文檔。 我還可以直接與這個(gè)文檔進(jìn)行交流。和其他AI搜索一樣,下面還推薦了幾個(gè)相關(guān)問題。

圖釋:(Exa官網(wǎng)搜索截圖)
進(jìn)行多輪測(cè)試,可以肯定,只要點(diǎn)擊“新聞”,顯示出來的都是引用自各大媒體的報(bào)道,比如華爾街新聞、TechCrunch等。
如果想看博客帖子,點(diǎn)擊這一欄后,顯示的是社區(qū)論壇博主們的思考,有來自于知名平臺(tái)的,也有來自個(gè)人網(wǎng)站的。我隨機(jī)點(diǎn)擊幾個(gè),發(fā)現(xiàn)博主們內(nèi)容質(zhì)量很高,幾乎都是各垂直領(lǐng)域的專家。
此外,Exa還可以按一天、一周、一個(gè)月、過去一年或任何時(shí)間篩選信息源的發(fā)布時(shí)間。
它還增加了域過濾器和短語過濾器:
域過濾器可以限定搜索范圍,只在特定的文檔字段或域中進(jìn)行搜索,這可以提高搜索的精確度和效率。
短語過濾器,則用于處理和匹配特定的詞組或短語,它會(huì)考慮詞序和詞之間的距離,確保搜索結(jié)果,更精確地匹配用戶的查詢意圖。
不過,一個(gè)缺點(diǎn)是并沒有給我直接的答案??赡苁且?yàn)殛P(guān)于Exa的報(bào)道本身就較少,所以它沒法自己創(chuàng)造內(nèi)容。
這真的很技術(shù)思維,并不像谷歌、Perplexity用戶體驗(yàn)感那么強(qiáng)。
我也遇到一個(gè)問題,當(dāng)我搜“IPD是什么”時(shí),它沒有給我想要的答案。我意識(shí)到問題太過簡(jiǎn)單,于是我重新提問,加上IPD(Integrated Product Development集成產(chǎn)品完整表達(dá),它才給我過濾掉那些和我意圖不一樣的內(nèi)容。
它的索引能力真的很強(qiáng)。
9年前、16年前的內(nèi)容都可以給我找出來,這些內(nèi)容也并非完全可以使用,點(diǎn)進(jìn)去看,明顯有些遜色,而且居然有一些是賣書、賣專欄的產(chǎn)品廣告,它們?cè)趶V告中加了IPD方面的內(nèi)容,外加上網(wǎng)站權(quán)重比較高,就被索引出來了。
據(jù)此,從個(gè)人使用感受來看:Exa的優(yōu)點(diǎn)在于:
一,找資料利器,索引能力強(qiáng)、篩選條件多,非常適合技術(shù)人員使用,不適合小白用戶。
二,還原過程指標(biāo),把結(jié)論放在單篇文章上,而不是一個(gè)問題上。缺點(diǎn)則是:一,無法給出直接答案,我一個(gè)個(gè)篩選信息源,點(diǎn)擊查看;二,有些信息源不準(zhǔn)確,這可能和我選擇的篩選條件有關(guān)。
03?
緊接著,我又拿Perplexity進(jìn)行測(cè)試。Perplexity更友好。
從Perplexity的介紹里,我可以明白:
Exa主要為AI系統(tǒng)和開發(fā)者設(shè)計(jì),它的工作給AI提供需要的知識(shí)和數(shù)據(jù)。而Perplexity則是給普通人用的搜索引擎,提供問答式的搜索體驗(yàn),所以,這兩個(gè)是完全不同的產(chǎn)品。
除此外,Exa定位為AI搜索的 中間層 ,提供API服務(wù),整合世界知識(shí)為AI系統(tǒng)提供數(shù)據(jù),Perplexity是一個(gè)端到端的搜索引擎,直接給用戶提供摘要。
我詳細(xì)查閱了一下, Exa使用Embedding技術(shù)來理解語義 ,能搜索Twitter、GitHub、Reddit等多種數(shù)據(jù)源; 而Perplexity則采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等語言模型。
那么,它們二者有什么區(qū)別呢?
你可以想象一下,你有一堆玩具,每個(gè)玩具都有它的名字,比如“小汽車、洋娃娃、積木”?,F(xiàn)在,要把這些玩具的名字告訴一臺(tái)機(jī)器,讓機(jī)器理解并記住它們。但問題是,機(jī)器不懂我們的語言,它只懂?dāng)?shù)字。
怎么辦?
Embedding技術(shù)像一個(gè)魔法轉(zhuǎn)換器,它可以把“小汽車”這樣的名字變成一串?dāng)?shù)字,比如[1, 2],把“洋娃娃”變成另一串?dāng)?shù)字,比如[2, 3]。
這樣,每個(gè)玩具的名字就都對(duì)應(yīng)一串?dāng)?shù)字,機(jī)器就能通過數(shù)字來“理解”和區(qū)分不同的玩具了。
更神奇的是,這個(gè)技術(shù)還可以讓相似的玩具有相近的數(shù)字。比如,“小汽車和卡車”可能都是車,所以它們的數(shù)字會(huì)比較接近,而和“洋娃娃”的數(shù)字就會(huì)遠(yuǎn)一些。
所以,Embedding技術(shù),是幫助機(jī)器通過數(shù)字來理解和記住各種信息的一種方法。
而GPT-4o API和Claude-3不一樣,它們本意上是已經(jīng)被開發(fā)好的一個(gè)語言模型,Perplexity只是把不同的模型整合起來,去做寫文章、回答問題、聊天的動(dòng)作。
所以,很明顯,Embedding技術(shù)和GPT-4o API、Claude-3的最主要區(qū)別是:
前者能把詞匯、圖片等變成一串?dāng)?shù)字,這樣更容易讓計(jì)算機(jī)學(xué)習(xí)和使用;后者更貼近用戶,幫助我在網(wǎng)上找到你需要的信息,比如新聞、圖片或視頻等。
因此,我們可以得到一個(gè)結(jié)論:Exa是一個(gè)為AI和開發(fā)者服務(wù)的高級(jí)搜索工具,它更注重于數(shù)據(jù)的深度整合和技術(shù)處理;Perplexity是面向普通用戶的搜索引擎,注重直接好用的便捷性,兩者不是一個(gè)賽道。
04?
關(guān)于Embedding技術(shù),中國也有不少研究者在討論。
我查了一下:
百度智能云的一篇文檔里,深入討論了Embedding技術(shù)在推薦系統(tǒng)中的應(yīng)用。
這包括怎樣更好地推薦用戶和商品,還有序列推薦和知識(shí)圖譜的應(yīng)用。這些技術(shù)把零散的數(shù)據(jù)變成連續(xù)的向量(就像一串串?dāng)?shù)字),提高了推薦系統(tǒng)的表現(xiàn)和準(zhǔn)確度。
還有一個(gè)技術(shù)博客的作者,在他的文章中也詳細(xì)說明Embedding技術(shù),在58同城房產(chǎn)相關(guān)業(yè)務(wù)和推薦場(chǎng)景中的實(shí)際應(yīng)用 [1] 。
李乾坤,在GitHub博客上也詳細(xì)描述Embedding技術(shù)的原理和它在自然語言處理中的應(yīng)用。像Word2Vec和GloVe這樣的模型,就是通過把單詞變成高維的向量,來捕捉單詞之間的語義關(guān)系 [2] 。
我不是太懂,把它羅列出來,供你參考,相信這門技術(shù)在國內(nèi)也能很快用到其他場(chǎng)景上。
那么,我們是否可以說:這項(xiàng)技術(shù)在迭代傳統(tǒng)以整合信源為中心的AI搜索引擎呢? 我不知道,至少覺得它具備一定的市場(chǎng)需求。
比如:
前一段時(shí)間有篇文章特別火,叫《中文互聯(lián)網(wǎng)是否會(huì)消失》,拋開爭(zhēng)議就整體而言,大家認(rèn)為中文互聯(lián)網(wǎng)內(nèi)容并沒有迅速消失,相反,中文內(nèi)容在全球范圍內(nèi)的比例在增長(zhǎng)。
根據(jù)W3Techs數(shù)據(jù),截止到2024年7月,中文內(nèi)容在全球網(wǎng)站上的使用比例為1.5%,中文和印地語內(nèi)容的比重都增加了超過10倍(注:W3Techs一家專門提供數(shù)據(jù)分析的機(jī)構(gòu))。
這說明什么? 互聯(lián)網(wǎng)數(shù)據(jù)并沒有消失,我們要特定工具把它給找出來。
國外風(fēng)險(xiǎn)機(jī)構(gòu)Lightspeed,投資完Exa后,分享了一些關(guān)于未來智能體網(wǎng)絡(luò)的想法。他們提到:
最近,一直在思考一個(gè)全新的,支持AI智能體的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這種網(wǎng)絡(luò)會(huì)和我們?nèi)祟愑玫木W(wǎng)絡(luò)不一樣,因?yàn)锳I智能體和人類需要的東西不同。
為什么需要智能體網(wǎng)絡(luò)呢?
一,AI智能體要獲取最新且準(zhǔn)確的信息來完成任務(wù)。 雖然現(xiàn)在的大型語言模型能記住很多數(shù)據(jù),但,這些數(shù)據(jù)很快就會(huì)過時(shí),而且不容易找到需要的信息。
二,雖然現(xiàn)在有了檢索增強(qiáng)生成(Retrieval-augmented generation)技術(shù),它幫助大型語言模型能夠處理訓(xùn)練數(shù)據(jù)之外的信息,但這些通常都是私人或內(nèi)部的信息。
理想情況下,AI智能體應(yīng)該能通過API檢索整個(gè)公共互聯(lián)網(wǎng)的信息,這就要新的基礎(chǔ)設(shè)施——也就是智能體網(wǎng)絡(luò)。
但是,建設(shè)這樣的網(wǎng)絡(luò),面臨很多技術(shù)和經(jīng)濟(jì)上的挑戰(zhàn)?,F(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施,主要是為了服務(wù)廣告商,而不是用戶,傳統(tǒng)搜索引擎更關(guān)注廣告點(diǎn)擊和展示,這就導(dǎo)致了“SEO”產(chǎn)業(yè)興起。
內(nèi)容質(zhì)量并不總是最重要的。
比如:當(dāng)你搜“精通Go語言的軟件工程師”,理想搜索引擎,應(yīng)該給你工程師的個(gè)人網(wǎng)站或社交媒體資料,而不是一些討論Go語言的網(wǎng)頁。
好的搜索引擎應(yīng)該能理解“實(shí)體”的概念,而不只是泛泛地討論一些話題。所以,AI想要的搜索結(jié)果,可能和人類需要的不一樣。
AI用的搜索引擎不應(yīng)該顯示廣告,應(yīng)該直接顯示結(jié)果,不幸的是,現(xiàn)在人類和AI使用的是同樣的搜索結(jié)果,這種“一刀切”的方式很糟糕。
Exa 的用武之地就在這,它是一個(gè)為AI智能體,專門設(shè)計(jì)的基于嵌入技術(shù)的搜索引擎。
它獲取并索引網(wǎng)絡(luò)上的最新內(nèi)容,并通過一種獨(dú)特的“鏈接預(yù)測(cè)”模型,通過搜索API,把數(shù)據(jù)提供給基于大型語言模型的應(yīng)用程序;這個(gè)模型被專門調(diào)整,以便更好地理解搜索查詢并從索引中返回相關(guān)鏈接。
這好比: 當(dāng)你向圖書管理員詢問關(guān)于某個(gè)主題的書時(shí),他不僅迅速找到了與這個(gè)主題相關(guān)的書,還確保書正是你現(xiàn)在最需要的那一本。
有了 Exa,互聯(lián)網(wǎng)變得又新又有趣,AI需要一種新的方式來訪問信息,它正在執(zhí)行和設(shè)計(jì)適用于AI和互聯(lián)網(wǎng)信源革命的任務(wù)。
是不是很有趣?簡(jiǎn)單講:它想給AI搜索引擎“洗個(gè)腦”,做中間部分,左手深度檢索信源后,右手投喂給大語言模型,讓它更聰明、更高效。
總結(jié)
中國,什么時(shí)候有這樣的公司?
很快了,值得期待。 最起碼,這兩位年輕人的創(chuàng)新想法,讓人們看到了新的機(jī)會(huì)點(diǎn)。
參考:
[1]. DataFunTalk. (2020, June 16). Embedding 技術(shù)在房產(chǎn)推薦中的應(yīng)用 . from:https://www.infoq.cn/article/hcii9dfu4aaat8se2id9
[2]. Li, Q. (2022, March 2). Embedding的原理及實(shí)踐. from:https://qiankunli.github.io/2022/03/02/embedding.html
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。







