12月11日,由北京市通州區(qū)人民政府主辦,通州區(qū)經(jīng)濟和信息化局、通州區(qū)臺湖鎮(zhèn)人民政府承辦的第二屆ADD數(shù)據(jù)應(yīng)用場景大會在臺湖隆重舉行。本屆大會以“AI推動進化,數(shù)據(jù)定義未來”為主題,匯聚了來自政、產(chǎn)、學(xué)、研、投各界的數(shù)百位領(lǐng)軍人物。

在大會的臺湖會客廳環(huán)節(jié),百分點科技總裁高體偉、數(shù)據(jù)堂首席運營官何鴻凌、合合信息智能解決方案事業(yè)部總經(jīng)理李明、天娛數(shù)科首席數(shù)據(jù)官吳邦毅、云跡科技副總裁謝云鵬,由創(chuàng)業(yè)邦副主編主持,圍繞《AI重塑產(chǎn)業(yè)場景,數(shù)據(jù)賦能智創(chuàng)未來》展開主題對話,現(xiàn)場金句頻出:
1. 當(dāng)前最大的挑戰(zhàn)不再是“有沒有模型”,而是“有沒有好用的數(shù)據(jù)”。如何將企業(yè)雜亂無章的原始數(shù)據(jù),轉(zhuǎn)化為大模型可用的高質(zhì)量養(yǎng)料,成為關(guān)鍵。
2. AI數(shù)據(jù)需求正從過去通用化的、用于訓(xùn)練基礎(chǔ)模型的需求,變得越來越專業(yè)化,聚焦于垂直行業(yè)的深度訓(xùn)練。
3. 推動具身智能與空間智能發(fā)展的核心,在于推動數(shù)據(jù)本身的發(fā)展。在未來很長一段時間里,數(shù)據(jù)都將是不可或缺的基石,它屬于新一代的基礎(chǔ)設(shè)施建設(shè)。
以下為現(xiàn)場對話內(nèi)容,經(jīng)創(chuàng)業(yè)邦整理后發(fā)布:
主持人:今年有一個普遍共識,就是大模型和AI技術(shù)正在“脫虛向?qū)崱?,進入產(chǎn)業(yè)深水區(qū)。請大家結(jié)合自己的業(yè)務(wù),聊聊在2025年,各位看到的AI創(chuàng)新應(yīng)用具體有哪些?同時,又面臨哪些實際挑戰(zhàn)?
高體偉:主持人剛才提到的兩個關(guān)鍵詞“脫虛向?qū)崱焙汀吧罨瘧?yīng)用”,我深有感觸。今年大模型發(fā)展的關(guān)鍵,已從追求參數(shù)規(guī)模轉(zhuǎn)向了場景的深化——而深化的核心在于數(shù)據(jù)。數(shù)據(jù)已從過去的配角,變成了今天這場戰(zhàn)役的主角。
因此,當(dāng)前最大的挑戰(zhàn)不再是“有沒有模型”,而是“有沒有好用的數(shù)據(jù)”。如何將企業(yè)雜亂無章的原始數(shù)據(jù),轉(zhuǎn)化為大模型可用的高質(zhì)量養(yǎng)料,成為關(guān)鍵。這也是我們百分點科技重點投入的方向。我們把服務(wù)上千家客戶積累的數(shù)據(jù)治理經(jīng)驗與工程師知識,沉淀進我們自研的大模型,目標(biāo)是用AI技術(shù)來生產(chǎn)AI所需的高質(zhì)量數(shù)據(jù)。通過構(gòu)建對話式數(shù)據(jù)治理體系,或者說AI數(shù)據(jù)治理團隊,在雜亂數(shù)據(jù)和模型所需的高質(zhì)量數(shù)據(jù)之間,搭建起一條智能化的管線,從而系統(tǒng)化地應(yīng)對這一挑戰(zhàn)。
何鴻凌:我們公司主要為AI企業(yè)提供服務(wù)。從我的觀察來看,今年一個明顯的趨勢是:AI數(shù)據(jù)需求正從過去通用化的、用于訓(xùn)練基礎(chǔ)模型的需求,變得越來越專業(yè)化,聚焦于垂直行業(yè)的深度訓(xùn)練。
以前,大量的需求還是通用性的,比如語言、圖像數(shù)據(jù),行業(yè)屬性不強。但從去年底開始,大家已不滿足于通用領(lǐng)域,開始向高階和專業(yè)化演進。比如,以前做試題數(shù)據(jù),可能K12級別的就足夠了;而今年,需求已經(jīng)上升到大學(xué)、研究生乃至競賽級別的語數(shù)英、物理化學(xué)試題。
但這仍屬于服務(wù)基礎(chǔ)模型的范疇,真正的挑戰(zhàn)在今年下半年。隨著AI“脫虛向?qū)崱焙驮诟餍袠I(yè)深度落地,它已不僅僅依賴基礎(chǔ)模型的通用能力。因此,我們現(xiàn)在面臨的是高度垂直、甚至冷僻的專業(yè)數(shù)據(jù)需求。例如,工業(yè)領(lǐng)域的稀土加工、航天領(lǐng)域的控制與調(diào)度,或者化學(xué)領(lǐng)域中非常細分的“地球生物化學(xué)”數(shù)據(jù)。
這種趨勢對AI發(fā)展是好事,但對數(shù)據(jù)供給方卻是巨大挑戰(zhàn)——它意味著數(shù)據(jù)的稀缺性,以及能生產(chǎn)這類數(shù)據(jù)的專業(yè)人才的稀缺性。如何獲取和構(gòu)建這些高質(zhì)量、高專業(yè)度的數(shù)據(jù)集,是我們當(dāng)前必須應(yīng)對的難題。
李明:作為一家多模態(tài)文本智能技術(shù)廠商,我們核心的AI OCR技術(shù)正在幫助各行各業(yè)走向數(shù)字化、實現(xiàn)AI Agent的場景落地。在服務(wù)超過1000家企業(yè)數(shù)字化轉(zhuǎn)型的過程中,我深刻感受到:全面擁抱數(shù)字化與AI,已成為企業(yè)提升未來競爭力的必經(jīng)之路。
但在落地過程中,企業(yè)普遍面臨一個關(guān)鍵問題:盡管數(shù)據(jù)很多,可用數(shù)據(jù)的比例卻不高。這往往是因為數(shù)據(jù)結(jié)構(gòu)化不足、準(zhǔn)確性不夠、標(biāo)準(zhǔn)化不統(tǒng)一。我們正通過AI OCR能力,有效幫助客戶解決多模態(tài)數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)化的難題。
除了技術(shù)問題,企業(yè)還面臨政策合規(guī)的挑戰(zhàn),比如數(shù)據(jù)隱私保護和跨境流通限制;以及內(nèi)部組織架構(gòu)的阻礙——缺乏統(tǒng)籌數(shù)字化建設(shè)的核心負責(zé)人,數(shù)據(jù)分散在不同部門,“部門墻”現(xiàn)象嚴(yán)重。這些內(nèi)外部因素都給數(shù)字化落地帶來很大困難。
作為科技公司,我們始終在利用AI能力,持續(xù)幫助企業(yè)應(yīng)對這些挑戰(zhàn),推動數(shù)字化真正落到實處。
吳邦毅:今天我想分享一個核心思考:AI,包括今年很熱的具身智能,究竟在我們的生活中扮演什么角色?大家應(yīng)該都有體會,早期的AI或具身智能主要替代重復(fù)性勞動;而現(xiàn)在,隨著智能化提升和數(shù)據(jù)量增長,AI已成為我們?nèi)粘Q策的伙伴。不過即便如此,它依然處于被動狀態(tài)——需要我們?nèi)ブ鲃犹釂枴?
所以下一階段的關(guān)鍵是,讓AI(無論是具身智能還是其他形式)能夠主動感知世界、主動為我們解決問題。這就回溯到了數(shù)據(jù)問題上。
我們一直在做空間智能大模型,目標(biāo)是讓機器人更智能地理解物理世界。我之前與斯坦福的李飛飛博士探討過:如何讓AGI真正實現(xiàn)工業(yè)化、進入家庭?這需要一個遞進的過程。要實現(xiàn)AGI工業(yè)化,就必須有空間智能大模型的支持。
目前主流的大模型仍以文本為主,其數(shù)據(jù)規(guī)模大約在50-100T,已基本涵蓋人類文字?jǐn)?shù)據(jù)。但這個量級遠遠不足以支撐具身智能和空間智能的發(fā)展。要讓空間智能大模型變得更智能,必須依賴豐富的多模態(tài)數(shù)據(jù)——不僅是文本和語音,還包括視頻、空間和3D數(shù)據(jù)等,這些都至關(guān)重要。
因此,推動具身智能與空間智能發(fā)展的核心,在于推動數(shù)據(jù)本身的發(fā)展。在未來很長一段時間里,數(shù)據(jù)都將是不可或缺的基石,它屬于新一代的基礎(chǔ)設(shè)施建設(shè)。
謝云鵬:今年大家都在思考:具身智能在具體場景中究竟能創(chuàng)造什么價值?從我們云跡做服務(wù)機器人多年的經(jīng)驗來看,這個價值最終要落在“服務(wù)”兩個字上。
那么,什么是好的服務(wù)?是無微不至,還是保持距離?其實并沒有統(tǒng)一標(biāo)準(zhǔn)。我們認(rèn)為,真正好的服務(wù),是懂你的服務(wù)——它能在千人千面的情況下,理解每個人的真實狀態(tài)與需求,并提供相應(yīng)服務(wù)。
過去十年,我們已在超34000家酒店落地,去年完成了5億次機器人服務(wù)。如何把服務(wù)從千篇一律的配送,升級為千人千面的精準(zhǔn)服務(wù)?這不能只靠具身智能替代簡單重復(fù)勞動,而必須讓它參與到前期的感知、認(rèn)知與決策中,才能實現(xiàn)精準(zhǔn)執(zhí)行。
因此我們認(rèn)為,未來智能體的趨勢一定是“具身智能”與“離身智能”的結(jié)合。離身智能負責(zé)感知、認(rèn)知和決策,這需要打通各類社會數(shù)據(jù)才能真正理解客戶需求——包括吳總提到的物理世界模型,這點非常關(guān)鍵。而具身智能則負責(zé)最終的物理執(zhí)行。
舉個例子:如果我說“想喝杯咖啡”,最懂我此刻在什么時間、什么空間下具體想喝什么咖啡的,應(yīng)該是離身智能。一旦需求明確,就可以由具身智能完成制作,再由機器人遞送到我手中——這才是從需求洞察到服務(wù)閉環(huán)的完整過程。
所以說,數(shù)據(jù)的重要性恰恰體現(xiàn)在具身智能與離身智能的結(jié)合點上。只有通過數(shù)據(jù),未來的智能體才能實現(xiàn)真正個性化、精準(zhǔn)的懂你服務(wù)。
主持人:謝謝大家的精彩分享,請問高總。目前政企數(shù)字化的大背景下,疊加人工智能的轉(zhuǎn)型需求。您認(rèn)為在AI時代,客戶有哪些新的需求變化?如何確保AI服務(wù)的安全合規(guī)?
高體偉:結(jié)合今天大會的主題,我看到政府管理決策正發(fā)生重要轉(zhuǎn)變。過去決策主要依賴經(jīng)驗、有限信息或?qū)訉由蠄蟮膱蟊恚欢F(xiàn)在,通過全域感知、實時數(shù)據(jù)收集與模型優(yōu)化,決策模式正從事后響應(yīng)轉(zhuǎn)向事前預(yù)警與事中調(diào)整,從追求局部最優(yōu)轉(zhuǎn)向全局最優(yōu)。決策流程也從固定化走向柔性化、實時化,這是政企領(lǐng)域最顯著的變化。
如何讓AI變得可信、可用而非“黑箱”?我們在實踐中總結(jié)了四個關(guān)鍵:確保數(shù)據(jù)可信、模型可信,實現(xiàn)流程可控與合規(guī)可控。通過這四方面的協(xié)同,才能構(gòu)建出真正適合政企場景的可信AI系統(tǒng)。
主持人:感謝高總,接下來請問何總,高質(zhì)量數(shù)據(jù)是近兩年的重點,數(shù)據(jù)堂在數(shù)據(jù)行業(yè)也耕耘很多年了,請您分享下,為什么高質(zhì)量數(shù)據(jù)忽然成了熱點,高質(zhì)量數(shù)據(jù)有哪些戰(zhàn)略價值?
何鴻凌:關(guān)于高質(zhì)量數(shù)據(jù),我觀察到其內(nèi)涵已因大模型發(fā)生了根本性變化。我們公司從機器學(xué)習(xí)時代發(fā)展至今,過去的模型主要在感知層面,判斷標(biāo)準(zhǔn)是客觀的——比如語音轉(zhuǎn)文字是否準(zhǔn)確、情感分析是否貼合標(biāo)注。那時的數(shù)據(jù)質(zhì)量高,意味著模型能準(zhǔn)確復(fù)刻標(biāo)注結(jié)果。
但大模型帶來了根本不同?,F(xiàn)在的模型具備了推理能力,輸出帶有主觀性,傳統(tǒng)的客觀評判標(biāo)準(zhǔn)已不再適用。我們常會遇到模型推理過程錯誤卻得出正確結(jié)論,或者推理看似合理結(jié)果卻錯誤的情況。
隨著大模型進入各行各業(yè),其推理質(zhì)量直接影響決策,這使得數(shù)據(jù)評估變得異常復(fù)雜。因此,我們現(xiàn)在必須從新的維度定義高質(zhì)量數(shù)據(jù):不僅要核查最終結(jié)果,還要追溯推理邏輯是否合理;需要進行一致性校驗;必須檢測數(shù)據(jù)是否被潛在投毒或含有偏見;最后還需通過專業(yè)評測集進行多維度驗證。
正是這種評估方法的根本性轉(zhuǎn)變,使得高質(zhì)量數(shù)據(jù)在今天如此關(guān)鍵——它直接影響著千行百業(yè)的決策,而不再只是輔助客觀判斷的工具。
主持人:接下來想請教李總:在許多傳統(tǒng)企業(yè)中,海量的紙質(zhì)或圖片文檔長期沉淀在內(nèi)部,難以訪問和利用,行業(yè)常稱之為“暗數(shù)據(jù)”。您認(rèn)為企業(yè)應(yīng)當(dāng)如何有效挖掘這類暗數(shù)據(jù)的價值?
李明:我們合合信息的AI OCR技術(shù),核心就是幫助企業(yè)喚醒各類沉睡的非結(jié)構(gòu)化數(shù)據(jù)。通過多年在OCR算法上的積累,并結(jié)合大語言模型的能力,我們現(xiàn)在能一站式解決企業(yè)與個人在文檔處理上的多樣化需求。
這其中涉及多項技術(shù)環(huán)節(jié)。例如,面對非結(jié)構(gòu)化文檔,我們首先進行樣本標(biāo)準(zhǔn)化預(yù)處理,包括去除復(fù)雜背景、曲面校正、文字增強與銳化等,以此大幅提升后續(xù)結(jié)構(gòu)化的效果。在業(yè)務(wù)流程中,企業(yè)常有海量文檔自動分類的需求,我們的分類引擎能快速識別文檔類型并自動歸類,進而精準(zhǔn)提取關(guān)鍵字段。
此外,很多業(yè)務(wù)文檔是混合型的——一份PDF里可能包含多類單據(jù)或樣本。對此,我們通過AI技術(shù)實現(xiàn)智能“拆套”,自動分離不同頁面并分別處理。針對日益增多的“非標(biāo)”文檔(如無固定版面但要素復(fù)雜的教材、論文),也能處理其中復(fù)雜的數(shù)學(xué)公式、化學(xué)式等內(nèi)容,將其結(jié)構(gòu)化后提供給大模型進行訓(xùn)練。
基于這些能力,我們已打造了TextIn平臺,全方位解決各類文字識別與結(jié)構(gòu)化問題。目前,國內(nèi)超過一半的頭部大模型廠商,在模型訓(xùn)練與語料萃取環(huán)節(jié)都在使用我們的服務(wù)。我們的愿景,是通過AI OCR技術(shù)助力全球各語種、各類型文檔的結(jié)構(gòu)化與數(shù)字化進程。
主持人:請問吳總,空間智能對于未來數(shù)字人以及機器人產(chǎn)業(yè)的發(fā)展,具體會起到怎樣的關(guān)鍵作用?它的核心價值體現(xiàn)在哪里?
吳邦毅:空間智能之所以關(guān)鍵,在于它是AGI最終支撐工業(yè)化落地的遞進與橋梁。
我們天娛數(shù)科在具身智能領(lǐng)域,專注于“感知”和“大腦”這兩個核心板塊。在這個過程中,我們發(fā)現(xiàn)了一個普遍的行業(yè)痛點:目前,無論是市面上各種形態(tài)的機器人、智能體還是大模型,各家生成和訓(xùn)練的數(shù)據(jù),大多都只能封閉地應(yīng)用于自己的特定本體上,無法有效遷移和通用。這是一個很大的限制。
同時,訓(xùn)練空間智能大模型所必需的3D數(shù)據(jù),目前整體上是非常稀缺的。這正是空間智能成為關(guān)鍵一環(huán)的原因——它不僅是感知環(huán)境,更是支撐機器人進行決策與執(zhí)行的核心。因此,我們決定聚焦于基礎(chǔ)設(shè)施建設(shè),大力投入3D數(shù)據(jù)集的構(gòu)建。
目前,全球最大的3D數(shù)據(jù)集來自O(shè)bjectverse XL,規(guī)模在千萬級別。經(jīng)過近一兩年的積累,我們天娛數(shù)科的自建數(shù)據(jù)集已達到百萬級規(guī)模,正在努力追趕。難點在于,3D數(shù)據(jù)的采集與傳統(tǒng)文本數(shù)據(jù)完全不同,成本高昂。以往它主要依賴行業(yè)從業(yè)者、愛好者和影視游戲領(lǐng)域的制作,數(shù)據(jù)量和質(zhì)量都遠不足以訓(xùn)練大模型。
我舉個例子。在技術(shù)路徑上,早期我們采用ACT(一種Transformer架構(gòu))進行模仿學(xué)習(xí),通過人員穿戴設(shè)備遙操作來讓機器人學(xué)習(xí)人類動作。但采集一個簡單的抓取動作,可能就需要10萬條以上數(shù)據(jù),而當(dāng)時單條數(shù)據(jù)的成本高達5到7元,非常昂貴。
技術(shù)的迭代帶來了轉(zhuǎn)機。特別是隨著2024年DeepSeek等工作的驗證,我們現(xiàn)在結(jié)合仿真平臺和強化學(xué)習(xí)進行后訓(xùn)練,這極大緩解了對海量真實數(shù)據(jù)的依賴。我們現(xiàn)在采用“數(shù)字?jǐn)?shù)據(jù)”(仿真生成)與真實數(shù)據(jù)結(jié)合的方式,能夠大幅降低數(shù)據(jù)成本。
所以,回到主持人的問題,空間智能對于數(shù)字人和機器人產(chǎn)業(yè)的價值,我認(rèn)為它扮演的是“大腦”級的角色,是具身智能實現(xiàn)自主決策與行動非常關(guān)鍵的一環(huán)。
主持人:感謝吳總。請問謝總,云跡科技最近提出了一個“機器人口紅利”的概念,認(rèn)為機器人不僅是提供服務(wù)的勞動力,更是離實際場景最近的數(shù)據(jù)終端。能否請您具體分享一下,這些由機器人沉淀下來的數(shù)據(jù),是如何反過來滋養(yǎng)業(yè)務(wù),并形成云跡科技獨特優(yōu)勢的?
謝云鵬:現(xiàn)在人口紅利在逐漸消失,我們認(rèn)為下一個紅利是機器人口紅利。因為人生產(chǎn)人的成本越來越高,而人生產(chǎn)機器人的成本正越來越低,并且隨著規(guī)模增長,成本還會進一步降低。馬斯克也曾預(yù)測,未來機器人的數(shù)量一定會超過人類——物聯(lián)網(wǎng)設(shè)備的數(shù)量其實已經(jīng)遠超人口總量,我們雖然無法確定這會是5年還是50年后,但相信這是一個必然趨勢。
因此我們提出了“機器人口紅利”這一概念。關(guān)于數(shù)據(jù)如何反哺機器人服務(wù),這正是我們持續(xù)思考的方向。我們希望把具身智能與離身智能結(jié)合起來,盡可能精準(zhǔn)地掌握客戶在客房內(nèi)所產(chǎn)生的需求與信息,從而讓機器人提供更準(zhǔn)確、更符合人期望的服務(wù)。
目前在酒店場景中,很多用戶需求其實存在,但可能被掩蓋或未被激發(fā)。機器人服務(wù)與人相比有顯著差異:比如在配送物品時,客人面對人可能會因衣衫不整或未化妝而感到不好意思,但對機器人就不會那么羞怯。我們最近甚至遇到一位客人,在用機器人送水時,特意留言讓機器人對他說一句“一切都會好起來的”。這類需求,人們可能更愿意向機器人提出。
所以,我們認(rèn)為未來如果能更精準(zhǔn)地把握這些客戶需求信息,機器人就能提供更切實、更保護隱私、也更具人文關(guān)懷的服務(wù)。這是我們的核心想法。
主持人:今天我們的話題始終圍繞數(shù)據(jù),而臺湖正是國家數(shù)據(jù)基礎(chǔ)制度先行區(qū)——所以最后一個問題,請大家每人給臺湖送上一句話的寄語。
高體偉:聽了領(lǐng)導(dǎo)對臺湖的介紹,我覺得這里非常有特色。在未來的發(fā)展中,首先要找準(zhǔn)自己的長板和獨特定位,通過制度設(shè)計來牽引產(chǎn)業(yè)和技術(shù)落地。具體到執(zhí)行層面,從我的角度出發(fā),建議打造“可信數(shù)據(jù)空間+特色行業(yè)智能體”的模式。在這個過程中,可以凝聚行業(yè)與人才,基于開放可信的數(shù)據(jù)生態(tài),把臺湖打造成國內(nèi)AI原生應(yīng)用的標(biāo)桿。
何鴻凌:數(shù)據(jù)先行、模式創(chuàng)新、AI應(yīng)用落地。
李明:在數(shù)據(jù)要素快速轉(zhuǎn)化為生產(chǎn)力的進程中,客觀來說,現(xiàn)在天時地利人和基本都已具備。無論是制度上的突破、技術(shù)的迭代,還是場景的落地,其實都呈現(xiàn)出百花齊放的態(tài)勢,并涌現(xiàn)出不少標(biāo)桿案例。關(guān)于臺湖,我聽了相關(guān)介紹,這里的產(chǎn)業(yè)集群覆蓋了算力、場景等多個層面,還擁有自身的核心數(shù)據(jù)產(chǎn)業(yè)園區(qū)?;谶@些優(yōu)勢,我確實期待能在臺湖快速見證數(shù)據(jù)可確權(quán)、可定價、可交易的標(biāo)桿場景,以及整個數(shù)據(jù)流通的典型實踐,也希望能在這里看到更多案例落地。
吳邦毅:我送上對臺湖的祝福——這里必定會成為一個以數(shù)據(jù)為核心,未來匯聚算力、算法和高新技術(shù)人才的區(qū)域,希望臺湖發(fā)展得越來越好。
謝云鵬:好戲連臺,以數(shù)據(jù)科技賦能具身智能的高質(zhì)量發(fā)展。







