計算機科學家吳恩達曾在《爲什麼AI是新電能》中如是寫道:如今我絞盡腦汁,也想不出幾年後還有什麼行業是AI改變不了的。

在AI發展歷史上,曾有過三座裏程碑:第一次是1997年,藍色巨人IBM旗下的AI“深藍”擊敗國際象棋大師卡斯帕羅夫;另一次則要回溯到2016年——谷歌旗下的AI機器人AlphaGo在“人機大戰”中,第一次擊敗人類職業圍棋冠軍李世石。

這之後,AI行業經歷了從極速繁榮到資本退潮,行業隨之步入數年的低谷期,一直到去年ChatGPT的橫空出世。作爲後疫情時代的一個絕佳故事腳本,尤其在其三個月達到過億用戶爆火之後,ChatGPT這類大語言模型就像一顆燎原的星星火種,在科技公司間急速蔓延,引得大洋兩岸那些曾經高昂頭顱的互聯網巨頭們紛紛趨之若鶩,躬身入局。

百度當然對此也躊躇滿志,官宣將在3月份推出新一代的大語言模型“文心一言”。據36氪報道,其內部曾討論過兩種方案,一種是推出獨立入口(類似此前百度推出的AI畫作平臺“文心一格”);另一種則是將文心一言與現有的百度搜索入口打通。

但無論究竟是何種形式,作爲國內AI領域的代表龍頭,百度此刻率先出陣,究竟意欲何爲?中國的大語言模型是否真的能支撐起其夢想的星辰大海?百度曾經定下的“All in AI”路線又是否到了收獲的季節?

1

新的星辰大海?

2023年2月22日,百度發布了截至2022年12月31日的第四季度及全年未經審計的財務報告。據財報顯示,2022年,百度實現營收1236.75億元,歸屬百度的淨利潤(非美國通用會計準則,下同)爲206.8億元,同比增長10%。其中第四季度,實現營收330.77億元,淨利潤爲53.71億元,同比大漲32%。2022財年,百度核心連續四個季度業績超市場預期。

隨着疫情後經濟復蘇,疫情邏輯對公司業績影響逐步弱化,百度收入環比增長得以持續改善,而Q4同比增長的幅度略弱於Q3,說明去年放開之後的疫情的短期衝擊對公司收入仍產生了一定的壓制。

從淨利潤上來看,自去年Q2以來,單季均保持在50億以上,這表明以百度目前的業務結構,核心業務盈利能力相對穩定;而仰賴於非廣告業務的戰略轉型、降本增效以及21年Q4的低基數效應,這三大核心因素的向上共振,2022年Q4得以出現大幅增長。

但由於宏觀經濟在趨勢上的慣性,短期內廣告主的投放意願明顯降低。

據數據顯示,10月、11月國內廣告市場總刊例支出分別同比下滑16%和11%。但資本市場對2023年的經濟修復頗爲樂觀,廣告業務與宏觀經濟關聯度較高,隨着今年經濟復蘇的逐步兌現,百度的主營廣告業務或將在2023年迎來明顯修復。

而從營收數據佔比來看,百度營收如今更趨多元化,非廣告營收佔比逐季增加。

其中百度核心收入總計954億元人民幣,與去年基本持平;廣告收入爲695億元,非廣告收入爲259億元,同比增長22%,主要受百度智能雲及其他AI業務的推動。很明顯百度以科技爲內核的非廣告業務逐步開始兌現業績,有望成爲公司新的業績增長動能。

而被視爲人工智能裏程碑的大語言模型無疑是當下一個最好的商業化敘事敲門磚。

2月8日,谷歌發布了基於LaMDA模型的對話機器人Bard,當其在發布會上被問到“如何向9歲的孩子介紹NASA的詹姆斯·韋伯太空望遠鏡的新發現”時,Bard給出了一條遠稱不上“新發現”的答案,而這一小小的bug,卻令當日谷歌的股價暴跌7.68%,市值蒸發超過1000億美元;幾乎同一時間,宣布推出由ChatGPT支持NewBing搜索引擎的微軟市值一天卻飆漲超800億美元。

而在此前一天,百度官宣了“文心一言”項目,坐實此前其正對標美國AI聊天機器人ChatGPT開發應用的傳言。消息公布當天,百度港股股價曾一度大漲15%,美股股價漲幅也達12%。

單憑一個概念便能攪動資本市場風雲,大語音模型所承載的商業化前景不言自明,這對於已經深耕人工智能多年的百度來說,是一個絕不能錯過的風口。

如今百度智能雲的市場份額居全球第四,收入增速也高於雲市場大盤。但受疫情影響,對智能雲的交付產生一定拖累,以及市場整體的增長放緩,因此百度智能雲在22年Q4的收入同比才出現一定程度的放緩。

隨着2月17日,百度宣布其生成式AI產品“文心一言”將通過百度智能雲對外提供服務,率先在內容和信息相關的行業和場景落地。文心一言的接入,無疑將進一步增強百度智能雲在雲服務市場的競爭力。

在此次發給百度全員的財報信中,李彥宏就重點介紹了百度將在三月份推出的生成式AI產品文心一言,宣布計劃將多項主流業務與文心一言整合。並表示:“中國AI市場即將迎來爆發性的需求增長,其商業價值的釋放將是前所未有的、指數級的。而百度作爲中國人工智能市場長期增長的最佳代表,正站在浪潮之巔”。

所以此時唯一的問題便在於,百度如何做好文心一言?

2

時代選擇了百度

此前對於元宇宙一直不甚感冒的李彥宏,卻在公開場合絲毫不掩飾其對於AIGC以及ChatGPT的重視,甚至有報道稱其直接把自己的2023年OKR定爲:“引領搜索體驗的時代變革”。

而實際上李彥宏也的確有足夠的底氣定下如此的OKR:從目前來看,不論從技術還是應用層面,大語言模型和百度都十分契合。

技術層面上,由於語義理解需要海量數據讓AI理解常識而壁壘較高,因此自然語言處理(NLP)也被視爲“人工智能皇冠上的明珠”,往往誰能實現在NLP技術的突破,誰就能在AI領域一騎絕塵。

早在百度誕生之時、從百度處理用戶的第一次搜索開始,NLP技術就成爲搜索技術的重要組成部分,並伴隨着百度的快速發展,同步壯大,可以說NLP技術和搜索業務天然契合。

2010年初,百度正式成立自然語言處理部,並不斷在語音、圖片等技術上布局,敲定了在知識圖譜技術上長期投入的戰略;2019年3月,百度提出知識增強的語義理解框架ERNIE,半年後,百度又發布了PLATO-XL,一舉超過Facebook Blender、谷歌 Meena和微軟DialoGPT,成爲全球首個百億參數中英文對話預訓練生成模型。

得益於超前的布局和投資,百度取得的成績也有目共睹。

2018年2月21日,百度 NLP團隊研發的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO機器閱讀理解測試排行榜首;2019年12月,百度文心ERNIE又以9個任務平均得分首次突破90大關的好成績,刷新GLUE(通用語言理解評估基準)榜單歷史奪得榜首;一年後,百度ERNIE 又以 90.9 的分數領先谷歌 T5、微軟DeBERTa、TuringNLRv4,以及阿裏巴巴、華爲等研發的其他同類別技術,再度蟬聯。

所以從目前的表現來看,中國還沒有一家公司的NLP技術水平接近百度,也沒有任何一家公司能利用這個技術挑戰百度。

另一方面,百度開發文心一言所需的基礎能力也並不是從零開始。

從2017年6月,Google發布論文《Attentionisallyouneed》,首次提出Transformer模型,奠定GPT模型發展的基礎,到2022年11月30日,OpenAI推出ChatGPT模型,並提供試用。僅僅不足6年時間,大語言模型便走完從理論到現實的歷程,其核心催化就在於算法+數據+算力的共振。

而百度恰好在此三項都擁有足夠的領先優勢,又得益於在芯片、框架、模型、應用四層技術棧均有布局,百度的大語言模型相關技術,在中國乃至全球範圍均具有綜合優勢。

圖片例如算法方面,百度擁有多個雲計算可用區、龐大的超算集羣,奠定大模型訓練的基礎設施;算力方面,百度自研AI芯片“昆侖”,已完成無人駕駛場景端到端性能適配,並在多場景實際部署幾萬片,在公司搜索業務中也已形成較強工程化實踐,因此算力也有所保證;而數據層面,百度的搜索業務每天處理上百PB的用戶數據,在真實數據和用戶需求理解方面的積累有較強的先發優勢,這些大規模結構化非結構化數據完全可以支撐大模型的充分預訓練。

其中百度的文心大模型和Open AI的GPT模型基本類似,自2019年推出後,已經迭代多次,從單一的自然語言理解延伸到多模態,包括視覺、文檔、文圖、語音等多模態多功能,因此“文心一言”所基於的ERNIE系列模型也已經具備較強泛化能力和性能。

以最新發布的ERNIE 3.0 Zeus爲例,該模型迭代於ERNIE 3.0,擁有千億級參數。其已經具備智能創作等各類自然語言理解和生成任務,且公開數據集上小樣本學習、理解和生成任務效果皆好於業界其他模型。此外,文心大模型作爲本土化的AI模型,具備對中文、甚至中國文化的更深理解,這意味着文心一言會更適合中文和中國市場。

而在具體的應用層面,文心一言更是爲百度量身打造的開山利斧。ChatGPT本質上還是自然語言生成式AI,能提供高度智能的對話式問答結果,這顯然很適用於搜索場景。而作爲中文互聯網搜索的龍頭巨擘,如果百度能在搜索生成上取得足夠大的先發優勢,這無異於又是一張互聯網新時代的船票。

事實上,百度從2021年就開始嘗試把AIGC與搜索兩者結合起來,而在今年1月初的百度Create AI開發者大會上,百度也宣布將基於百度自研的生成式模型,升級“生成式搜索”能力。同時還表示,搜索與生成式AI之間的關系更像是互補而非單一替代關系。而在人員調度方面,據36kr的報道,此次“文心一言”的籌備團隊主要由TPG(技術中臺事業羣)、MEG(移動生態事業羣)兩大部門協同。

前者負責技術攻堅,後者進行搜索、內容產品承接。並且由CTO王海峯任項目總指揮,百度集團副總裁吳甜(同時擔任深度學習技術及應用國家工程研究中心副主任)、百度技術委員會主席吳華等人任帶隊高管。可以說此次百度做文心一言已經佔據天時和地利人和的先機,不僅是百度選擇了文心一言,而是憑借多年的苦心經營、研發投入,有了如今的技術沉澱後,如今的AI時代再次選擇了百度。3

未來的時代奇點

李彥宏認爲:“ChatGPT是AI技術發展到一定階段後的新機會。怎麼把這麼酷的技術,變成人人需要的產品,讓每天有幾億人從中受益?怎麼賦能千行百業,讓他們的生產效率大幅度地提升?這一步才是最難的,也是最偉大、最能夠產生影響力的”。

因此如何將吹得天花亂墜的技術,實際賦能落地到實處已成爲當下所有入局玩家亟需解決的眼前之事。

李彥宏說:“2022年是大模型產業化應用的元年,大模型已成爲許多上層應用的技術底座”。實際上在AI大模型這個競爭領域,馬太效應十分明顯,領先一步常常持續領先,強者恆強,但百度文心模型的兩大特色已助其先行一步。

一是知識增強,全球獨一的技術,文心大模型從大規模知識圖譜和海量無結構數據中學習,學習效率更高、效果更好,具有良好的可解釋性。二是產業級,文心大模型的技術源於產業並且致力於推動產業智能化升級,通過用戶的反饋與各個產業相結合,更好地解決用戶的需求。

當然百度能有今天的技術沉澱離不開其十數年如一日的投資研發。

2009年8月,在當年的百度技術創新大會上李彥宏首次提出“框計算”的概念:用戶只要在“百度框”中輸入服務需求,系統通過用戶提交的需求進行語義分析、行爲分析、人機交互和海量計算處理之後,就能將搜索與服務對接。

作爲最早智能搜索的雛形,而後十幾年,百度在“燒錢”的AI路上一去不返。

2020年,李彥宏在一次論壇上提到:“過去十年,百度每年研發投入佔營收15%以上,其中AI技術研發就是百度種下的種子之一”。一年後,百度在港交所二次上市,募集資金裏有一半用作持續科技投資,用於促進以人工智能爲主的創新業務商業化。

目前,百度是全球爲數不多的、進行全棧布局的人工智能公司,10年間投入高達1000億元,每年研發佔收入比例都超過15%,去年更是達到了23%。但按照歷史經驗,技術的超前投入往往如空中樓閣,AI只有與業務結合,爲其提供支撐才能走得更遠。

在無人駕駛領域,百度親自下場。2022年Q4,百度自動駕駛出行服務平臺蘿卜快跑訂單量達到56.1萬,同比增長162%。截至2023年1月底,蘿卜快跑累計訂單量超過200萬單,穩居全球最大的自動駕駛出行服務提供商。

2021年集度汽車成立後,文心又與吉利建立了行業模型,對智能客服系統、車載語音系統、領域知識庫構建進行提升。自己掌握汽車硬件和智能駕駛系統層,百度在無人駕駛領域的數據和反饋直接用於訓練硬件軟件系統,推動無人駕駛能力提升,這是百度AI模式的一個典型。

另一方面根據IDC、Strategy Analytics和Canalys的市場數據,小度在2022年前三個季度再次取得中國智能音箱和智能屏出貨量雙第一。未來,小度也將融合文心一言,打造針對智能設備場景的人工智能模型“小度靈機”,升級多輪對話能力。

此外對於百度而言,語言大模型的另一個價值在於推動AIGC發展。從這一角度來看,語言大模型作爲文字模態的AIGC發展潛力大,可以與圖形模態的AIGC相結合,打造從文字描述到圖片生成的AI輔助工具,形成效率和成本上的優勢。

說白了,互聯網的核心是流量,流量的核心是內容。而 AIGC 的本質,就是一項生產內容的技術。誰掌握了內容,就等同掌握了流量,而掌握了流量就掌握了商業競爭的最大主動。AIGC作爲內容業務的開山斧、催化劑,誰先擁有AICG、誰先應用AICG,將進一步成爲決定平臺內容命運的關鍵變量。

因此在百度,AI與業務的結合可以說是全方位的。視覺的自動駕駛層面有Apollo,語音的智能交互有小度和DuerOS,雲計算領域有百度智能雲,在作爲百度現階段基底的MEG中,AIGC與內容的結合補齊了最後一塊拼圖。百度的千億投入,沁潤進了自身的每一塊業務版圖,也有了得以價值最大化和持續發展的可能性。

誠然,技術能夠提供怎樣的價值,最終還是在於如何將其封裝進產品,對生成式 AI 也是如此。所以當技術已經進步,老船長是否還能再次揚帆起航,答案已經寫在不久的將來。

4

寫在最後

如果從2017年高調宣布 “All in AI” 算起,百度押注AI產業已經有6年了;而如果從更早的2013年建立美國研究院算起,百度投身AI則有十年了。站在當下的時間節點回顧過往,在試圖引領下一輪技術浪潮AI的革命的漫長等待途中,百度錯過了一些風口。

即便百度稱自己在過去10年投入了1000億研發資金,但AI的投入所帶來的反響卻並未如預期般熱烈。就在這種彌漫着沮喪的行業氛圍中,AIGC的出現就猶如漫漫黑夜中的一絲螢火,點燃了沉寂已久的AI熱潮。

對於百度而言,長期的詩和遠方需要一個具象的落腳點,而業界對於ChatGPT的熱情,讓這個落腳點終於清晰了起來。所以這就好比一段雙向奔赴的戀愛,既是時代選擇百度,也是百度主動選擇文心一言,擁抱了時代。

而從目前結果來看,能把大語言模型做好的,的確也是百度文心一言。文心一言能做到什麼程度,甚至是否真的能超過ChatGPT,成爲百度期盼已久的“第二增長曲線”,讓我們靜待文心一言的表現吧。