青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

非獨(dú)家對話李彥宏:真正AI時(shí)代 新的應(yīng)用需要基于大模型的“新地基”

3月23日晚上,百度文心一言邀請內(nèi)測一周后,李彥宏和品玩,極客公園以及CSDN一起聊了一個(gè)小時(shí)天。

對于文心一言快速邀請內(nèi)測背后的考量,與ChatGPT和GPT-4等的比較,未來國內(nèi)市場的競爭,以及這場技術(shù)革命給人類帶來的機(jī)會(huì)和挑戰(zhàn),他都給出了自己的答案。

以下為經(jīng)簡單整理的聊天實(shí)錄。

誕生

“我當(dāng)時(shí)拍了個(gè)板,3月份一定要內(nèi)測”

極客公園:Robin好,非常高興見到你,其實(shí)百度文心一言作為中國第一個(gè)類似于ChatGPT這樣類型的產(chǎn)品,本身是情理之中,可能速度有點(diǎn)意料之外,我聽到外界比較感興趣一個(gè)傳說百度經(jīng)歷過大概40天沖刺,能夠迅速Deliver產(chǎn)品出來,這個(gè)讓大家很吃驚的,我好奇40天經(jīng)歷什么,沖刺怎么沖,給我們講講誕生過程。

李彥宏:40天這個(gè)說法我是沒有聽說過的。百度做人工智能十幾年,我們做大語言模型也有幾年的時(shí)間,從2019年文心1.0版本發(fā)布,到現(xiàn)在將近四年時(shí)間,這期間我們發(fā)布了文心1.0、2.0、3.0。去年11月30號(hào)ChatGPT發(fā)布,我們試用了一下之后確實(shí)有驚艷的感覺,與以前的大模型相比,尤其在內(nèi)容生成方面有大的進(jìn)步,所以從那個(gè)時(shí)候開始內(nèi)部確實(shí)壓力比以前更大。

中國產(chǎn)業(yè)環(huán)境里,包括我接觸到很多人都在問,百度有嗎,你們要不要做一個(gè)類似的東西,大家很自然而然地往這個(gè)方向想。百度這些年一直在做語言大模型,確實(shí)很重視,從2019年到現(xiàn)在,我個(gè)人花了不少時(shí)間和團(tuán)隊(duì)討論大模型到底會(huì)向什么方向發(fā)展,會(huì)有什么樣應(yīng)用,有多大潛力,應(yīng)該投入多少資源。到最后越來越覺得我們需要盡快做一個(gè)對標(biāo)ChatGPT的大語言模型。

所以確實(shí)在邀請內(nèi)測之前兩個(gè)月,內(nèi)部工作壓力蠻大的,大家日夜奮戰(zhàn),也有很強(qiáng)的危機(jī)感。剛剛做出來的時(shí)候,內(nèi)部看效果確實(shí)不行,我們雖然看到它能以很快的速度提升,但是不確定什么時(shí)候可以邀請內(nèi)測。內(nèi)部也不斷討論到底什么時(shí)候可以。

我當(dāng)時(shí)拍了個(gè)板,3月份一定要內(nèi)測。團(tuán)隊(duì)沒有那么有信心,擔(dān)心3月份做不出來。我這樣做確實(shí)是有意給團(tuán)隊(duì)一些壓力,讓他們能夠動(dòng)作更快一點(diǎn),提升的速度更快一點(diǎn)。

所以確實(shí)最后兩個(gè)月比較緊張,但是我還是比較滿意。一開始我們公布3月份要內(nèi)測的時(shí)候,團(tuán)隊(duì)的理解是3月31號(hào)。后來我跟他們講3月17號(hào)我要去參加亞布力論壇,那個(gè)時(shí)候文心一言已經(jīng)滿城風(fēng)雨,關(guān)注度非常高,如果我到亞布力的時(shí)候文心一言沒有內(nèi)測,我會(huì)不知道該說什么,別人關(guān)注都是文心一言,我去講別的,人家肯定覺得很虛偽。包括一些很好的朋友,問起來的話什么都不說是不行的,說一些保密的東西也不合適,畢竟我們也是上市公司,投資人也對文心一言很關(guān)心,跟一部分人說跟不跟另外一部分人說,就是選擇性披露,這是不行的,所以2月底的時(shí)候我就說3月16號(hào)邀請內(nèi)測好了。確實(shí)到最后這個(gè)階段有一點(diǎn)趕,但3月16號(hào)的時(shí)候我對文心一言已經(jīng)達(dá)到的水準(zhǔn)還是比較滿意的。

“市場需求這么旺盛情況下,誰先做出來還是意義非常大的”

品玩:Robin特別高興有這個(gè)機(jī)會(huì)跟您交流文心一言事情。您本人、團(tuán)隊(duì)最近一直強(qiáng)調(diào)百度是全球大廠里第一個(gè)做出生成式AI模型的公司。外界對創(chuàng)業(yè)公司和大廠做同樣的大模型這件事的包容度是不同的,您怎么看待大廠里第一個(gè)內(nèi)測大模型這件事的意義,為什么它對百度是重要的,以及大廠在這里邊有哪些東西是它的優(yōu)勢?

李彥宏:百度文心一言內(nèi)測之后遇到了一些批評的聲音,算是我預(yù)料之中。我在新聞發(fā)布會(huì)至少說過三遍文心一言還不完美,選擇現(xiàn)在這個(gè)時(shí)間邀請內(nèi)測,最主要的原因是市場需求旺盛。ChatGPT剛剛發(fā)布的時(shí)候也是遇到很多批評,所謂“一本正經(jīng)胡說八道”,很多人覺得無法接受。我記得程序員社區(qū)Stack OverFlow明確禁止在社區(qū)發(fā)布通過ChatGPT生成的內(nèi)容,因?yàn)镃hatGPT錯(cuò)誤率太高了,很容易誤導(dǎo)用戶。所以文心一言不管什么時(shí)候出來,都不可能是完美的,只有出來之后才有機(jī)會(huì)更快地去迭代,去提升。

百度作為全球大廠中第一個(gè)做出來意義很大,我覺得很驕傲,因?yàn)槭袌鲂枨筇⒘耍瑹o數(shù)的人,過去不怎么聯(lián)系或者行業(yè)跟我隔得很遠(yuǎn)的人現(xiàn)在都在問,我們怎么能跟百度合作,怎么盡早試用。

所以在中國市場上極早做出來一個(gè)生成式大語言模型意義是非常大的。其他的大廠包括美國的谷歌、Facebook、Amazon都沒有發(fā)出來,我覺得有兩種原因,一個(gè)原因是他們之前沒有那么重視這件事,生成式AI和過去搜索引擎常用的判別式AI是不太一樣的,使用的算法、理念甚至是評判質(zhì)量好壞的標(biāo)準(zhǔn)都不太一樣。所以生成式AI不是大廠之前很重視的方向,等到ChatGPT出來之后,它再著急的話確實(shí)需要時(shí)間的,不是一時(shí)半會(huì)兒能夠做的跟OpenAI做的一樣好。

當(dāng)客戶把需求提給我們之后,我們有針對性地進(jìn)行優(yōu)化和迭代,很快就可以變得非常有用。對我們來說如果客戶不愿意為這個(gè)付費(fèi),這個(gè)產(chǎn)品或者這個(gè)技術(shù)對我們也沒有什么價(jià)值,客戶如果愿意付費(fèi)的話,無論多不完美它自己就證明了它的價(jià)值,所以我覺得市場需求這么旺盛情況下,誰先做出來還是意義非常大的。當(dāng)你作為一個(gè)大廠第二個(gè)做出來了,很像谷歌在美國遭遇一樣,其實(shí)谷歌的人工智能技術(shù)我覺得基礎(chǔ)是非常好的,這么多年AI上花的錢應(yīng)該可能不輸于任何一個(gè)全球高科技公司。在這種情況下如果出來的東西還是有瑕疵的,明顯不如一個(gè)創(chuàng)業(yè)公司的話,頂?shù)膲毫κ呛艽蟮?。作為市場上第二個(gè)出來,公眾或者說客戶、媒體對你的要求完全不一樣了,所以從這個(gè)意義講我也認(rèn)為第一個(gè)出來非常重要。

競爭

“別人我們管不了,我們只管自己就好了”

極客公園:拿今天的文心一言和已經(jīng)經(jīng)過幾個(gè)月數(shù)據(jù)飛輪循環(huán)的ChatGPT跨時(shí)空比有些不公平的,對公眾來講大家還是很期望有一個(gè)比較能夠理解的對標(biāo),比如說讓你定義下,今天的文心一言相當(dāng)于什么時(shí)候的ChatGPT,甚至在技術(shù)上是多少分,或者相當(dāng)于什么時(shí)候?有沒有一個(gè)比較具像讓大家理解這么一個(gè)對標(biāo),追問一句有差距但是往上追趕,真正挑戰(zhàn)到底是在算力、數(shù)據(jù)、還是在模型更創(chuàng)新方式上,你會(huì)怎么看?

李彥宏:文心一言邀請內(nèi)測之后,我看到網(wǎng)上各種各樣的評測、對比,都是在拿文心一言跟最先進(jìn)的大模型做對比。不僅會(huì)對比GPT-3.5版本,也會(huì)對比GPT-4版本。GPT-4在文心一言邀請內(nèi)測之前一天發(fā)布,發(fā)布之后大家在網(wǎng)上評測、對比都是說文心一言和GPT-4相比有什么問題,或者熟優(yōu)熟劣。像文心一言的多模態(tài)功能,用文字生成圖片,我看好多人把這個(gè)功能跟Midjourney對比,大家會(huì)在任何一個(gè)方向上用市面上最先進(jìn)的產(chǎn)品跟百度文心一言進(jìn)行比對。其實(shí)我覺得也無所謂公平不公平,大家這么關(guān)注,有這么高期望,是我不斷提升的動(dòng)力。我也不斷在講文心一言不夠完美,事實(shí)上如果全面來評測的話,文心一言確實(shí)也不如現(xiàn)在最好的ChatGPT版本,但是差距不是很大。所謂不是很大,可能就是一兩個(gè)月的差別。講一個(gè)我們內(nèi)部的Datapoint,大約就是兩個(gè)月之前,我們內(nèi)部做過一次評測,用文心一言跟當(dāng)時(shí)的ChatGPT做對比,我們大約落后那個(gè)時(shí)候的ChatGPT 40分左右,我們分析那些落后于它的地方,感覺差不多用一個(gè)多月時(shí)間就可以把這些問題解決。

過一個(gè)月之后解決的差不多了,再去評測一下ChatGPT和文心一言,發(fā)現(xiàn)我們不僅沒有趕上ChatGPT,反而差距拉大了。所以當(dāng)時(shí)的團(tuán)隊(duì)也很焦慮,就覺得說我們做了半天反而越來越不如人家了。

極客公園:為什么?是數(shù)據(jù)原因還是其他原因?

李彥宏:就是ChatGPT本身也在不斷升級(jí),能力也在快速提升,那一個(gè)月的時(shí)間,文心一言可能提升速度不慢,但ChatGPT可能中間有一次大升級(jí),導(dǎo)致它能力有一次質(zhì)的飛躍。再仔細(xì)分析差距之后,覺得說再給一個(gè)月還能夠追的七七八八。按照團(tuán)隊(duì)現(xiàn)在的分析,我們水平差不多是ChatGPT今年1月份的水平。但是大家早就忘了1月份它是什么樣子,今天大家已經(jīng)習(xí)慣GPT-4,GPT-4這個(gè)技術(shù)跟我們只差一天出來,是一個(gè)其他大廠也很難去拿出一個(gè)東西跟它比的技術(shù),所以我覺得沒關(guān)系,比就比,對我來說只要自己提升足夠快,能夠把過去做不到的東西一步步做到,尤其有越來越多的用戶給我們這些反饋的時(shí)候,我還是逐漸看到不少亮點(diǎn),不少我們已經(jīng)做的比現(xiàn)在的ChatGPT要好的方向,當(dāng)然更多方向不如它,我覺得假以時(shí)日我們都是可以彌補(bǔ)的。

極客公園:越多的人在用,哪怕大家吐槽,有追上更大可能。

李彥宏:這也是當(dāng)初急著邀請內(nèi)測的重要原因。

極客公園:大家一邊罵一邊用也是有意義。

李彥宏:對,別人我們管不了,我們只管自己就好了。

“被裹挾不見得是壞事”

品玩:您提到著急邀請內(nèi)測有被裹挾的成分,那么完成邀請內(nèi)測就是一個(gè)分水嶺,前階段可能被"裹挾",畢竟對方先做了出來,那么接下來都到真實(shí)環(huán)境里來比拼,是不是可以不用完全繼續(xù)被"裹挾"了?

李彥宏:我覺得“裹挾”不見得是壞事,當(dāng)時(shí)沒有外部壓力,我們有可能不會(huì)這么快內(nèi)測這樣水平的產(chǎn)品;邀請內(nèi)測之后我也不覺得不再會(huì)被“裹挾”,恰恰相反每天收到的用戶反饋比以前多很多很多倍,用戶反饋當(dāng)中1/3說好的,2/3是說不好的,說不好的用戶反饋實(shí)際上也是一種壓力,不管公開罵還是通過郵件、通過我們設(shè)計(jì)的渠道來進(jìn)行反饋,每天看到都是各種各樣的問題,遇到問題,去解決問題,這就是創(chuàng)新過程,自然而然會(huì)讓我們迭代的速度越來越快,而這個(gè)東西把它說成裹挾也可以,但我更希望說成反饋,我一直認(rèn)為所有的創(chuàng)新都是靠反饋驅(qū)動(dòng)的,有反饋就可以不斷去創(chuàng)新,反饋越多創(chuàng)新速度越快,沒有反饋天天憋在自己屋里頭自己干,那其實(shí)沒有出路的。

品玩:中國公司的大語言模型,和美國公司的大語言模型,未來技術(shù)上會(huì)有區(qū)分嗎?

李彥宏:還是會(huì)有一些不一樣,中國有自己特色的語言和文化,比如說我剛才也講文心一言有些地方做的比ChatGPT好,比如貼吧里邊那些梗,你去問文心一言,它基本上回答對,97%、98%的準(zhǔn)確率,ChatGPT會(huì)是30%左右準(zhǔn)確率,我估計(jì)它在這方面的訓(xùn)練語料少一些,百度在這方面多一些。再舉個(gè)例子,白話文翻譯成文言文,或者把文言文翻譯成白話文,這個(gè)也是我們擅長的,明顯比它要好。有很多這些東西,包括再往后我們的客戶要求我們做定向調(diào)優(yōu)時(shí)候,數(shù)據(jù)進(jìn)來之后,就能夠在客戶的領(lǐng)域做的更加精細(xì)化,更加高準(zhǔn)確率。因?yàn)橛行﹫鼍安荒軌蛉萑踢@么高的錯(cuò)誤率,所以我們一定會(huì)解決那些問題。時(shí)間長了之后,還會(huì)覺得這兩個(gè)大模型會(huì)有比較多的不同之處,雖然基礎(chǔ)技術(shù)是比較類似。

極客公園:創(chuàng)業(yè)者尤其是技術(shù)型創(chuàng)業(yè)者,在觀察百度文心一言邀請內(nèi)測時(shí),問到文心一言背后的大模型跟OpenAI是完全一樣的技術(shù)路線,還是有不同選擇?未來大模型所謂的煉丹,可能有技術(shù)上的分叉,創(chuàng)業(yè)者在選擇跟隨哪個(gè)平臺(tái)做創(chuàng)新時(shí),應(yīng)該關(guān)注哪些東西?應(yīng)該如何選擇?技術(shù)上是不是還會(huì)有新的變量?

李彥宏:我們用的技術(shù)有一些不同之處,最主要的不同一個(gè)是檢索增強(qiáng),一個(gè)是知識(shí)增強(qiáng)。檢索增強(qiáng)是,由于很容易出現(xiàn)"一本正經(jīng)地胡說八道",我們本身又擁有非常強(qiáng)大的,做了20多年,很高市場占有率的檢索系統(tǒng),搜索語境下人們對錯(cuò)誤容忍度很低。當(dāng)問的問題有相對比較確定性答案的時(shí)候,我們通過檢索增強(qiáng)就能夠比較成功避免“一本正經(jīng)地胡說八道”。所以3月16日的新聞發(fā)布會(huì)demo用的第一個(gè)的例子,《三體》作者是哪里人,我測了好多遍,ChatGPT回答都是錯(cuò)的,我們的每一次回答都是對的,通過檢索增強(qiáng),文心一言首先要理解《三體》作者是誰?哪里人?是什么意思?再問籍貫,這些都弄對,以后才回答得出來。

第二個(gè)不同之處叫做知識(shí)增強(qiáng),這是百度對于大模型領(lǐng)域?qū)W術(shù)上的貢獻(xiàn)。ChatGPT里的T叫做Transformer,是谷歌發(fā)明的,不是OpenAI發(fā)明的。ChatGPT走到這樣一個(gè)地位,不是自己發(fā)明所有的東西,實(shí)際上也吸取了很多前人的經(jīng)驗(yàn),transformer是對大模型的一個(gè)新的推進(jìn)。百度對于大模型的貢獻(xiàn)就是知識(shí)增強(qiáng),我們做搜索的過程中積累了一個(gè)非常大規(guī)模的知識(shí)圖譜,應(yīng)該是全球規(guī)模最大的知識(shí)圖譜,有5500億對事實(shí)。人對物理世界的理解,如果沉淀成知識(shí),用一個(gè)一個(gè)事實(shí)表達(dá)出來,成立一個(gè)知識(shí)庫,成立一個(gè)知識(shí)圖譜,再把它融合進(jìn)文心一言,這就使得自身進(jìn)化的速度會(huì)更快一些,因?yàn)榻柚艘恍┢渌墓ぞ撸@也是OpenAI作為創(chuàng)業(yè)公司相對來說不具備的資源或優(yōu)勢。

“具體公布參數(shù),意義不大”

極客公園:剛才聊到百度在通用大模型上有加強(qiáng),做了一些知識(shí)增強(qiáng),等于做了一些額外加強(qiáng),這也是百度在大模型上面的一種創(chuàng)新。不知道能不能公布百度通用大模型是一個(gè)什么量級(jí)的參數(shù)?也是千億量級(jí)數(shù)據(jù)的訓(xùn)練過程嗎?

李彥宏:肯定是千億量級(jí)。這是一個(gè)門檻,如果不過千億不會(huì)出現(xiàn)智能涌現(xiàn),這是過去實(shí)驗(yàn)都證明過的。但是具體是多少參數(shù),公布意義不大,過了千億之后,不是萬億量級(jí)參數(shù)一定比千億效果要好。GPT-4出來之前,我看好多媒體猜測是萬億量級(jí)參數(shù),十萬億量級(jí),方向就錯(cuò)了。大模型不是靠提升參數(shù)規(guī)模,是在其他方面進(jìn)行提升,不用太糾結(jié)。

極客公園:那你覺得創(chuàng)業(yè)者在選擇技術(shù)路徑的時(shí)候,背后的在確定性問題上做增強(qiáng),對于創(chuàng)業(yè)團(tuán)隊(duì)或者商業(yè)公司來講是非常重要的地方嗎?

李彥宏:我認(rèn)為在很多場景下都非常重要。有些場景下可能說錯(cuò)了也無所謂,更關(guān)注的是創(chuàng)造性、說話的語氣、精彩程度。但像保險(xiǎn)理賠,客戶打進(jìn)來電話說出什么事故要賠,回答是錯(cuò)的,這個(gè)事就大了,不可用??赡茉谝话胍陨系膽?yīng)用場景當(dāng)中,對于錯(cuò)誤的容忍程度都是很低的。當(dāng)有知識(shí)圖譜和檢索增強(qiáng)的時(shí)候,越到具體的行業(yè)應(yīng)用,越會(huì)顯示出它本身的優(yōu)勢。

技術(shù)

“不知道,跑出來了再去研究”

品玩:您剛才提到了理論和工程的關(guān)系。我們也知道無論是OpenAI做ChatGPT,還是文心一言也好,本質(zhì)上做的是工程師的事情,本身對基礎(chǔ)科技的投入不是很多。這個(gè)過程有人稱之“大型的暴力美學(xué)實(shí)驗(yàn)”,因?yàn)橥度氪罅康馁Y金、算力等去做。前不久一個(gè)AI領(lǐng)域科學(xué)家跟我講,他覺得好幻滅,大家都參與這樣實(shí)驗(yàn),像煉丹一樣。你不知道什么時(shí)間哪次怎樣的努力導(dǎo)致出現(xiàn)變化和躍遷,到底什么原因?qū)е乱粋€(gè)大模型能夠走出來、跑出來,這個(gè)關(guān)鍵到底是在哪個(gè)環(huán)節(jié)上?這個(gè)爆發(fā)的時(shí)刻在過去幾個(gè)月的經(jīng)驗(yàn)當(dāng)中,你覺得哪個(gè)月是最關(guān)鍵的?

李彥宏:簡單講就是不知道,我也不知道哪個(gè)月最關(guān)鍵。這么做了之后,突然能力就具備了。但是我相信未來人類一定會(huì)弄清楚背后的理論基礎(chǔ)。很多時(shí)候就是工程先做出來了,然后再慢慢研究,這是空氣動(dòng)力學(xué),原則等東西慢慢都出來了。我們從小到大正規(guī)教育出來的,太習(xí)慣說用理論來指導(dǎo)實(shí)踐。如果這個(gè)實(shí)踐不是靠理論指導(dǎo)出來的,甚至當(dāng)前的理論無法解釋,我們就覺得很魔幻,覺得不可接受,覺得像煉丹、偽科學(xué),其實(shí)根本不是,科學(xué)本身也在發(fā)展,憑什么現(xiàn)在知道的科學(xué)就是真理,一定都是對的?還是需要通過不斷的實(shí)踐、創(chuàng)新,通過吸取各種各樣的反饋來加速技術(shù)的迭代。跑出來了之后,再去慢慢研究這背后的理論也OK,沒有跑出來的話,再過五年時(shí)間,人們也不會(huì)朝著這個(gè)方向去研究。其實(shí)大廠都沒有在做生成式AI,沒有在上面投太多資源,包括學(xué)術(shù)界,大家沒有覺得這個(gè)事值得那么多人去研究,但是一旦跑出來確實(shí)很厲害,萬眾矚目。我相信會(huì)有大批科學(xué)家會(huì)跟進(jìn)研究,背后到底是什么理論。當(dāng)然也有可能把這套理論總結(jié)出來之后,也可以再用來指導(dǎo)大模型下一步迭代更新,這點(diǎn)完全是合理的。

CSDN:我代表開發(fā)者問一些問題,ChatGPT出來的時(shí)候正好是NIPS大會(huì),有4萬個(gè)機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的博士在開會(huì),他們都驚呆了—這好像超出了我們對NLP或?qū)υ捘芰Φ睦斫?,后來解釋是智能涌現(xiàn)能力,這個(gè)秘密現(xiàn)在被揭秘了嗎?ChatGPT沒有用很多中文語料,中文的事實(shí)理解其實(shí)很差,但是它仍然可以做很好的中文表達(dá),我們選智利詩人巴勃羅·聶魯達(dá)很有名的作品翻譯成中文,發(fā)現(xiàn)比翻譯家翻譯得還要好,這個(gè)你怎么看?這個(gè)突破能不能給我們技術(shù)人員講講,到底涌現(xiàn)是怎么實(shí)現(xiàn)的?為什么用很少的語料,但語言的差距卻沒有了呢?

李彥宏:這確實(shí)是讓人感到驚喜和興奮的地方。我們做大模型做了很多年,其實(shí)也有不少其他公司做大模型,當(dāng)用一個(gè)億級(jí)大模型做的時(shí)候,可能做某個(gè)單項(xiàng)任務(wù),或者一兩個(gè)任務(wù),相對比較窄。后來變成十億級(jí),百億級(jí),一直到最后參數(shù)規(guī)模達(dá)到千億,同時(shí)匹配足夠多的數(shù)據(jù)來訓(xùn)練,最后就會(huì)出現(xiàn)智能涌現(xiàn),應(yīng)該說是從量變到質(zhì)變的過程。僅僅三年前,我們所說的大模型是參數(shù)億量級(jí)的大模型,今天當(dāng)我們說大模型的時(shí)候,大家大多數(shù)理解參數(shù)是千億量級(jí)的大模型,這種進(jìn)化和技術(shù)迭代的速度其實(shí)超過了像摩爾定律這樣大家熟悉的演化速度,這還是很神奇的。

一旦越過那個(gè)門檻之后,過去我們覺得不太可能的事發(fā)生了質(zhì)變。如果再稍微往下沉一點(diǎn)看,為什么會(huì)有這樣的質(zhì)變?我自己的理解是,學(xué)世界各種各樣語言的文本,本身雖然是概率模型,還是基于過去已經(jīng)出現(xiàn)的十個(gè)字符或者token,下一個(gè)字符最有可能是什么,簡單的技術(shù)原理就是這樣。但是當(dāng)實(shí)際數(shù)據(jù)量足夠大,算法比較正確的時(shí)候,基本上人類對于物理世界的理解逐步壓縮到了一個(gè)模型里,如果這么來理解大模型的話,確實(shí)就是具備了智能涌現(xiàn)或者說是觸類旁通的能力,我覺得確實(shí)很神奇。

以前人們沒有想到,很多東西都是做出來了之后,才會(huì)去琢磨這個(gè)東西是為什么,里面的科學(xué)道理是什么。因?yàn)槲覀兩蠈W(xué)都是學(xué)科學(xué)和自然,我們的印象是社會(huì)的進(jìn)步,科技的進(jìn)步都是先有了理論,在理論的指導(dǎo)下做技術(shù)和工程,再把它做成產(chǎn)品推向市場。其實(shí)很多時(shí)候是工程先做到了,比如人們先發(fā)明了飛機(jī),已經(jīng)飛上天了,人們才開始琢磨為什么比空氣重的東西還能在天上飛,由此產(chǎn)生了空氣動(dòng)力學(xué)。所以大模型也有點(diǎn)這個(gè)意思,先做出來了,我們才開始去研究為什么會(huì)是這樣。

CSDN:如果大家都用這個(gè)千億模型,逐漸都能夠達(dá)到這個(gè)能力嗎?逐漸變成類似于開源系統(tǒng)一樣,大家知道基本原理,但是你并沒有開源所有的東西,我們也能夠做到嗎?其他家也能夠做到嗎?

李彥宏:對,這是一個(gè)moving target,一直在變。ChatGPT本身也在以一個(gè)很快的速度在進(jìn)化,文心一言在以更快的速度進(jìn)化。下一個(gè)出來的不管是誰,創(chuàng)業(yè)公司也好,大廠也好,做到今天這樣的水準(zhǔn)肯定是沒問題的。但是我們今天覺得這已經(jīng)很神奇了,也許再過三個(gè)月會(huì)發(fā)現(xiàn)這個(gè)東西怎么這么差,它怎么還會(huì)出錯(cuò)。人們的期望值會(huì)不斷抬高,下一個(gè)出來的再去追趕之前的大模型,我認(rèn)為難度是比較高的。在同一個(gè)市場上,領(lǐng)先的大模型一定會(huì)獲得更多的開發(fā)者在上面開發(fā)各種各樣的應(yīng)用,一定獲得更多的用戶給反饋。那這種規(guī)模效應(yīng)或者數(shù)據(jù)飛輪一旦轉(zhuǎn)起來,其實(shí)后來者追趕起來會(huì)挺辛苦的。

“以后沒準(zhǔn)學(xué)文科更容易找工作”

CSDN:對開發(fā)者來說現(xiàn)在硅谷那邊已經(jīng)風(fēng)起云涌,在做各種基于GPT的應(yīng)用,給編程帶來了很大的不同,過去我們面向API、技術(shù)棧,現(xiàn)在變成promote編程了,整個(gè)開發(fā)者生態(tài)和應(yīng)用會(huì)發(fā)生很大變化,你怎么看未來,不是那種模型應(yīng)用,是模型之上的ToC和ToB應(yīng)用會(huì)發(fā)生什么變化?

李彥宏:我覺得這是很大的,趨勢上的變化。未來可能不需要那么多程序員,今天寫計(jì)算機(jī)程序的程序員,大模型很多時(shí)候能夠自動(dòng)生成代碼。但是我們會(huì)需要越來越多的提示詞工程師。大模型本身的能力放在那兒了,誰能把它用好,這個(gè)東西是有講究的,用得好不好,完全靠提示詞來決定。提示詞寫得好,智能涌現(xiàn)的可能就多一些,反饋的結(jié)果就更有價(jià)值一些,提示詞不好,出來的東西就是一本正經(jīng)胡說八道,或者是錯(cuò)誤的結(jié)論。所以怎么樣把提示詞寫好,這些東西既是技術(shù)也是藝術(shù),甚至我覺得藝術(shù)的成分還更多一些。今天這種世俗的來看,好像學(xué)自然科學(xué)的人更好找工作,工資更高,學(xué)文科的不太行,以后沒準(zhǔn)學(xué)文科更容易找工作,因?yàn)閷懱崾驹~的時(shí)候,想象力、情感、表達(dá)這些有可能真的比現(xiàn)在學(xué)工程的人要更有意思,更有效果一些。

CSDN:不同大模型比如說咱們ChatGPT或者GPT-4提示詞會(huì)不一樣嗎?

李彥宏:很不一樣,底層訓(xùn)練畢竟是獨(dú)立訓(xùn)練出來的,如果把它比喻成一個(gè)人的話,他的脾氣稟性是什么,肯定是不一樣的。和他交互過程當(dāng)中也有不斷摸索的過程,你才會(huì)慢慢知道,我怎么寫這個(gè)提示詞能夠獲得更好的效果。

CSDN:你問它數(shù)據(jù)也會(huì)變化是嗎?

李彥宏:會(huì)變化。最近談的很厲害那種寫成語,出來的東西你覺得它沒有理解,但是過兩天它就理解了,你老說它不對,它就會(huì)知道不對,重新搞一遍好了。

商業(yè)化

“我不擔(dān)心外界搞不清楚OpenAI是怎么回事,商業(yè)競爭會(huì)讓技術(shù)進(jìn)步更快”

品玩:剛才我們說OpenAI現(xiàn)在有GPT-4之后,都不發(fā)論文、不開源,不發(fā)論文,科學(xué)家怎么去研究?我們到底怎么去配合科學(xué)和理論?

李彥宏:OpenAI現(xiàn)在相對來說比較商業(yè)化,當(dāng)然商業(yè)化也不是壞事,有足夠的資金去投入,技術(shù)迭代的速度會(huì)更快。開源不開源完全是它的選擇,如果在不開源的情況下,技術(shù)迭代速度會(huì)更快,能夠更好地去造福人類,也是挺好的路線。外界的研究也不能完全指望靠OpenAI的公布,其實(shí)各個(gè)公司各個(gè)研究機(jī)構(gòu)都已經(jīng)開動(dòng)了這種機(jī)器,該投入的投入,該做研究做研究,該做嘗試做嘗試。所以,我認(rèn)為逐漸會(huì)形成一套產(chǎn)學(xué)研模式,各干各的事,慢慢會(huì)形成有規(guī)模的領(lǐng)域,甚至是學(xué)科。我不擔(dān)心外界搞不清楚OpenAI是怎么回事,這項(xiàng)技術(shù)或者是這個(gè)方向的迭代速度都會(huì)變慢,我恰恰覺得有競爭,有商業(yè)色彩在里頭,會(huì)使得技術(shù)的進(jìn)步更快一些。

極客公園:現(xiàn)在外界很多人推演說未來大模型的賽道要把技術(shù)越練越好,百億美金以上持續(xù)投入。我比較好奇,在百度視角,在你的視角來看,是不是必然投入的量級(jí),有沒有其他選擇?

李彥宏:投入是肯定的,而且會(huì)越來越大。比如目前OpenAI百億美金的投入量級(jí)。但是只要有競爭的話,一定會(huì)投入增大。所以,未來是百億美金,還是千億美金沒有人知道。我們只知道隨著這些投入,技術(shù)進(jìn)步會(huì)越來越快,在各個(gè)行業(yè)、各個(gè)場景商用普及程度也會(huì)越來越快。所以,投入只是硬幣的一面,硬幣的另一面是收益,這個(gè)確實(shí)有用,是在我們能夠想到的各行各業(yè)、各種場景都有用。

所以,發(fā)展大模型不僅僅意味著投入,也意味著收益。這個(gè)收益隨著時(shí)間推移,會(huì)越來越顯現(xiàn)出來。我不知道你有沒有讀過OpenAI,他們從非盈利組織變成limited organization。門檻、利潤要超過今天的蘋果,蘋果是世界上第一大第二大市值的公司,利潤超過之后,才會(huì)變回去。足見對生意、業(yè)務(wù),對能夠掙錢的量級(jí)有很高的預(yù)期,不是純投入。純投入不可能發(fā)展這么快,一定是有收益,有收益的根本原因是有效果,是市場需要,對我們的社會(huì)、文明有正向的作用,才會(huì)有收益。

極客公園:所以就是一邊煉丹,一邊發(fā)電,那么百度接下來在搜索上,會(huì)很快看到它在里面發(fā)電嗎?

李彥宏:肯定,百度目前所有的產(chǎn)品無論搜索、小度、貼吧、文庫、網(wǎng)盤、地圖,每個(gè)部門現(xiàn)在都在加班加點(diǎn),更快地研究把文心一言的能力集成進(jìn)去,而這種集成其實(shí)會(huì)很自然,你會(huì)覺得這個(gè)產(chǎn)品里頭就需要這樣的能力。對百度來說是這樣,對很多企業(yè)也是一樣的,大家很自然地就能夠看到,我可以用到、集成、需要這些能力。

所以,社會(huì)會(huì)以一個(gè)更快的速度去演進(jìn)。今天我們回看15年前,比如iPhone出來之前,很難想象那個(gè)時(shí)候的人過的是那樣的生活。如果再過五年十年再回看2023的話也是同樣的感覺。過去的人們可能回看一兩百年都覺得差不多,人們過的就是那樣的日子。但是今天你回看15年、20年都覺得很不一樣。今天我們看一些講90年代的電視劇,看他們的生活場景,明顯和今天不一樣。我覺得未來五年十年,這種感覺會(huì)更明顯。

“大模型是云計(jì)算的Game Changer”

品玩:看得出你對技術(shù)宏大的一面很有熱情,但其實(shí)過程里也一直提到商業(yè)化。我注意到你一開始提到,如果這個(gè)技術(shù)出來沒有客戶買單其實(shí)也沒有什么意義,剛剛有些問題其實(shí)還是聚焦在百度搜索等具體功能上的使用,但其實(shí)我們會(huì)發(fā)現(xiàn),包括對chatgpt的討論,大家可能忽視的是后面還有微軟的云Azure,其實(shí)云市場已經(jīng)在發(fā)生很明顯的變化了。所以您認(rèn)為大模型對于云市場的改變是怎樣的?

李彥宏:是的,我也公開地講過,我認(rèn)為文心一言的出現(xiàn)或者大語言模型的出現(xiàn)對于云計(jì)算來說,是一個(gè)game changer,它會(huì)改變云計(jì)算的游戲規(guī)則。因?yàn)檫^去比較傳統(tǒng)的云計(jì)算就是賣算力,主要是每秒鐘的運(yùn)算速度、存儲(chǔ)這些比較基礎(chǔ)的能力。但是隨著技術(shù)的演進(jìn),真正AI時(shí)代的應(yīng)用不會(huì)建立在一個(gè)過去的地基上。過去的地基,除了剛才說的云計(jì)算之外,還有在移動(dòng)時(shí)代的iOS或者安卓這樣的操作系統(tǒng)上面去開發(fā)APP,或者PC時(shí)代的話就是在Windows上面開發(fā)各種各樣的軟件。而在AI時(shí)代,新的應(yīng)用會(huì)是基于大模型來開發(fā)的。關(guān)于“是不是有一天所有的模型都統(tǒng)一成一個(gè)模型”這個(gè)存疑,我大概兩年前,在內(nèi)部push過一段時(shí)間,想把語言、視覺、語音模型全都統(tǒng)一成一個(gè)模型。雖然當(dāng)時(shí)大家怎么想都覺得不對、做不到,但是語言模型規(guī)模變大之后,它會(huì)能力越來越強(qiáng),視覺模型規(guī)模變大之后,能力也會(huì)越來越強(qiáng)。

未來的應(yīng)用會(huì)基于這些模型去開發(fā),上面開發(fā)的不管是搜索或者是貼吧,都是基于我們已經(jīng)做出來的這些大模型去進(jìn)行開發(fā)。這和過去一個(gè)創(chuàng)業(yè)公司直接去用某一個(gè)云,是很不一樣的,那個(gè)時(shí)候用的確實(shí)就是算力,甚至具體到用幾塊CPU、GPU,而以后不用再擔(dān)心這個(gè)層面的事了。就比如我小時(shí)候?qū)W的是匯編語言,后來學(xué)C語言,而今天大家都在用Python寫代碼,方便程度是完全不一樣的。你如果能夠用Python寫,誰還會(huì)去學(xué)匯編?就是這么簡單的一個(gè)道理。所以,對于百度來說,我的理論就是四層架構(gòu),芯片層、框架層、模型層,上面才是各種各樣的應(yīng)用。早期的人們是說有什么芯片,我要基于這種芯片去開發(fā)各種各樣的應(yīng)用。后來我們說像百度的飛槳,人工智能時(shí)代的框架,它的中國市場占有率第一,在美國的話就是Pytorch、TensorFlow。在2023年之前,開發(fā)者做AI應(yīng)用的時(shí)候,比較依賴框架。但是大模型出來之后,其實(shí)框架也變成相對比較底層的東西,以后開發(fā)各種各樣的應(yīng)用基于模型來開發(fā)就可以了。下面是什么框架,其實(shí)也沒有那么重要了。

但是對于百度這樣的公司,當(dāng)我們在提供基礎(chǔ)模型的時(shí)候,我們用什么框架、芯片其實(shí)還是很重要的。甚至某種意義上講,它每一層通過反饋不斷相互加強(qiáng),不斷提升它的效率。所以,內(nèi)部叫做端到端的優(yōu)化。由于我們在芯片層有昆侖,在框架層有飛槳,在大模型層有文心。當(dāng)然,這種暴力美學(xué)如剛才提到的很耗算力,那么同樣用價(jià)值10億美元的芯片,怎么比別人效率更高,怎么能夠算得更快?就需要有飛槳這個(gè)框架進(jìn)行配合。模型也要能夠知道這些芯片到底是什么能力可以被充分發(fā)揮出來,或者說,昆侖芯片怎么改變一下自己的設(shè)計(jì),去更適用于飛槳,更適用于文心一言的模型。

這些東西端到端優(yōu)化之后,我們的效率會(huì)比任何其他的大模型要更高。所以,時(shí)間長了,商業(yè)的競爭最終競爭的是效率,你的效率比別人更高你就贏了,你的效率比別人低,再給你投多少錢,最終也會(huì)打水漂,這是無數(shù)的案例都證明了這一點(diǎn)。

品玩:其實(shí)是三層架構(gòu),最后才是應(yīng)用。我們現(xiàn)在看GPT-4,很難說它在哪些大型產(chǎn)業(yè)上能夠被廣泛的應(yīng)用。寫個(gè)論文,做個(gè)心理咨詢等,其實(shí)也沒有落地大型產(chǎn)業(yè)。基于中國的產(chǎn)業(yè)環(huán)境和結(jié)構(gòu),是不是反而能夠彎道超車或者變道超車?

李彥宏:我認(rèn)為確實(shí)這個(gè)模型還可以再有一個(gè)中間層,就是所謂的行業(yè)大模型。除了這些基礎(chǔ)模型之外,某一個(gè)行業(yè)比如能源行業(yè),所以行業(yè)大模型應(yīng)該是一個(gè)未來比較看得見的創(chuàng)業(yè)機(jī)會(huì),有些行業(yè)相對比較后知后覺,那些客戶覺得不著急,等等看。這個(gè)時(shí)候如果你基于這個(gè)行業(yè)的共性訓(xùn)練出來一個(gè)行業(yè)大模型的話,可以慢慢把行業(yè)客戶都吃下來,讓他們基于這個(gè)行業(yè)大模型再去開發(fā)自己的應(yīng)用。

生態(tài)

“創(chuàng)業(yè)公司最大的機(jī)會(huì)在應(yīng)用”

品玩:您的意思就是通用大模型的事,創(chuàng)業(yè)公司最好就別往里邊去做了,因?yàn)橛忠ㄥX又要花時(shí)間,交給幾個(gè)大的平臺(tái),讓他們基于這個(gè)東西去衍生行業(yè)模型的應(yīng)用,這是比較好的生態(tài)。

李彥宏:目前看確實(shí)是這樣的。如果去做基礎(chǔ)大模型的話,創(chuàng)業(yè)公司是沒有優(yōu)勢的,這和OpenAI那個(gè)時(shí)代是很不一樣的,它2015年成立之后,慢慢琢磨,在別人都看不上,不看好的方向,最后做出來了,一下聚集了一批開發(fā)者,有微軟的支持,才能夠有今天。但是今天所有的大廠都在玩命投資源做的情況下,我作為一個(gè)創(chuàng)業(yè)公司,我想做一個(gè)基礎(chǔ)大模型,我想讓所有的開發(fā)者都基于我的模型開發(fā)應(yīng)用,這沒有什么道理啊。你又不是第一個(gè)做出來的,市場上已經(jīng)有了。要數(shù)據(jù)沒有數(shù)據(jù)優(yōu)勢,要算力沒有算力優(yōu)勢,要生態(tài)沒有生態(tài)優(yōu)勢。對于創(chuàng)業(yè)公司來說,最好做一些新東西,做一些別人不太看好的東西,成功率會(huì)更高一點(diǎn),社會(huì)意義、商業(yè)價(jià)值都會(huì)更大。

CSDN:我問一個(gè)問題。大家都把ChatGPT的出現(xiàn)比喻為iPhone時(shí)刻,在移動(dòng)時(shí)代出現(xiàn)了開放、開源和閉源的競爭,iOS是閉源的,安卓是開源的,開源最后贏得了生態(tài)很大的勝利。所以,開源大模型包括Meta出了一個(gè)LLaMA,開源大模型有市場機(jī)會(huì)嗎?

第二個(gè)問題,行業(yè)大模型有兩種"煉法",一種是在百度文心一言上煉行業(yè)大模型,還有一種是在開源大模型上去練我的垂直大模型。哪種會(huì)更好一些?會(huì)出現(xiàn)開源大模型的這種生態(tài)嗎?

李彥宏:我覺得有可能出現(xiàn),但是最終其實(shí)是一個(gè)市場的自然選擇,對于一個(gè)開發(fā)者來說,今天去選擇一個(gè)閉源的大模型還是開源的大模型,最主要是看兩個(gè)因素。一個(gè)就是哪個(gè)效果好,一個(gè)就是哪個(gè)便宜。開源的話在價(jià)格上有非常明顯的優(yōu)勢,基本上可以不要錢就能使用這些東西;閉源如果還有生存空間的話,一定是做得比開源好,才有生存空間。所以當(dāng)你更加追求效果的時(shí)候,你就會(huì)選擇一個(gè)閉源的模型。但這是一個(gè)靜態(tài)的觀察或者說是討論,動(dòng)態(tài)的話可能說隨著時(shí)間的推移,開源和閉源兩條技術(shù)路線,最后誰會(huì)跑得更快,誰會(huì)后勁更足,可持續(xù)性會(huì)更好,我認(rèn)為這是一個(gè)開放性問題,正例反例都有。對于開發(fā)者來說,現(xiàn)在只能選擇現(xiàn)在效果更好的,或者性價(jià)比更高的這樣一個(gè)模型來進(jìn)行開發(fā),對于這兩條路線之爭我們只能是拭目以待了。

極客公園:問最后一個(gè)問題。創(chuàng)業(yè)者社區(qū)里,大家特別要求我一定替他們問Robin,很想得到你的建議,大家以前我們講有移動(dòng)時(shí)代的Mobile native?,F(xiàn)在什么是AI Native,Robin有沒有在這方面的思考,或者感悟能夠分享。對創(chuàng)業(yè)者來講,是今天趕緊下場做To C的產(chǎn)品,還是說更加認(rèn)真思考一下,在某些垂直領(lǐng)域怎么改變商業(yè)邏輯,怎么建議創(chuàng)業(yè)者行動(dòng)。

李彥宏:今天大模型處在產(chǎn)業(yè)發(fā)展非常早期階段,不管是什么樣的觀察,我觀察也好,其他人觀察也好,都有可能發(fā)生變化。今天在我看來所謂的AI Native最明顯特征,就是剛才講的提示詞。過去沒有這個(gè)行當(dāng),我們也不覺得說跟計(jì)算機(jī)交互有那么多講究,今天或者未來怎么去寫提示詞,才能夠把大模型能力能夠推舉出來,這是非常有意思的行當(dāng),我也認(rèn)為這是將來新的工作機(jī)會(huì),最容易出現(xiàn)的地方。甚至有一個(gè)比較大膽的猜測,我覺得10年之后,人類一半的工作跟這個(gè)有關(guān),就是寫提示詞。除了提示詞這一方面大的改變,從創(chuàng)業(yè)的角度來說,我認(rèn)為首先機(jī)會(huì)會(huì)很大,這個(gè)機(jī)會(huì)可能10倍于移動(dòng)互聯(lián)網(wǎng)的機(jī)會(huì),主要機(jī)會(huì)肯定在各種各樣基于大模型開發(fā)出來的應(yīng)用,這個(gè)應(yīng)用是To C還是To B,是收費(fèi)還是廣告模式,我認(rèn)為肯定會(huì)都有。每一個(gè)方向的機(jī)會(huì)已經(jīng)大到作為單獨(dú)一個(gè)創(chuàng)業(yè)者來說不需要關(guān)心這個(gè)事,不可能有天花板,以至于一個(gè)創(chuàng)業(yè)公司都要擔(dān)心這個(gè)市場是不是足夠大,完全不用擔(dān)心。

品玩:行動(dòng)就好了。

李彥宏:謝謝你們。聊得非常開心。


相關(guān)內(nèi)容