青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

華為盤古員工自曝:套殼、續(xù)訓(xùn)、洗水印

各位好,

我是一名盤古大模型團(tuán)隊(duì),華為諾亞方舟實(shí)驗(yàn)室的員工。

首先為自證身份,列舉一些細(xì)節(jié):

1、現(xiàn)諾亞主任,前算法應(yīng)用部部長,后改名為小模型實(shí)驗(yàn)室的主任王云鶴。前諾亞主任:姚駿(大家稱姚老師)。幾個(gè)實(shí)驗(yàn)室主任:唐睿明(明哥,明隊(duì),已離職),尚利峰,張維(維哥),郝建業(yè)(郝老師),劉武龍(稱呼為武龍所)等。其他骨干成員和專家陸續(xù)有很多人離職。

2、我們隸屬于“四野”這個(gè)組織。四野下屬有許多縱隊(duì),基礎(chǔ)語言大模型是四縱。王云鶴的小模型是十六縱隊(duì)。我們參加過蘇州的集結(jié),有各種月份的時(shí)間節(jié)點(diǎn)。在蘇州攻關(guān)會頒發(fā)任務(wù)令,需要在節(jié)點(diǎn)前達(dá)成目標(biāo)。蘇州集結(jié)會把各地的人員都集中在蘇州研究所,平常住賓館,比如在甪直的酒店,與家人孩子天各一方。

3、在蘇州集結(jié)的時(shí)候周六默認(rèn)上班,非常辛苦,不過周六有下午茶,有一次還有小龍蝦。在蘇州研究所的工位搬遷過一次,從一棟樓換到了另一棟。蘇州研究所樓棟都是歐式裝修,門口有大坡,里面景色很不錯(cuò)。去蘇州集結(jié)一般至少要去一周,甚至更久,多的人甚至一兩個(gè)月都回不了家。

4、諾亞曾經(jīng)傳說是研究型的,但是來了之后因?yàn)樵谒囊白龃竽P晚?xiàng)目,項(xiàng)目成員完全變成了交付型的,且充滿了例會,評審,匯報(bào)。很多時(shí)候做實(shí)驗(yàn)都要申請。團(tuán)隊(duì)需要對接終端小藝,華為云,ICT等諸多業(yè)務(wù)線,交付壓力不小。

5、諾亞研發(fā)的盤古模型早期內(nèi)部代號叫做“盤古智子”,一開始只有內(nèi)部需要申請?jiān)囉玫木W(wǎng)頁版,到后續(xù)迫于壓力在welink上接入和公測開放。

這些天發(fā)生關(guān)于質(zhì)疑盤古大模型抄襲千問的事情鬧的沸沸揚(yáng)揚(yáng)。

作為一個(gè)盤古團(tuán)隊(duì)的成員,我最近夜夜輾轉(zhuǎn)反側(cè),難以入眠。盤古的品牌受到如此大的影響,一方面,我自私的為我的職業(yè)發(fā)展擔(dān)憂,也為自己過去的努力工作感到不值。另一方面,由于有人開始揭露這些事情我內(nèi)心又感到大快人心。

在多少個(gè)日日夜夜,我們對內(nèi)部某些人一次次靠著造假而又獲得了無數(shù)利益的行為咬牙切齒而又無能為力。

這種壓抑和羞辱也逐漸消磨了我對華為的感情,讓我在這里的時(shí)日逐漸渾渾噩噩,迷茫無措,時(shí)常懷疑自己的人生和自我價(jià)值。

我承認(rèn)我是一個(gè)懦弱的人,作為一個(gè)小小的打工人,我不僅不敢和王云鶴等內(nèi)部手眼通天的人做對,更不敢和華為這樣的龐然大物做對。

我很怕失去我的工作,畢竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到內(nèi)部還在試圖洗地掩蓋事實(shí),蒙蔽公眾的時(shí)候,我實(shí)在不能容忍了。

我也希望勇敢一次,順從自己本心。就算自損八百,我也希望能傷敵一千。

我決定把我在這里的所見所聞(部分來自于同事口述)公布出來,關(guān)于盤古大模型的“傳奇故事”:

華為確實(shí)主要在昇騰卡上訓(xùn)練大模型(小模型實(shí)驗(yàn)室有不少英偉達(dá)的卡,他們之前也會用來訓(xùn)練,后面轉(zhuǎn)移到昇騰)。曾經(jīng)我被華為“打造世界第二選擇”的決心而折服,我本身也曾經(jīng)對華為有深厚的感情。我們陪著昇騰一步步摸爬滾打,從充滿bug到現(xiàn)在能訓(xùn)出模型,付出了巨大的心血和代價(jià)。

最初我們的算力非常有限,在910A上訓(xùn)練模型。那會只支持fp16,訓(xùn)練的穩(wěn)定性遠(yuǎn)不如bf16。盤古的moe開始很早,23年就主要是訓(xùn)練38Bmoe模型和后續(xù)的71B dense模型。71B的dense模型通過擴(kuò)增變成了第一代的135Bdense模型,后面主力模型也逐漸在910B上訓(xùn)練。

71B和135B模型都有一個(gè)巨大的硬傷就是tokenizer。

當(dāng)時(shí)使用的tokenizer編碼效率極低,每個(gè)單個(gè)的符號,數(shù)字,空格,乃至漢字都會占用一個(gè)token??上攵@會非常浪費(fèi)算力,且使得模型的效果很差。這時(shí)候小模型實(shí)驗(yàn)室正好有個(gè)自己訓(xùn)的詞表。姚老師當(dāng)時(shí)懷疑是不是模型的tokenizer不好(雖然事后來看,他的懷疑是無疑正確的),于是就決定,讓71B和135B換tokenizer,因?yàn)樾∧P蛯?shí)驗(yàn)室曾經(jīng)嘗試過。團(tuán)隊(duì)縫合了兩個(gè)tokenizer,開始了tokenizer的更換。71B模型的更換失敗了,而135B因?yàn)椴捎昧烁?xì)的embedding初始化策略,續(xù)訓(xùn)了至少1T的數(shù)據(jù)后詞表總算更換成功,但可想而知,效果并不會變好。

于此同期,阿里和智譜等國內(nèi)其他公司在GPU上訓(xùn)練,且已經(jīng)摸索出了正確的方法,盤古和競品的差距越來越大。內(nèi)部一個(gè)230B從頭訓(xùn)練的dense模型又因?yàn)楦鞣N原因訓(xùn)練失敗,導(dǎo)致項(xiàng)目的狀況幾乎陷入絕境。面臨幾個(gè)節(jié)點(diǎn)的壓力以及內(nèi)部對盤古的強(qiáng)烈質(zhì)疑時(shí),團(tuán)隊(duì)的士氣低迷到了極點(diǎn)。團(tuán)隊(duì)在算力極其有限的時(shí)候,做出了很多努力和掙扎。

比如,團(tuán)隊(duì)偶然發(fā)現(xiàn)當(dāng)時(shí)的38B moe并沒有預(yù)期moe的效果。于是去掉了moe參數(shù),還原為了13B的dense模型。由于38B的moe源自很早的pangu alpha 13B,架構(gòu)相對落后,團(tuán)隊(duì)進(jìn)行了一系列的操作,比如切換絕對位置編碼到rope,去掉bias,切換為rmsnorm。同時(shí)鑒于tokenizer的一些失敗和換詞表的經(jīng)驗(yàn),這個(gè)模型的詞表也更換為了王云鶴的小模型實(shí)驗(yàn)室7B模型所使用的詞表。后面這個(gè)13B模型進(jìn)行了擴(kuò)增續(xù)訓(xùn),變成了第二代38B dense模型(在幾個(gè)月內(nèi)這個(gè)模型都是主要的盤古中檔位模型),曾經(jīng)具有一定的競爭力。但是,由于更大的135B模型架構(gòu)落后,且更換詞表模型損傷巨大(后續(xù)分析發(fā)現(xiàn)當(dāng)時(shí)更換的縫合詞表有更嚴(yán)重的bug),續(xù)訓(xùn)后也與千問等當(dāng)時(shí)國內(nèi)領(lǐng)先模型存在很大差距。

這時(shí)由于內(nèi)部的質(zhì)疑聲和領(lǐng)導(dǎo)的壓力也越來越大。

團(tuán)隊(duì)的狀態(tài)幾乎陷入了絕境。

在這種情況下,王云鶴和他的小模型實(shí)驗(yàn)室出手了。他們聲稱是從舊的135B參數(shù)繼承改造而來,通過訓(xùn)練短短的幾百B數(shù)據(jù),各項(xiàng)指標(biāo)平均提升了十個(gè)點(diǎn)左右。

實(shí)際上,這就是他們套殼應(yīng)用到大模型的第一次杰作。

華為的外行領(lǐng)導(dǎo)內(nèi)行,使得領(lǐng)導(dǎo)完全對于這種扯淡的事情沒有概念,他們只會覺得肯定是有什么算法創(chuàng)新。

經(jīng)過內(nèi)部的分析,他們實(shí)際上是使用Qwen 1.5 110B續(xù)訓(xùn)而來,通過加層,擴(kuò)增ffn維度,添加盤古pi論文的一些機(jī)制得來,湊夠了大概135B的參數(shù)。

實(shí)際上,舊的135B有107層,而這個(gè)模型只有82層,各種配置也都不一樣。新的來路不明的135B訓(xùn)練完很多參數(shù)的分布也和Qwen 110B幾乎一模一樣。連模型代碼的類名當(dāng)時(shí)都是Qwen,甚至懶得改名。后續(xù)這個(gè)模型就是所謂的135B V2。而這個(gè)模型當(dāng)時(shí)也提供給了很多下游,甚至包括外部客戶。

這件事對于我們這些認(rèn)真誠實(shí)做事的同事們帶來了巨大的沖擊,內(nèi)部很多人其實(shí)都知道這件事,甚至包括終端和華為云。

我們都戲稱以后別叫盤古模型了,叫千古吧。

當(dāng)時(shí)團(tuán)隊(duì)成員就想向bcg舉報(bào)了,畢竟這已經(jīng)是重大的業(yè)務(wù)造假了。

但是后面據(jù)說被領(lǐng)導(dǎo)攔了下來,因?yàn)楦呒墑e的領(lǐng)導(dǎo)(比如姚老師,以及可能熊總和查老)其實(shí)后面也知道了,但是并不管,因?yàn)橥ㄟ^套殼拿出好的結(jié)果,對他們也是有利的。這件事使得當(dāng)時(shí)團(tuán)隊(duì)幾位最強(qiáng)的同事開始心灰意冷,離職跑路也逐漸成為掛在嘴邊的事。

此時(shí),盤古似乎迎來了轉(zhuǎn)機(jī)。

由于前面所述的這些盤古模型基本都是續(xù)訓(xùn)和改造而來,當(dāng)時(shí)諾亞完全沒有掌握從頭訓(xùn)練的技術(shù),何況還是在昇騰的NPU上進(jìn)行訓(xùn)練。在當(dāng)時(shí)團(tuán)隊(duì)的核心成員的極力爭取下,盤古開始了第三代模型的訓(xùn)練,付出了巨大的努力后,在數(shù)據(jù)架構(gòu)和訓(xùn)練算法方面都與業(yè)界逐漸接軌,而這其中的艱辛和小模型實(shí)驗(yàn)室的人一點(diǎn)關(guān)系都沒有。

一開始團(tuán)隊(duì)成員毫無信心,只從一個(gè)13B的模型開始訓(xùn)練,但是后面發(fā)現(xiàn)效果還不錯(cuò),于是這個(gè)模型后續(xù)再次進(jìn)行了一次參數(shù)擴(kuò)增,變成了第三代的38B,代號38B V3。想必很多產(chǎn)品線的兄弟都對這個(gè)模型很熟悉。

當(dāng)時(shí)這個(gè)模型的tokenizer是基于llama的詞表進(jìn)行擴(kuò)展的(也是業(yè)界常見的做法)。而當(dāng)時(shí)王云鶴的實(shí)驗(yàn)室做出來了另一個(gè)詞表(也就是后續(xù)pangu系列的詞表)。當(dāng)時(shí)兩個(gè)詞表還被迫進(jìn)行了一次賽馬,最終沒有明顯的好壞結(jié)論。于是,領(lǐng)導(dǎo)當(dāng)即決定,應(yīng)該統(tǒng)一詞表,使用王云鶴他們的。于是,在后續(xù)從頭訓(xùn)練的135B V3(也就是對外的Pangu Ultra),便是采用了這個(gè)tokenizer。這也解釋了很多使用我們模型的兄弟的疑惑,為什么當(dāng)時(shí)同為V3代的兩個(gè)不同檔位的模型,會使用不同的tokenizer。

我們打心眼里覺得,135B V3是我們四縱團(tuán)隊(duì)當(dāng)時(shí)的驕傲。這是第一個(gè)真正意義上的,華為全棧自研,正經(jīng)從頭訓(xùn)練的千億級別的模型,且效果與24年同期競品可比的。

寫到這里我已經(jīng)熱淚盈眶,太不容易了。

當(dāng)時(shí)為了穩(wěn)定訓(xùn)練,團(tuán)隊(duì)做了大量實(shí)驗(yàn)對比,并且多次在模型梯度出現(xiàn)異常的時(shí)候進(jìn)行及時(shí)回退重啟。這個(gè)模型真正做到了后面技術(shù)報(bào)告所說的訓(xùn)練全程沒有一個(gè)loss spike。我們克服了不知道多少困難,我們做到了,我們愿用生命和榮譽(yù)保證這個(gè)模型訓(xùn)練的真實(shí)性。多少個(gè)凌晨,我們?yōu)榱怂挠?xùn)練而不眠。在被內(nèi)部心聲罵的一文不值的時(shí)候,我們有多么不甘,有多少的委屈,我們挺住了。

我們這幫人是真的在為打磨國產(chǎn)算力底座燃燒自己的青春啊……客居他鄉(xiāng),我們放棄了家庭,放棄了假期,放棄了健康,放棄了娛樂,拋頭顱灑熱血,其中的艱辛與困苦,寥寥數(shù)筆不足以概括其萬一。在各種動員大會上,當(dāng)時(shí)口號中喊出的盤古必勝,華為必勝,我們心里是真的深深被感動。

然而,我們的所有辛苦的成果,經(jīng)常被小模型實(shí)驗(yàn)室輕飄飄的拿走了。數(shù)據(jù),直接要走。代碼,直接要走,還要求我們配合適配到能一鍵運(yùn)行。我們當(dāng)時(shí)戲稱小模型實(shí)驗(yàn)室為點(diǎn)鼠標(biāo)實(shí)驗(yàn)室。

我們付出辛苦,他們?nèi)〉脴s耀。果然應(yīng)了那句話,你在負(fù)重前行是因?yàn)橛腥颂婺銡q月靜好。在這種情況下,越來越多的戰(zhàn)友再也堅(jiān)持不下去了,選擇了離開??吹缴磉吥切﹥?yōu)秀的同事一個(gè)個(gè)離職,我的內(nèi)心又感嘆又難過。在這種作戰(zhàn)一樣的環(huán)境下,我們比起同事來說更像是戰(zhàn)友。他們在技術(shù)上也有無數(shù)值得我學(xué)習(xí)的地方,堪稱良師。看到他們?nèi)チ酥T如字節(jié)Seed,Deepseek,月之暗面,騰訊和快手等等很多出色的團(tuán)隊(duì),我打心眼里為他們高興和祝福,脫離了這個(gè)辛苦卻骯臟的地方。

我至今還對一位離職同事的話記憶猶新,ta說:“來這里是我技術(shù)生涯中的恥辱,在這里再呆每一天都是浪費(fèi)生命”。話雖難聽卻讓我無言以對。我擔(dān)心我自己技術(shù)方面的積累不足,以及沒法適應(yīng)互聯(lián)網(wǎng)公司高淘汰的環(huán)境,讓我多次想離職的心始終沒有邁出這一步。

盤古除了dense模型,后續(xù)也啟動了moe的探索。一開始訓(xùn)練的是一個(gè)224B的moe模型。而與之平行的,小模型實(shí)驗(yàn)室也開啟了第二次主要的套殼行動(次要的插曲可能還包括一些別的模型,比如math模型),即這次流傳甚廣的pangu pro moe 72B。這個(gè)模型內(nèi)部自稱是從小模型實(shí)驗(yàn)室的7B擴(kuò)增上來的(就算如此,這也與技術(shù)報(bào)告不符,何況是套殼qwen 2.5的14b續(xù)訓(xùn))。還記得他們訓(xùn)了沒幾天,內(nèi)部的評測就立刻追上了當(dāng)時(shí)的38B V3。

AI系統(tǒng)實(shí)驗(yàn)室很多兄弟因?yàn)樾枰m配模型,都知道他們的套殼行動,只是迫于各種原因,無法伸張正義。

實(shí)際上,對于后續(xù)訓(xùn)了很久很久的這個(gè)模型,Honestagi能夠分析出這個(gè)量級的相似性我已經(jīng)很詫異了,因?yàn)檫@個(gè)模型為了續(xù)訓(xùn)洗參數(shù),所付出的算力甚至早就足夠從頭訓(xùn)一個(gè)同檔位的模型了。

聽同事說他們?yōu)榱讼吹羟柕乃?,采取了不少辦法,甚至包括故意訓(xùn)了臟數(shù)據(jù)。這也為學(xué)術(shù)界研究模型血緣提供了一個(gè)前所未有的特殊模范吧。以后新的血緣方法提出可以拿出來溜溜。

24年底和25年初,在Deepseek v3和r1發(fā)布之后,由于其驚艷的技術(shù)水平,團(tuán)隊(duì)受到了巨大的沖擊,也受到了更大的質(zhì)疑。

于是為了緊跟潮流,盤古模仿Deepseek的模型尺寸,開啟了718B moe的訓(xùn)練。這個(gè)時(shí)候,小模型實(shí)驗(yàn)室再次出手了。

他們選擇了套殼Deepseekv3續(xù)訓(xùn)。他們通過凍住Deepseek加載的參數(shù),進(jìn)行訓(xùn)練。連任務(wù)加載ckpt的目錄都是deepseekv3,改都不改,何其囂張?與之相反,一些有真正技術(shù)信仰的同事,在從頭訓(xùn)練另一個(gè)718B的moe。但其中出現(xiàn)了各種各樣的問題。但是很顯然,這個(gè)模型怎么可能比直接套殼的好呢?如果不是團(tuán)隊(duì)leader堅(jiān)持,早就被叫停了。

華為的流程管理之繁重,嚴(yán)重拖累了大模型的研發(fā)節(jié)奏,例如版本管理,模型血緣,各種流程化,各種可追溯。

諷刺的是,小模型實(shí)驗(yàn)室的模型似乎從來不受這些流程的約束,想套殼就套殼,想續(xù)訓(xùn)就續(xù)訓(xùn),算力源源不斷的伸手拿走。這種強(qiáng)烈到近乎魔幻的對比,說明了當(dāng)前流程管理的情況:只許州官放火,不許百姓點(diǎn)燈。何其可笑?何其可悲?何其可惡?何其可恥!

HonestAGI的事情出來后,內(nèi)部讓大家不停的研討分析,如何公關(guān)和“回應(yīng)”。

誠然,這個(gè)原文的分析也許不夠有力,給了王云鶴與小模型實(shí)驗(yàn)室他們狡辯和顛倒黑白的機(jī)會。

為此,這兩天我內(nèi)心感到作嘔,時(shí)時(shí)懷疑自己的人生意義以及蒼天無眼。

我不奉陪了,我要離職了,同時(shí)我也在申請從盤古部分技術(shù)報(bào)告的作者名單中移除。曾經(jīng)在這些技術(shù)報(bào)告上署名是我一生都無法抹除的污點(diǎn)。當(dāng)時(shí)我沒想到,他們竟然猖狂到敢開源。我沒想到,他們敢如此愚弄世人,大肆宣發(fā)。

當(dāng)時(shí),我也許是存了僥幸心理,沒有拒絕署名。我相信很多扎實(shí)做事的戰(zhàn)友,也只是被迫上了賊船,或者不知情。但這件事已經(jīng)無法挽回,我希望我的余生能夠堅(jiān)持扎實(shí)做真正有意義的事,為我當(dāng)時(shí)的軟弱和不堅(jiān)定贖罪。

深夜寫到這里,我已經(jīng)淚流滿面,泣不成聲。還記得一些出色的同事離職時(shí),我苦笑問他們要不要發(fā)個(gè)長長的心聲慣例帖,揭露一下現(xiàn)狀。對方說:不了,浪費(fèi)時(shí)間,而且我也怕揭露出來你們過的更糟。我當(dāng)時(shí)一下黯然神傷,因?yàn)樵?jīng)共同為了理想奮斗過的戰(zhàn)友已經(jīng)徹底對華為徹底灰心了。當(dāng)時(shí)大家調(diào)侃,我們用著當(dāng)年共產(chǎn)黨的小米加步槍,組織卻有著堪比當(dāng)年國民黨的作風(fēng)。

曾幾何時(shí),我為我們用著小米加步槍打敗洋槍洋炮而自豪。

現(xiàn)在,我累了,我想投降。

其實(shí)時(shí)至今日,我還是真心希望華為能認(rèn)真吸取教訓(xùn),能做好盤古,把盤古做到世界一流,把昇騰變成英偉達(dá)的水平。

內(nèi)部的劣幣驅(qū)逐良幣,使得諾亞乃至華為在短時(shí)間內(nèi)急劇流失了大量出色的大模型人才。相信他們也正在如Deepseek等各個(gè)團(tuán)隊(duì)閃耀著,施展著他們的抱負(fù)才華,為中美在AI的激烈競賽中奉獻(xiàn)力量。我時(shí)常感嘆,華為不是沒有人才,而是根本不知道怎么留住人才。如果給這些人合適的環(huán)境,合適的資源,更少的枷鎖,更少的政治斗爭,盤古何愁不成?

最后:我以生命,人格和榮譽(yù)發(fā)誓,我寫的以上所有內(nèi)容均為真實(shí)(至少在我有限的認(rèn)知范圍內(nèi))。我沒有那么高的技術(shù)水平以及機(jī)會去做詳盡扎實(shí)的分析,也不敢直接用內(nèi)部記錄舉證,怕因?yàn)樾畔踩サ?。但是我相信我很多曾?jīng)的戰(zhàn)友,會為我作證。

在華為內(nèi)部的兄弟,包括我們曾經(jīng)服務(wù)過的產(chǎn)品線兄弟們,相信本文的無數(shù)細(xì)節(jié)能和你們的印象對照,印證我的說法。你們可能也曾經(jīng)被蒙騙,但這些殘酷的真相不會被塵封。我們奮戰(zhàn)過的痕跡,也不應(yīng)該被扭曲和埋葬。

寫了這么多,某些人肯定想把我找出來,抹殺掉。公司搞不好也想讓我噤聲乃至追責(zé)。如果真的這樣,我,乃至我的家人的人身乃至生命安全可能都會受到威脅。為了自我保護(hù),我近期每天會跟大家報(bào)平安。

如果我消失了,就當(dāng)是我為了真理和理想,為了華為乃至中國能夠更好地發(fā)展算力和AI而犧牲了吧,我愿埋葬于那片曾經(jīng)奮斗過的地方。

諾亞,再見

2025年7月6日凌晨 寫于深圳


相關(guān)內(nèi)容