青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

阿里開(kāi)源“零搜索”技術(shù),訓(xùn)練成本直降88%,準(zhǔn)確度超谷歌搜索

編譯 | 金碧輝

編輯 | 程茜

智東西5月9日消息,阿里巴巴5月7日發(fā)表于arXiv的論文透露,阿里巴巴達(dá)摩院研發(fā)的“零搜索”(ZeroSearch)技術(shù)突破性破解AI訓(xùn)練成本困境。該技術(shù)能通過(guò)模擬搜索引擎訓(xùn)練機(jī)制,使大模型在無(wú)需調(diào)用真實(shí)搜索引擎API的情況下自主進(jìn)化檢索能力。

扎克伯格深度專(zhuān)訪(fǎng):懟蘋(píng)果,夸DeepSeek,聊AI開(kāi)源痛點(diǎn)

▲阿里巴巴達(dá)摩院研究團(tuán)隊(duì)發(fā)表于arXiv的論文原文

“零搜索”技術(shù)打破依賴(lài)科技巨頭的API經(jīng)濟(jì)模式,開(kāi)發(fā)者可精準(zhǔn)控制訓(xùn)練數(shù)據(jù)質(zhì)量。目前開(kāi)源代碼已登陸GitHub和Hugging Face平臺(tái),涵蓋Qwen-2.5、LLaMA-3.2等主流架構(gòu),支持基礎(chǔ)版和指令微調(diào)版模型。初創(chuàng)企業(yè)可用四塊A100顯卡搭建高精度訓(xùn)練環(huán)境。

在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流問(wèn)答數(shù)據(jù)集的綜合測(cè)評(píng)中,基于“零搜索”技術(shù)訓(xùn)練的140億參數(shù)大模型不僅搜索準(zhǔn)確率力壓谷歌,更實(shí)現(xiàn)訓(xùn)練成本直降近九成。

扎克伯格深度專(zhuān)訪(fǎng):懟蘋(píng)果,夸DeepSeek,聊AI開(kāi)源痛點(diǎn)

▲arXiv論文原文中的七大主流問(wèn)答數(shù)據(jù)集的綜合測(cè)評(píng)圖表

據(jù)VentureBeat今天報(bào)道,原本需要調(diào)用商業(yè)搜索引擎API的586.70美元(折合人民幣約為4240.74元)開(kāi)銷(xiāo),如今僅需70.80美元(折合人民幣約為510.17元)即可完成同等量級(jí)訓(xùn)練任務(wù)。這項(xiàng)創(chuàng)新讓AI模型在“自我模擬”(self-simulated)中獲得出類(lèi)似搜索搜索引擎的檢索能力。

一、 “零搜索” 技術(shù)成本大降超八成,性能超越谷歌搜索

研究人員使用SerpAPI調(diào)用谷歌搜索服務(wù)作為對(duì)照組,通過(guò)模擬傳統(tǒng)AI訓(xùn)練流程中調(diào)用商業(yè)搜索引擎API的場(chǎng)景,與“零搜索”技術(shù)方案進(jìn)行成本對(duì)比。

研究人員測(cè)算,使用SerpAPI調(diào)用谷歌搜索處理約6.4萬(wàn)次查詢(xún),成本約為586.70美元(約合人民幣為4228.82元);而在四塊A100 GPU上運(yùn)行14B參數(shù)的大語(yǔ)言模型,僅需70.80美元(折合人民幣約為510.43元),節(jié)省幅度高達(dá)88%。

據(jù)TechCrunch 2024年11月報(bào)道,從目前存在的一些公開(kāi)信息透露,SerpAPI旨在幫助開(kāi)發(fā)者繞過(guò)復(fù)雜的網(wǎng)頁(yè)解析流程,SerpAPI能通過(guò)API調(diào)用獲取谷歌、Bing、百度等主流搜索引擎的搜索結(jié)果數(shù)據(jù)。

SerpAPI的實(shí)際企業(yè)用戶(hù)包括Jasper.ai、Copy.ai等AI初創(chuàng)公司,這些企業(yè)通過(guò)API接口獲取實(shí)時(shí)搜索結(jié)果訓(xùn)練對(duì)話(huà)系統(tǒng),但具體成本數(shù)據(jù)未被披露。

二、阿里大模型能生成擬真文檔,較谷歌API節(jié)省88%開(kāi)支

阿里巴巴的研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過(guò)海量預(yù)訓(xùn)練的大模型已具備擬真文檔生成能力。通過(guò)監(jiān)督微調(diào)將大語(yǔ)言模型轉(zhuǎn)化為檢索模塊,能按需生成相關(guān)或無(wú)關(guān)文檔組合。

在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)通過(guò)漸進(jìn)式降低生成文檔質(zhì)量的“教學(xué)方案”,迫使模型持續(xù)優(yōu)化檢索精度,形成自主進(jìn)化閉環(huán)。

據(jù)VentureBeat今天報(bào)道,在TriviaQA等7個(gè)主流問(wèn)答數(shù)據(jù)集測(cè)試中,基于通義千問(wèn)2.5、LLaMA3.2等架構(gòu)的模在數(shù)學(xué)視覺(jué)推理測(cè)試中得分超過(guò)OpenAI o1,展現(xiàn)了強(qiáng)大的圖形與數(shù)學(xué)結(jié)合的分析能力。14B參數(shù)模型在事實(shí)準(zhǔn)確性指標(biāo)上超越谷歌搜索2.3個(gè)百分點(diǎn),7B模型與商業(yè)引擎持平。相同訓(xùn)練量下模擬方案較谷歌搜索API節(jié)省88%開(kāi)支。

結(jié)語(yǔ):“零搜索”技術(shù)推動(dòng)AI產(chǎn)業(yè)進(jìn)入低成本自主進(jìn)化階段

阿里巴巴達(dá)摩院的突破可能是AI訓(xùn)練范式的重要轉(zhuǎn)折。當(dāng)大模型能在封閉系統(tǒng)內(nèi)模擬現(xiàn)實(shí)世界的信息交互,用戶(hù)得以擺脫對(duì)外部服務(wù)的依賴(lài),這對(duì)數(shù)據(jù)安全、訓(xùn)練可控性及技術(shù)民主化或具有深遠(yuǎn)意義。

從行業(yè)發(fā)展趨勢(shì)來(lái)看,“零搜索”技術(shù)有望對(duì)AI開(kāi)發(fā)價(jià)值鏈產(chǎn)生深遠(yuǎn)影響。隨著自模擬技術(shù)成熟,未來(lái),或?qū)⒂楷F(xiàn)更多AI訓(xùn)練方案,推動(dòng)產(chǎn)業(yè)進(jìn)入低成本自主進(jìn)化的新階段。


相關(guān)內(nèi)容