萬(wàn)眾矚目的DeepSeek“開(kāi)源周”,第一彈來(lái)了。
2月24日,DeepSeek開(kāi)源了首個(gè)代碼庫(kù)FlashMLA。據(jù)了解,這是DeepSeek針對(duì)Hopper GPU優(yōu)化的高效MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼內(nèi)核,專為處理可變長(zhǎng)度序列而設(shè)計(jì),現(xiàn)在已經(jīng)投入生產(chǎn)使用。
上周四,DeepSeek宣布將在本周舉辦“開(kāi)源周”活動(dòng),連續(xù)開(kāi)源五個(gè)代碼庫(kù),由此引燃了大家的期待。作為“開(kāi)源周”的第一彈,F(xiàn)lashMLA給業(yè)界帶來(lái)頗多驚喜。本周的剩下四個(gè)工作日,DeepSeek還將繼續(xù)開(kāi)源四個(gè)代碼庫(kù)。業(yè)內(nèi)人士分析,其余四個(gè)代碼庫(kù)可能會(huì)與AI算法優(yōu)化、模型輕量化、應(yīng)用場(chǎng)景拓展等相關(guān),涵蓋多個(gè)關(guān)鍵領(lǐng)域。
進(jìn)一步突破GPU算力瓶頸
根據(jù)DeepSeek的介紹,F(xiàn)lashMLA主要實(shí)現(xiàn)了以下的突破:
一是BF16支持,提供更高效的數(shù)值計(jì)算能力,減少計(jì)算精度損失,同時(shí)優(yōu)化存儲(chǔ)帶寬使用率。
二是分頁(yè)KV(Key-Value,一種緩存機(jī)制)緩存,采用高效的分塊存儲(chǔ)策略,減少長(zhǎng)序列推理時(shí)的顯存占用,提高緩存命中率,從而提升計(jì)算效率。
三是極致性能優(yōu)化,在H800GPU上,F(xiàn)lashMLA通過(guò)優(yōu)化訪存和計(jì)算路徑,達(dá)到了3000GB/s內(nèi)存帶寬和580TFLOPS的計(jì)算能力,最大化利用GPU資源,減少推理延遲。
據(jù)了解,傳統(tǒng)解碼方法在處理不同長(zhǎng)度的序列時(shí),GPU的并行計(jì)算能力會(huì)被浪費(fèi),就像用卡車運(yùn)小包裹,大部分空間閑置。而FlashMLA通過(guò)動(dòng)態(tài)調(diào)度和內(nèi)存優(yōu)化,將HopperGPU的算力“榨干”,提升相同硬件下的吞吐量。
簡(jiǎn)單理解,F(xiàn)lashMLA能夠讓大語(yǔ)言模型在H800這樣的GPU上跑得更快、更高效,尤其適用于高性能AI任務(wù),進(jìn)一步突破GPU算力瓶頸,降低成本。
值得注意的是,DeepSeek之所以能夠?qū)崿F(xiàn)大模型訓(xùn)練與成本的大幅降低,與其提出的創(chuàng)新注意力架構(gòu)MLA密不可分。MLA(多頭潛在注意力機(jī)制)又被稱為低秩注意力機(jī)制,是與傳統(tǒng)的多頭注意力機(jī)制(Multi-head Attention)不同的一種創(chuàng)新性注意力機(jī)制。自從V2模型開(kāi)始,MLA就幫助DeepSeek在一系列模型中實(shí)現(xiàn)成本大幅降低,但是計(jì)算、推理性能仍能與頂尖模型持平。
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院和軟件學(xué)院黨委書(shū)記、人工智能研究所所長(zhǎng)吳飛表示,我們理解一篇文章,更關(guān)切單詞所刻畫(huà)的主題概念,而非單詞從頭到尾的羅列等。傳統(tǒng)大模型中的注意力機(jī)制由于需要記錄每個(gè)單詞在不同上下文中的左鄰右舍,因此其變得龐大無(wú)比。DeepSeek引入低秩這一概念,對(duì)巨大的注意力機(jī)制矩陣進(jìn)行了壓縮,減少參與運(yùn)算的參數(shù)數(shù)量,從而在保持模型性能的同時(shí)顯著降低了計(jì)算和存儲(chǔ)成本,把顯存占用降到了其他大模型的5%-13%,極大提升了模型運(yùn)行效率。
由于Flash MLA進(jìn)一步突破了GPU算力瓶頸,記者注意到,有英偉達(dá)股民跑到DeepSeek的評(píng)論區(qū)祈禱,希望DeepSeek在讓GPU更為高效的同時(shí),能夠不影響英偉達(dá)的股價(jià)。
以持續(xù)開(kāi)源加速行業(yè)發(fā)展進(jìn)程
作為開(kāi)源社區(qū)的“頂流”,DeepSeek以完全透明的方式與全球開(kāi)發(fā)者社區(qū)分享最新的研究進(jìn)展,加速行業(yè)發(fā)展進(jìn)程。
在開(kāi)源公告中,DeepSeek還表示,自己只是探索通用人工智能的小公司,作為開(kāi)源社區(qū)的一部分,每分享一行代碼,都會(huì)成為加速AI行業(yè)發(fā)展的集體動(dòng)力。同時(shí),DeepSeek稱,沒(méi)有高不可攀的象牙塔,只有純粹的車庫(kù)文化和社區(qū)驅(qū)動(dòng)的創(chuàng)新。
記者注意到,在DeepSeek開(kāi)源FlashMLA的帖子下,有不少網(wǎng)友點(diǎn)贊其公開(kāi)透明的開(kāi)源精神。有網(wǎng)友表示,“OpenAI應(yīng)該將它的域名捐給你”,還有網(wǎng)友說(shuō),“(開(kāi)源周)第五天,我猜會(huì)是通用人工智能”。
由于DeepSeek的圖標(biāo)是一只在大海里探索的鯨魚(yú),還有網(wǎng)友形象生動(dòng)地描述稱,“這條鯨魚(yú)正在掀起波浪”(The whale is making waves)。
據(jù)證券時(shí)報(bào)記者了解,(Open Source Initiative,開(kāi)源代碼促進(jìn)會(huì))專門針對(duì)AI提出了三種開(kāi)源概念,分別是:
開(kāi)源AI系統(tǒng):包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼和模型權(quán)重。代碼和權(quán)重需要按照開(kāi)源協(xié)議提供,而訓(xùn)練數(shù)據(jù)只需要公開(kāi)出處(因?yàn)橐恍?shù)據(jù)集確實(shí)無(wú)法公開(kāi)提供)。
開(kāi)源AI模型:只需要提供模型權(quán)重和推理代碼,并按照開(kāi)源協(xié)議提供。(所謂推理代碼,就是讓大模型跑起來(lái)的代碼。這是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)性工程,涉及到了GPU調(diào)用和模型架構(gòu))。
開(kāi)源AI權(quán)重:只需要提供模型權(quán)重,并按照開(kāi)源協(xié)議提供。
業(yè)內(nèi)普遍認(rèn)為,DeepSeek的勝利是開(kāi)源的勝利,開(kāi)源大模型的創(chuàng)新模式為人工智能的發(fā)展開(kāi)辟了新的路徑。DeepSeek此前開(kāi)源的是模型權(quán)重,并沒(méi)有開(kāi)放訓(xùn)練代碼、推理代碼、評(píng)估代碼、數(shù)據(jù)集等更為重要的組件,因此屬于第三種類型的開(kāi)源。
一名資深的業(yè)內(nèi)人士告訴記者,在DeepSeek推出R1并發(fā)布技術(shù)報(bào)告后,許多團(tuán)隊(duì)都在試圖復(fù)現(xiàn)R1模型,但由于背后還涉及許多重要和關(guān)鍵的技術(shù)細(xì)節(jié),因此要實(shí)現(xiàn)真正的復(fù)現(xiàn)其實(shí)比較困難,而且也需要較長(zhǎng)的時(shí)間。不過(guò),業(yè)內(nèi)的開(kāi)源基本上也都是開(kāi)源模型權(quán)重,而DeepSeek的開(kāi)源與其他開(kāi)源模型相比已經(jīng)是最頂級(jí)、最徹底的一種。
正因如此,DeepSeek也被業(yè)界稱為“源神”。同樣在今天,DeepSeek-R1在知名的國(guó)際開(kāi)源社區(qū)Hugging Face上獲得了超過(guò)一萬(wàn)個(gè)贊,成為該平臺(tái)近150萬(wàn)個(gè)模型之中最受歡迎的大模型。Hugging Face的首席執(zhí)行官Clement Delangue也在社交平臺(tái)上第一時(shí)間分享了這一喜訊。
民生證券研報(bào)認(rèn)為,DeepSeek所有模型均為開(kāi)源模型,即所有應(yīng)用廠商都擁有了可以比肩頂級(jí)AI的大模型,而且還可自行二次開(kāi)發(fā)、靈活部署,這將加速AI應(yīng)用的發(fā)展進(jìn)程。當(dāng)模型的成本越低,開(kāi)源模型發(fā)展越好,模型的部署、使用的頻率就會(huì)越高,使用量就會(huì)越大。
研報(bào)進(jìn)一步指出,經(jīng)濟(jì)學(xué)上著名的“杰文斯悖論”提出,當(dāng)技術(shù)進(jìn)步提高了資源使用的效率,不僅沒(méi)有減少這種資源的消耗,反而因?yàn)槭褂贸杀窘档?,刺激了更大的需求,最終導(dǎo)致資源使用總量上升。因此從更長(zhǎng)的周期來(lái)看,DeepSeek的發(fā)展恰恰會(huì)加速AI的普及和創(chuàng)新,帶來(lái)算力需求、特別是推理算力需求更大量級(jí)提升。
校對(duì):蘇煥文