今日,DeepSeek在AI開源社區(qū)Hugging Face上推出了一款全新模型DeepSeek-Prover-V2-671B。這款模型采用了更高效的safetensors文件格式,支持多種計(jì)算精度,從而讓模型訓(xùn)練與部署更加高效且節(jié)省資源。作為去年P(guān)rover-V1.5數(shù)學(xué)模型的升級(jí)版本,其參數(shù)規(guī)模達(dá)到了6710億,為復(fù)雜任務(wù)提供了強(qiáng)大的算力支持。這一改進(jìn)使得模型在處理數(shù)學(xué)證明等領(lǐng)域表現(xiàn)更為突出。
在架構(gòu)設(shè)計(jì)方面,DeepSeek-Prover-V2-671B基于DeepSeek-V3架構(gòu)構(gòu)建,采用MoE(混合專家)模式,包含61層Transformer層和7168維隱藏層。同時(shí),該模型支持超長(zhǎng)上下文,最大位置嵌入可達(dá)16.38萬,這使其能夠應(yīng)對(duì)更加復(fù)雜的數(shù)學(xué)推理場(chǎng)景。此外,F(xiàn)P8量化的引入不僅有效減小了模型體積,還進(jìn)一步提升了推理效率,為實(shí)際應(yīng)用提供了更多可能性。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。