據(jù)國內(nèi)媒體報道,深度求索公司計劃在近期推出一款全新的AI大模型——DeepSeek-R2。這款AI大模型在技術上采用了更先進的混合專家模型(MoE),并結合了智能門控網(wǎng)絡層(Gating Network),旨在優(yōu)化高負載推理任務的性能。
DeepSeek-R2不僅在技術上有所提升,更在成本上具有顯著優(yōu)勢。據(jù)分析師預測,其定價可能會顯著低于OpenAI的同類產(chǎn)品,預示著AI服務定價模式或將迎來一次顛覆性變革。同時,有消息透露,相較于GPT-4,DeepSeek-R2的成本有望下降97%。
這款AI大模型在參數(shù)量上也達到了新的高度。據(jù)透露,DeepSeek-R2的總參數(shù)量可能達到1.2萬億,相較于前代產(chǎn)品DeepSeek-R1的6710億參數(shù),幾乎翻倍。這一巨大的參數(shù)量將進一步提升其處理復雜任務的能力。
值得一提的是,DeepSeek-R2是基于華為昇騰910B芯片集群訓練的。在FP16精度下,其計算能力達到了驚人的512PetaFLOPS,芯片使用效率也高達82%。據(jù)華為實驗室統(tǒng)計,這一性能相當于英偉達上一代A100訓練集群的91%左右,顯示了DeepSeek-R2在性能上的卓越表現(xiàn)。
綜合來看,DeepSeek-R2不僅在技術上取得了顯著進步,更在成本和性能上實現(xiàn)了雙重突破。隨著其即將推出,我們有理由期待這款AI大模型將在各個領域帶來更加出色的表現(xiàn)和應用。