肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

當(dāng)前位置: 首頁 ? 資訊 ? 產(chǎn)業(yè) ? 正文

搶先DeepSeek R2,阿里通義正式發(fā)布

作者:董溫淑 來源:電廠 274804/30

Qwen 3模型即將發(fā)布的消息,已經(jīng)流傳了一個月的時間;特別是最近一周內(nèi),坊間對Qwen 3的猜測不斷在“憋個大的”與“最終難產(chǎn)”之間反復(fù)橫跳。直到4月29日凌晨,這款備受關(guān)注的模型終于亮相,號稱全面超越DeepSeek R1。杭州一家中廠

標(biāo)簽: Qwen 3 阿里 大模型

Qwen 3模型即將發(fā)布的消息,已經(jīng)流傳了一個月的時間;特別是最近一周內(nèi),坊間對Qwen 3的猜測不斷在“憋個大的”與“最終難產(chǎn)”之間反復(fù)橫跳。

直到4月29日凌晨,這款備受關(guān)注的模型終于亮相,號稱全面超越DeepSeek R1。

杭州一家中廠的算法從業(yè)者告訴「電廠」:“近幾個月網(wǎng)上不少DeepSeek R2的泄露信息,有人說R2要在5月份發(fā)。Qwen 3(這個時間發(fā)布)肯定是想搶個先機?!?/p>

在一家國產(chǎn)大模型開放平臺工作的劉露則透露,其所在的團(tuán)隊提前不到12小時獲知Qwen3的發(fā)布消息,團(tuán)隊成員連夜完成了Qwen 3系列模型在該平臺的部署上線。

無論如何,Qwen 3的亮相都意味著開源AI大模型的技術(shù)能力再次被刷新;與之相繼的,將是產(chǎn)業(yè)鏈下游應(yīng)用者迎來一次新的生態(tài)選擇。

「電廠」注意到,Qwen 3發(fā)布僅10小時,已經(jīng)有開發(fā)者發(fā)布了套殼Qwen 3系列模型的ChatBot類產(chǎn)品。

基于Qwen 3的第三方ChatBot類產(chǎn)品,圖源/網(wǎng)絡(luò)?

國內(nèi)*混合推理模型,成本/性能超越DeepSeek R1

根據(jù)阿里云通義千問團(tuán)隊官宣,Qwen3系列開源了8個模型,其中包含2個MoE(混合專家)大模型和6個Dense(稠密)大模型。

本次Qwen3系列模型尤為值得關(guān)注的創(chuàng)新是該模型支持思考模式、非思考模式兩種運行方式。

在思考模式下,模型會逐步推理,經(jīng)過深思熟慮后給出最終答案。這種方法適合需要深入思考的復(fù)雜問題;在非思考模式中,模型會提供快速、近乎即時的響應(yīng),適用于對速度要求高于深度的簡單問題。

換句話說,Qwen3打破了DeepSeek R1等思維鏈模型慢思考的單一模式,而是為用戶賦予靈活選擇的權(quán)利。這也是如今全球大模型市場發(fā)展的重要方向之一。

不同Benchmark下Qwen3兩種思考模式對比,圖源/阿里云通義?

今年2月份,由部分OpenAI前員工創(chuàng)辦的Anthropic在全球范圍內(nèi)率先發(fā)布了名為Claude 3.7 Sonnet的混合推理模型,被視為融合了DeepSeek V3(適于通用任務(wù))與R1(適于推理任務(wù))模型的各自優(yōu)勢。

這種混合模式引起了業(yè)界的廣泛關(guān)注。OpenAI創(chuàng)始人Sam Altman就曾表示,OpenAI接下來將研發(fā)“它能夠知道什么時候應(yīng)該長時間思考,并且通常適用于廣泛任務(wù)”的模型。而Qwen3是國內(nèi)*混合推理模型。

性能及成本優(yōu)化方面,Qwen3系列也表現(xiàn)驚人。

比如本次開源的兩個MoE模型,權(quán)重分別為Qwen3-235B-A22B,是一個擁有 2350 多億總參數(shù)和220多億激活參數(shù)的大模型;另一個為Qwen3-30B-A3B,一個擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE模型。

MoE(混合專家模型)混合包含多個專家網(wǎng)絡(luò),每個專家通常是一個子模型、也可以是神經(jīng)網(wǎng)絡(luò)的一個子模塊,擁有不同的能力或?qū)iL,能夠處理不同類型的輸入數(shù)據(jù)。在運行時,不同任務(wù)會被進(jìn)行分類、輸送到相應(yīng)的“專家”處進(jìn)行解決。

DeepSeek V3與R1都屬于MoE模型。這種架構(gòu)的優(yōu)勢是其能夠,并且在解決任務(wù)時僅調(diào)動與之相應(yīng)的模塊、節(jié)省計算成本。這也是“AI界拼多多”DeepSeek提升性價比的殺手锏之一。作為與Qwen3的對比,DeepSeek V3與R1總參數(shù)規(guī)模為6710億參數(shù),激活參數(shù)為370億。

性能方面,官方信息顯示,Qwen旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等*模型相比,均展現(xiàn)出優(yōu)勢。

小型MoE模型Qwen3-30B-A3B ,相比DeepSeek V3、GPT 4o、谷歌Gemma3-27B-1T等模型同樣表現(xiàn)優(yōu)異。

六個開源的Dense模型均適用于通用任務(wù)解決,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

值得一提的是參數(shù)量極低的Qwen3-4B模型,也在不少任務(wù)中展現(xiàn)出來相比GPT 4o更為優(yōu)異的成績。

上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證,允許代碼修改和再發(fā)布(作為開源或商業(yè)軟件)。

Qwen3模型還支持 119 種語言和方言,并優(yōu)化了Agent和代碼能力、加強了對MCP的支持。

開源大模型“城頭變換大王旗”

Qwen3的發(fā)布,距離DeepSeek R1的亮相已過去了3個多月。

1月20日,憑借比肩OpenAI o1的性能、低廉的成本,以及對大模型研發(fā)范式的改變,R1一經(jīng)發(fā)布就榮膺開源大模型世界的“無冕*”至今。

在此期間,包含科大訊飛(星火X1)、百度(文心X1)、OpenAI(o3 mini)、阿里(Qwen-QwQ-32B)、字節(jié)(豆包1.5深度思考)在內(nèi)的玩家紛紛下場推理模型,但至多是接近R1性能或?qū)崿F(xiàn)部分超越,未能真正挑動后者的位置。

在大模型的世界里,數(shù)月的時間已足夠一代新王換舊王。正是這樣的背景下,關(guān)注的目光落到了Qwen3身上。

與許多國內(nèi)玩家不同的是,早在2024年8月,阿里就公開站到了開源自研模型的大廠陣營之中。在這條最終被DeepSeek驗證可行的市場之路上,Qwen可以說已經(jīng)提前拿到了不少牌。

至今Qwen系列產(chǎn)品已在不少開源榜單中排名靠前。如據(jù)全球*AI開源社區(qū)Huggingface 4月29日顯示,在audio-text-to-text任務(wù)類目下,Qwen的兩款模型熱度居前。

Huggingface 于2月10日發(fā)布的開源大模型榜單“Open LLM Leaderboard”也顯示,排名前十的開源大模型全部是基于Qwen開源模型二次訓(xùn)練的衍生模型。

圖源/Huggingface?

在生態(tài)活躍度方面,Qwen也處于全球前列。據(jù)官方數(shù)據(jù)顯示,從2024年下半年開始至2025年1月底,基于Qwen系列的衍生模型數(shù)量超過了美國Llama系列,超過9萬個,已是全球*的AI模型家族,超過了meta 旗下的Llama家族。

不過對比Llama系列,Qwen系列開源模型在下載量方面與前者仍有差距。據(jù)meta首席執(zhí)行官Zuck Burg在今年3月份宣布,Llama的下載量已達(dá)到10億次;而Qwen系列的下載量還在千萬級別。

在Qwen3發(fā)布這一天,周靖人接受了“晚點”的采訪,他講道,判斷“開源生態(tài)跑出來了”的指標(biāo)主要有兩點“一是看開發(fā)者的選擇,二是看性能指標(biāo)”。

本次隨著Qwen3的發(fā)布,這款新模型通過在性能指標(biāo)和成本方面超越DeepSeek R1,以及創(chuàng)新的混合推理模式,登頂為全球最強大的開源大模型,又為Qwen增添了一張好牌。

但在這之后,還有更多的挑戰(zhàn)等待著它。接下來DeepSeek R2的亮相,也將為整個市場增添新的變數(shù)。

在貫徹“*通吃(winner-takes-all)”定律的開源市場,競爭遠(yuǎn)未到達(dá)終局、誰能成為最終的“winner”還充滿未知,無論是DeepSeek,還是Qwen和Llama,都仍需要為不下牌桌而持續(xù)努力。

不過值得欣慰的是,雖然戰(zhàn)程未半,至少當(dāng)下的開源大模型“桂冠”仍歸屬于國產(chǎn)玩家。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機構(gòu)或其他網(wǎng)站的公開信息,并不意味著贊同其觀點或證實其內(nèi)容的真實性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問題請及時告之,本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財中網(wǎng)合作