国产一级黄色电影-在线观看你懂得-91视频一区二区-午夜高清-青青草综合-国产成人区-免费啪-欧美性猛交xxxx黑人猛交-日韩一区二区高清-色一情一区二-欧美特级黄色-日韩大尺度视频-91素人约啪-91成品视频-这里只有精品9

新聞資訊詳情

密切跟進(jìn)OpenAI,國產(chǎn)o1類推理模型陸續(xù)登場(chǎng)

 2025-02-08 14:45:33          

60a7bd9a7bc6cca59651d495c8a27d14_60b8d7b56c4767bcd3961a22a7899f0d_a700x398.jpg

2025年第一個(gè)月,國產(chǎn)o1類模型開始密集更新,發(fā)布者包括“六小虎”中的月之暗面、階躍星辰,以及獨(dú)立于創(chuàng)業(yè)公司格局外的DeepSeek。

1月20日,DeepSeek正式發(fā)布性能對(duì)齊OpenAI-o1正式版的DeepSeek-R1,并同步開源模型權(quán)重。

根據(jù)DeepSeek披露的測(cè)試結(jié)果,它在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上與OpenAI-o1-1217基本持平,尤其在AIME 2024(美國數(shù)學(xué)邀請(qǐng)賽)、MATH-500、SWE-Bench Verified(軟件開發(fā)領(lǐng)域測(cè)試集)三項(xiàng)測(cè)試集上以微弱優(yōu)勢(shì)取勝。

作為對(duì)R1能力的一種驗(yàn)證,由660B版本R1蒸餾得到的多個(gè)小尺寸模型中,32B和70B兩款模型在多項(xiàng)能力上能夠與OpenAI o1-mini對(duì)標(biāo)。并且,這些蒸餾模型分屬Q(mào)wen系列和Llama系列,其中,14B Qwen系列蒸餾模型,其各項(xiàng)推理類測(cè)試集表現(xiàn)已經(jīng)明顯好于QwQ-32B-Preview。

需要指出的是,DeepSeek還同步開源了DeepSeek-R1-Zero,這是一個(gè)僅在預(yù)訓(xùn)練基礎(chǔ)上加入了RL(強(qiáng)化學(xué)習(xí))而沒有經(jīng)過SFT(監(jiān)督微調(diào))的成果。

由于沒有人類監(jiān)督數(shù)據(jù)介入,R1-Zero在生成上可能存在可讀性較差、語言混雜的現(xiàn)象,但該模型仍然足以對(duì)標(biāo)OpenAI-o1-0912。此外,它更重要的意義是側(cè)重于探索僅通過強(qiáng)化學(xué)習(xí)訓(xùn)練大語言模型以獲得推理能力的技術(shù)可能性,為相關(guān)后續(xù)研究提供了重要基礎(chǔ)。

定價(jià)方面,DeepSeek延續(xù)了“AI大模型界拼多多”的身份標(biāo)簽。DeepSeek-R1 API服務(wù)定價(jià)為每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens為16元。這番價(jià)格中,其緩存命中的輸入token價(jià)格不足OpenAI o1的2%,緩存未命中的輸入價(jià)格及輸出價(jià)格也僅為o1的3.6%。 

另一個(gè)與DeepSeek-R1顯得針鋒相對(duì)的推理類模型,是月之暗面于同一天發(fā)布的K1.5。 

從去年11月開始,月之暗面已經(jīng)更新了k0-math數(shù)學(xué)模型、k1視覺思考模型等加入了強(qiáng)化學(xué)習(xí)的k系列模型。k1.5按照模態(tài)思路推進(jìn),是一個(gè)多模態(tài)思考模型。

月之暗面給k1.5的定位是“多模態(tài)o1”。簡(jiǎn)單而言,k1.5同時(shí)包含多模態(tài)的通用能力和推理能力。

據(jù)官方數(shù)據(jù),其Short-CoT(可理解為短思考)模式下的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,對(duì)標(biāo)GPT-4o和Claude 3.5 Sonnet;Long-CoT(可理解為長(zhǎng)思考)模式下的數(shù)學(xué)、代碼、多模態(tài)推理能力,則達(dá)到了OpenAI o1正式版水平。 

就R1和k1.5的訓(xùn)練方式而言,二者都采用了強(qiáng)化學(xué)習(xí)、多階段訓(xùn)練、思維鏈以及獎(jiǎng)勵(lì)模型。從公開信息看來,其不同環(huán)節(jié)存在各自的技術(shù)策略。 

DeepSeek利用了數(shù)千條長(zhǎng)CoT冷啟動(dòng)數(shù)據(jù),先是對(duì)DeepSeek-V3-Base這一基礎(chǔ)模型進(jìn)行微調(diào)。隨后進(jìn)行面向推理的大規(guī)模RL訓(xùn)練,并引入語言一致性獎(jiǎng)勵(lì)克服語言混雜問題。經(jīng)歷監(jiān)督微調(diào)(SFT)之后,又進(jìn)行適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí),對(duì)推理數(shù)據(jù)和一般數(shù)據(jù)采用不同的獎(jiǎng)勵(lì)規(guī)則。

另外,R1在強(qiáng)化學(xué)習(xí)中加入了組相對(duì)策略優(yōu)化算法(Group Relative Policy Optimization,GRPO),從效果上來說,它能夠優(yōu)化策略、提高樣本效率和增強(qiáng)算法穩(wěn)定性等。

k1.5一方面將強(qiáng)化學(xué)習(xí)的上下文窗口擴(kuò)展到128k,另一方面采用在線鏡像下降的變體進(jìn)行穩(wěn)健的策略優(yōu)化,兩者相結(jié)合讓k1.5能夠建立一個(gè)相對(duì)簡(jiǎn)潔的強(qiáng)化學(xué)習(xí)框架,在不加入蒙特卡洛樹搜索、價(jià)值函數(shù)和過程獎(jiǎng)勵(lì)模型等更復(fù)雜技術(shù)的情況下,也能夠保證性能。

需要指出的是,k1.5在強(qiáng)化學(xué)習(xí)中還加入了“長(zhǎng)度懲罰”來抑制響應(yīng)長(zhǎng)度,即確立一個(gè)公式,根據(jù)響應(yīng)長(zhǎng)度和確定性來分配獎(jiǎng)勵(lì)值。此外它還采用了“最短拒絕采用方法”(選擇最短的正確響應(yīng)進(jìn)行監(jiān)督微調(diào))等方法來抑制響應(yīng)長(zhǎng)度。

k1.5的另一個(gè)特點(diǎn)是對(duì)文本和視覺數(shù)據(jù)進(jìn)行了聯(lián)合訓(xùn)練,這使其具備多模態(tài)能力。不過Kimi也承認(rèn),由于部分輸入主要支持文本格式,其面對(duì)部分幾何圖題的圖形理解能力還不夠強(qiáng)大。

在此之前,階躍星辰也于1月16日上線了Step Reasoner mini(下稱“Step R-mini”)實(shí)驗(yàn)版。這也是一款具備超長(zhǎng)推理能力的推理模型。 

但它還未完全準(zhǔn)備好的是,目前在測(cè)試集中主要對(duì)標(biāo)OpenAI o1-preview和o1-mini,而非o1完整版,當(dāng)然這應(yīng)該也與模型大小和訓(xùn)練方式有關(guān)。在國內(nèi)對(duì)標(biāo)模型上,其表現(xiàn)與QwQ-32B-Preview相近。

不過,階躍星辰強(qiáng)調(diào)其“文理兼顧”,使用了On-Policy(同策略)強(qiáng)化學(xué)習(xí)算法,在保證數(shù)學(xué)、代碼、邏輯推理能力的同時(shí),也能夠完成文學(xué)內(nèi)容創(chuàng)作和日常聊天的任務(wù)。

至此,從去年9月OpenAI以o1模型變革模型訓(xùn)練范式之后,各家大模型公司開始兌現(xiàn)當(dāng)時(shí)的行業(yè)預(yù)期,形成了一定規(guī)模的國產(chǎn)o1類模型跟進(jìn)潮。

但在所有玩家密切跟進(jìn)o1的同時(shí),OpenAI又在去年12月的發(fā)布季上讓o3和o3-mini一同亮相。盡管還沒有正式上線,但從OpenAI披露的數(shù)據(jù)來看,o3的性能相比o1又猛長(zhǎng)了一大截。

例如,在SWE-Bench Verified這一軟件開發(fā)測(cè)試集中,o3得分71.7%,而o1僅有48.9%;在AIME2024測(cè)試集中,o3準(zhǔn)確率96.7%,而o1為83.3%。o3的一些表現(xiàn),已經(jīng)開始展現(xiàn)AGI(通用人工智能)的初步特征。

當(dāng)然,o3也存在自己的問題。一方面,o系列模型普遍更擅長(zhǎng)邊界清晰、定義明確的任務(wù),對(duì)部分現(xiàn)實(shí)世界的工程任務(wù)處理還存在欠缺。另一方面,近期,o3在FrontierMath這項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試中,也因OpenAI資助過相關(guān)機(jī)構(gòu)而面臨提前獲取真題的真實(shí)能力水平質(zhì)疑。 

但擺在國內(nèi)大模型公司面前的共同問題仍然是明確的。從技術(shù)上來說,無論是DeepSeek-R1還是k1.5,都還沒有成功加入過程獎(jiǎng)勵(lì)模型和蒙特卡洛樹搜索等更復(fù)雜技術(shù),而這是否是模型進(jìn)一步提高推理能力的關(guān)鍵方法,我們還無從得知。

另外,從o1到o3,OpenAI公布的間隔時(shí)間僅有三個(gè)月,這意味著強(qiáng)化學(xué)習(xí)帶來的推理階段scaling up的技術(shù)范式,顯然比GPT系列模型以年為單位的預(yù)訓(xùn)練范式的節(jié)奏要快。

這是國內(nèi)大模型公司共同要面對(duì)的競(jìng)爭(zhēng)壓力。OpenAI不僅找到了更明確的技術(shù)路徑,并且有足夠的資源快速驗(yàn)證并推進(jìn)。當(dāng)下,國內(nèi)大模型行業(yè)將比過去更需要加速提效的突破式創(chuàng)新。


494

熱門資訊 更多 >>

05-31

2024

亞馬遜研發(fā)支出領(lǐng)跑全球 科技巨頭創(chuàng)新競(jìng)賽日趨激烈

根據(jù)全球知名市場(chǎng)研究機(jī)構(gòu)Gartner最新發(fā)布的數(shù)據(jù),2023年全球企業(yè)研發(fā)支出總額達(dá)到3.1萬億美元,同比增長(zhǎng)5.2%。其中,亞馬遜以...

08-15

2022

【媒體管家上海軟聞】國家級(jí)的媒體有哪些?哪些算中央媒體?

中央媒體名單 :嚴(yán)格意義上的中央媒體名單: 報(bào)紙類中央媒體:人民日?qǐng)?bào)、中國日?qǐng)?bào)、經(jīng)濟(jì)日?qǐng)?bào)、光明日?qǐng)?bào)、解放軍報(bào)、工人日?qǐng)?bào)、農(nóng)...

01-02

2025

2025年將建成“星座”一期覆蓋全球 吉利加速布局天地一體化出行生態(tài)

2024年12月下旬的一天,在穿上防護(hù)服、戴上頭套,通過防塵吹風(fēng)機(jī)后,記者終于進(jìn)入到位于浙江省臺(tái)州灣新區(qū)的吉利衛(wèi)星超級(jí)工廠,一...

01-26

2022

【行業(yè)動(dòng)態(tài)】2022第一季度延期展會(huì)通知匯總

中國國際縫制設(shè)備展覽會(huì)(CISMA)是全球最大的專業(yè)縫制設(shè)備展覽會(huì),展品包含了縫前、縫制、縫后各類機(jī)器以及CAD/CAM設(shè)...

03-21

2022

古鎮(zhèn)燈博會(huì)全球買家采購行線上展升級(jí)啟幕

采購盛宴聚勢(shì)云端,無縫助力廠商貿(mào)易。3月18日-4月18日,2022年古鎮(zhèn)燈博會(huì)全球買家采購行線上展再次升級(jí)啟幕,在展網(wǎng)融合型B2B...

03-10

2022

重要通知|2022年3月全國展會(huì)延期匯總表

2022年3月全國展會(huì)延期匯總都有哪些?快來看看吧!上述展會(huì)信息僅供參考,由于今年疫情情況特殊,展會(huì)時(shí)間/地點(diǎn)會(huì)存在不確定因素,...

03-17

2022

服務(wù)貴州畜禽產(chǎn)業(yè)為宗旨,2022貴陽國際畜產(chǎn)品及肉類工業(yè)展CIFPE

貴陽國際畜產(chǎn)品及肉類工業(yè)展覽會(huì)(CIFPE)為推動(dòng)農(nóng)牧旅一體化發(fā)展,整合資源,深化農(nóng)牧旅融合,推動(dòng)生態(tài)畜牧業(yè)發(fā)展,打造無公...

主站蜘蛛池模板: 青青草原av| 亚洲天天影视 | 欧美贵妇videos办公室 | 午夜国产片 | 日韩在线精品视频一区二区涩爱 | 国产美女黄色 | fee性满足he牲bbw | 蘑菇av| 五月婷婷六月婷婷 | 精品美女一区 | 午夜肉伦伦 | 开心激情综合网 | 欧美日本精品 | v888av| 国产一区二区三区免费观看 | 中文日韩av| 99精品国产一区二区 | 妖精视频一区二区 | 好吊妞这里只有精品 | 69国产精品视频免费观看 | 麻豆精品视频在线观看 | 九九国产 | 亚洲熟女乱综合一区二区三区 | 日韩黄色精品视频 | 国产高清免费观看 | chinese国产精品| 黄片毛片| 福利视频三区 | 日本三级视频 | 一级毛片儿 | 琪琪在线视频 | 歪歪6080| 快播视频在线观看 | 午夜视频在线观看一区 | 日韩久久中文字幕 | 日本xxxx18高清hd | 国产黄色网络 | 亚洲AV无码国产精品午夜字幕 | 国产小视频在线看 | 美女自拍偷拍 | 91啪国产 | 女王脚交玉足榨精调教 | 午夜刺激视频 | 国产调教视频在线观看 | 无码人妻丰满熟妇精品 | 视频精品一区 | 久久精彩免费视频 | aa一级片 | 天天看天天色 | 国产97在线视频 | 色图网址| 日本黄色小说 | 丰满放荡岳乱妇91ww | 夜夜操天天干 | 6699av| 人妻无码中文字幕 | 可以免费观看的av网站 | 中国精品毛片 | 福利在线视频导航 | 黄av网站| 国产麻豆电影在线观看 | 久久久久亚洲av无码专区体验 | 中文字幕精品一区二区精品 | 国产精品日日摸夜夜爽 | 亚洲国产精品久久久久爰色欲 | 大色综合 | 国产成人av一区 | 日韩成人精品一区二区三区 | 精品人妻aV中文字幕乱码色欲 | 波多野结衣mp4 | 午夜在线视频观看 | 中文字幕日产 | 黑人极品ⅴideos精品欧美棵 | 亚洲色图图片区 | 色欲av无码一区二区三区 | 欧美午夜精品久久久久免费视 | 国内av| 深夜精品 | 91在线视频免费播放 | 黄色小视频免费 | 一级毛片黄色 | 国产一级片免费在线观看 | 欧美视频综合 | 性色av一区二区三区红粉影视 | 亚洲成熟女性毛茸茸 | 久久久精品国产 | 韩国三级与黑人 | 国产精品毛片一区二区在线看 | 黄色福利网站 | 黄色一级片. | 亚洲情se | 日韩在线精品强乱中文字幕 | 久久久久久久福利 | 亚洲乱码国产乱码精品精 | 蜜桃av免费看 | 欧美国产精品一二三 | 成人一区二区电影 | 精品久久久久久无码国产 | 午夜精品久久久久久久第一页按摩 |