久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

每日快訊
2025
08/21
17:57
分享
評論

在大語言模型的競爭中,數(shù)學(xué)與代碼推理能力已經(jīng)成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓(xùn)練,到 DeepSeek 提出 GRPO 算法,我們見證了強(qiáng)化學(xué)習(xí)在推理模型領(lǐng)域的巨大潛力。然而,想要復(fù)現(xiàn)這些頂尖成果,并不只是“多喂點(diǎn)數(shù)據(jù)、跑幾輪訓(xùn)練”這么簡單。現(xiàn)實(shí)是,很多中小規(guī)模的開源推理模型,在 AIME 這樣的高難數(shù)學(xué)競賽題、或 LiveCodeBench 這樣的復(fù)雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團(tuán)隊(duì)推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數(shù)學(xué)與代碼的多個(gè)權(quán)威基準(zhǔn)測試中達(dá)到同規(guī)模模型的 SOTA 水平,并完整公開了訓(xùn)練細(xì)節(jié)與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準(zhǔn)測試中,不僅全面超越同規(guī)模的強(qiáng)力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術(shù)創(chuàng)新是Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓(xùn)練穩(wěn)定性的同時(shí),大幅提升探索能力的強(qiáng)化學(xué)習(xí)優(yōu)化方法。

傳統(tǒng)clip的隱性代價(jià)

在PPO和GRPO等常用的策略優(yōu)化方法中,clip是控制訓(xùn)練穩(wěn)定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠(yuǎn)而導(dǎo)致崩潰。Klear團(tuán)隊(duì)在實(shí)踐中發(fā)現(xiàn),clip 機(jī)制在保護(hù)穩(wěn)定性的同時(shí),也切斷了模型獲取最有價(jià)值學(xué)習(xí)信號(hào)的通道,模型變得保守,不敢嘗試新路徑,遇到錯(cuò)誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進(jìn)行溫和回傳。通過 GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。

在與現(xiàn)有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數(shù)學(xué)和代碼任務(wù)上都表現(xiàn)出優(yōu)勢。

數(shù)學(xué)強(qiáng)化學(xué)習(xí)訓(xùn)練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實(shí)驗(yàn)洞察

除了提出GPPO算法外,Klear團(tuán)隊(duì)在論文中對訓(xùn)練流程的多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了深入實(shí)驗(yàn)與分析,揭示了長思維鏈推理模型成功背后的幾個(gè)核心要素,為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線:

·SFT階段:質(zhì)量優(yōu)先,數(shù)據(jù)可靠性比數(shù)量更重要

實(shí)驗(yàn)表明,與數(shù)據(jù)量大但質(zhì)量參差的數(shù)據(jù)源相比,來自少數(shù)高質(zhì)量數(shù)據(jù)源的樣本更具訓(xùn)練效率和效果優(yōu)勢。

高質(zhì)量數(shù)學(xué)數(shù)據(jù)Top-K子集組合對監(jiān)督微調(diào)(SFT)性能的影響。

·SFT階段:高難樣本容錯(cuò)反而能促進(jìn)學(xué)習(xí)

對于簡單任務(wù),錯(cuò)誤樣本的引入會(huì)明顯影響性能,但對于高難度任務(wù),保留部分帶瑕疵的推理路徑,反而能夠提升模型表現(xiàn)。

通過三組實(shí)驗(yàn)分析了數(shù)據(jù)正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務(wù)集上對比了純正確數(shù)據(jù)(Only True)與含錯(cuò)誤數(shù)據(jù)的混合數(shù)據(jù)(Mixed)的表現(xiàn)差異。表格中加粗?jǐn)?shù)值標(biāo)識(shí)了各組內(nèi)的最優(yōu)性能結(jié)果。

·RL階段:軟獎(jiǎng)勵(lì)優(yōu)于硬獎(jiǎng)勵(lì)

在代碼任務(wù)的強(qiáng)化學(xué)習(xí)階段,使用軟獎(jiǎng)勵(lì)(根據(jù)通過測試用例的通過率)比硬獎(jiǎng)勵(lì)(完全通過得分,否則為零)更有效

代碼強(qiáng)化學(xué)習(xí)中軟獎(jiǎng)勵(lì)與硬獎(jiǎng)勵(lì)策略的對比。在軟獎(jiǎng)勵(lì)設(shè)置中,獎(jiǎng)勵(lì)值等于測試用例通過率;而在硬獎(jiǎng)勵(lì)設(shè)置中,僅當(dāng)所有測試用例均通過時(shí)給予正向獎(jiǎng)勵(lì),否則給予負(fù)向獎(jiǎng)勵(lì)。

·RL階段:代碼數(shù)據(jù)測試用例過濾

在代碼RL數(shù)據(jù)準(zhǔn)備階段,Klear團(tuán)隊(duì)調(diào)用DeepSeek-R1-0120為每個(gè)prompt生成了16條回復(fù),只有pass@16大于0.5的數(shù)據(jù)會(huì)被保留

在LiveCodeBench V5基準(zhǔn)(avg@4指標(biāo))上,使用過濾與未過濾數(shù)據(jù)的代碼強(qiáng)化學(xué)習(xí)性能對比。Filter表示使用過濾數(shù)據(jù)的強(qiáng)化學(xué)習(xí)結(jié)果,而w/o Filter代表使用原始未過濾數(shù)據(jù)集的結(jié)果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權(quán)重,更為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線。通過 GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。這對于未來的數(shù)學(xué)、代碼,甚至其他RLVR任務(wù),都有著重要的參考價(jià)值。

THE END
廣告、內(nèi)容合作請點(diǎn)擊這里 尋求合作
理想汽車
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      日韩女同一区二区三区| 中文字幕xxx| 蜜桃久久一区二区三区| 欧美h在线观看| 日本黄大片一区二区三区| 欧美xxxx精品| 污污视频网站免费观看| 中文字幕 视频一区| 亚洲综合精品国产一区二区三区| 91久久久久国产一区二区| www.4hu95.com四虎| 国产污污视频在线观看| 麻豆亚洲av熟女国产一区二| 日本中文字幕精品| 中文字幕一二区| 国产高潮在线观看| 老牛影视av老牛影视av| 天堂网avav| 亚洲一区二区激情| 国产中文字幕视频| 日本精品999| 亚洲图片在线播放| 黄色一级大片在线免费看国产一 | 动漫av在线免费观看| 韩国中文字幕av| 熟妇人妻av无码一区二区三区 | www.黄色片| 久久艹免费视频| 亚洲不卡视频在线观看| 99产精品成人啪免费网站| 黄色国产在线播放| 亚州国产精品视频| 国产精品19乱码一区二区三区| 精品小视频在线观看| 天天爽人人爽夜夜爽| wwwav网站| 青娱乐国产视频| 亚洲天堂五月天| 久久青青草视频| 最近中文字幕一区二区| 国产又大又粗又爽| 五月天婷婷激情视频| 国产精品麻豆入口| 天天综合网久久| 国产精品久久久久久久久夜色| 久久久精品麻豆| 亚洲精品视频三区| 六月婷婷七月丁香| 亚洲国产精品第一页| 精品久久久久久久久久久久久久久久 | www.欧美com| 日本人妻熟妇久久久久久| 亚洲一二区视频| 日韩av片在线播放| 岛国毛片在线播放| 亚欧在线观看视频| 久久久久久久伊人| 亚洲一区在线观| 人妻中文字幕一区二区三区| 99日在线视频| 少妇伦子伦精品无吗| 国产成人精品一区二区在线小狼| 天堂在线免费观看视频| 国产精品久久欧美久久一区| 午夜天堂在线视频| 久久精品一区二区三| 91成人在线免费视频| 日韩精品国产一区| 国产精品白浆一区二小说| 亚洲va在线va天堂va偷拍| 久久高清免费视频| youjizz.com国产| 亚洲v国产v欧美v久久久久久| 久久精品一区二区免费播放| japanese国产| 中文字幕乱码人妻二区三区| 免费在线视频观看| 国产原创精品在线| 91久久国产视频| 在线观看你懂的网站| 欧美一区二区公司| 国内精品久久久久久久久久久| 亚洲天堂视频网| 天天干天天操天天拍| 男女羞羞免费视频| 好吊色视频一区二区三区| www.99re7| 亚洲免费黄色网| 在线观看黄网址| 人妻少妇精品视频一区二区三区| 精品人妻一区二区三区日产乱码卜| 91成人在线观看喷潮蘑菇| 中文字幕乱视频| 性色国产成人久久久精品| 日韩精品在线免费看| 美日韩一二三区| 久久久亚洲av波多野结衣| 国产免费中文字幕| 国产福利视频导航| 国产激情第一页| 动漫精品一区一码二码三码四码| 51自拍视频在线观看| 亚洲精品国产精品乱码在线观看 | 亚洲人成人无码网www国产| 天天爱天天干天天操| 日本在线视频免费观看| 免费在线不卡视频| 美国精品一区二区| 久久精品一区二区免费播放| 国产在线视频99| 久久国产视频一区| 久久久久中文字幕亚洲精品| 久久久久女人精品毛片九一| 狠狠躁日日躁夜夜躁av| 好男人www社区| 激情综合网五月天| 老司机精品免费视频| 免费视频久久久| 日韩av一二区| 天堂在线观看av| 亚洲成人av综合| 亚洲黄色小说网| 99热这里只有精品在线| 国产ts在线播放| 国产一区二区三区三州| 久久精品第一页| 情侣偷拍对白清晰饥渴难耐| 日本不卡视频一区| 香蕉视频免费看| 在线视频日韩欧美| 91香蕉在线视频| 国产精品午夜影院| 久久网中文字幕| 日本一区二区三区四区五区| 天堂av资源网| 亚洲色图日韩精品| 国产成人精品av久久| 国产18精品乱码免费看| 国产又粗又黄又爽| 久久久久久成人网| 欧美性生交xxxxx| 这里只有久久精品| 91人妻一区二区三区蜜臀| 国产无套丰满白嫩对白| 免费在线观看黄网站| 无码人妻av免费一区二区三区| 亚洲男人天堂2021| 国产chinese中国hdxxxx| 国产在线免费av| 全国男人的天堂网| 亚洲国产精品欧美久久| 成人羞羞国产免费图片| 久久aaaa片一区二区| 亚洲av鲁丝一区二区三区| 992kp免费看片| 好吊色视频一区二区三区| 青娱乐在线视频免费观看| 中文字幕免费视频观看| 国产91麻豆视频| 日韩欧美黄色网址| 亚洲五月天综合| 国产稀缺真实呦乱在线| 日韩综合第一页| 亚洲综合网在线观看| 精品人妻一区二区三区麻豆91 | 手机看片久久久| 97超碰资源站| 欧美丰满熟妇bbb久久久| 中文字幕有码av| 黄色av网址在线| 中文字幕人妻一区二区三区在线视频 | 日日干夜夜操s8| 一级黄色香蕉视频| 久久久久中文字幕亚洲精品| 亚洲精品国产精品国自产网站按摩 | 亚洲欧美黄色片| 久操视频免费看| 亚洲毛片一区二区三区| 久久中文字幕人妻| 91人妻一区二区三区蜜臀| 欧美一级在线免费观看 | 亚洲毛片在线播放| 欧美黄色一级生活片| 91porny九色| 天天摸夜夜添狠狠添婷婷| 国产精品女人久久久| 伊人久久成人网| 欧美成人另类视频| 成人午夜精品福利免费| 永久久久久久久| 美女福利视频在线观看| 亚洲熟妇一区二区| 久久久久久久久艹| www.xxxx国产| 一区二区成人免费视频| 欧美激情 亚洲| 国产精品成人69xxx免费视频| 中文字幕无码毛片免费看| 男人天堂综合网| 国产欧美第一页|