久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩定性與探索能力

每日快訊
2025
08/21
17:57
分享
評論

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是,很多中小規模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平,并完整公開了訓練細節與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術創新是Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓練穩定性的同時,大幅提升探索能力的強化學習優化方法。

傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中,clip是控制訓練穩定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發現,clip 機制在保護穩定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。

在與現有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現出優勢。

數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素,為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線:

·SFT階段:質量優先,數據可靠性比數量更重要

實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優勢。

高質量數學數據Top-K子集組合對監督微調(SFT)性能的影響。

·SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現。

通過三組實驗分析了數據正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現差異。表格中加粗數值標識了各組內的最優性能結果。

·RL階段:軟獎勵優于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

·RL階段:代碼數據測試用例過濾

在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留

在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對比。Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

THE END
廣告、內容合作請點擊這里 尋求合作
理想汽車
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

相關推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      国产丝袜欧美中文另类| 风间由美性色一区二区三区| 国产精品区一区二区三区| 91精选在线观看| 欧美日韩你懂得| 色综合久久久久久久| 成人丝袜高跟foot| 成人性视频免费网站| 国产精品一二三四五| 国产精品一区二区在线观看网站| 日韩电影一二三区| 免费在线观看不卡| 久久精品理论片| 国内精品不卡在线| 国产精品亚洲午夜一区二区三区 | 亚洲精品精品亚洲| 18涩涩午夜精品.www| 国产精品二三区| 亚洲精品成人悠悠色影视| 亚洲区小说区图片区qvod| 亚洲精品国产高清久久伦理二区| 亚洲视频网在线直播| 亚洲精品日韩一| 天天综合色天天综合色h| 免费的国产精品| 国产精品系列在线播放| 成a人片亚洲日本久久| 欧洲精品在线观看| 日韩一区二区三区电影在线观看| 欧美大胆人体bbbb| 国产精品丝袜黑色高跟| 一区二区三区精品视频在线| 丝袜美腿成人在线| 国产精品一区一区三区| 日本高清免费不卡视频| 日韩一区二区精品| 国产精品视频九色porn| 丝袜美腿亚洲一区| 国产成人精品亚洲777人妖| 91久久精品一区二区| 91精品国产色综合久久不卡电影| 国产亚洲欧洲997久久综合 | 色屁屁一区二区| 日韩一区二区三区av| 中文字幕成人av| 亚洲不卡一区二区三区| 国产成人三级在线观看| 欧美在线小视频| 国产婷婷色一区二区三区| 亚洲国产综合在线| 国产成人精品免费在线| 欧美日韩国产成人在线免费| 日韩欧美精品在线视频| 亚洲精品中文在线影院| 精品一区二区三区av| 欧美日韩一区视频| 国产日韩欧美综合在线| 日韩av电影一区| 色综合久久88色综合天天6| 久久女同性恋中文字幕| 午夜一区二区三区在线观看| 成人av片在线观看| 精品国产sm最大网站免费看| 亚洲午夜电影网| 91麻豆福利精品推荐| 2020日本不卡一区二区视频| 婷婷六月综合亚洲| 色先锋aa成人| 最新久久zyz资源站| 国产激情一区二区三区| 精品久久国产字幕高潮| 亚洲成人1区2区| 在线观看一区二区视频| 国产精品欧美经典| 国产大陆亚洲精品国产| 日韩欧美在线影院| 日韩电影免费在线| 在线成人小视频| 亚洲成人免费电影| 欧美日韩在线播放三区| 亚洲一区二区三区美女| 欧美午夜精品一区| 亚洲一区视频在线| 色八戒一区二区三区| 中文字幕在线不卡| 成人毛片在线观看| 成人欧美一区二区三区1314| 成人综合在线网站| 国产精品久久久久久户外露出 | 一区二区三区中文字幕在线观看| 成人av在线资源| 亚洲欧美日韩久久| 91黄色免费网站| 午夜不卡av免费| 日韩一区二区免费在线电影| 九色综合国产一区二区三区| 久久久久久久久久久久久夜| 国产精品99久久久| 综合久久久久综合| 欧美午夜精品理论片a级按摩| 亚洲国产精品一区二区尤物区| 欧美性欧美巨大黑白大战| 午夜精品免费在线| 欧美va在线播放| www..com久久爱| 亚洲一区二区三区激情| 日韩午夜激情av| 成人精品国产福利| 亚洲精品中文在线影院| 欧美高清一级片在线| 国产一区二区三区免费播放| 中文字幕 久热精品 视频在线| 一本一道久久a久久精品| 午夜精品久久久久久久99樱桃| 日韩美女天天操| 99精品视频一区| 日日夜夜精品视频免费| 国产精品免费av| 欧美日韩情趣电影| 国产91精品精华液一区二区三区| 亚洲狠狠丁香婷婷综合久久久| 日韩视频一区二区三区| 99国产精品久久久久久久久久| 午夜精品一区二区三区电影天堂| 久久久青草青青国产亚洲免观| 色综合天天性综合| 久久电影网站中文字幕| 亚洲精品国产精华液| 久久网这里都是精品| 欧美日韩综合不卡| 高清不卡在线观看| 日本在线播放一区二区三区| 中文字幕欧美一| 国产亚洲视频系列| 4438x亚洲最大成人网| 91香蕉视频污在线| 国产精品一二三四五| 男女男精品网站| 香蕉久久夜色精品国产使用方法| 中日韩av电影| 久久久亚洲午夜电影| 日韩欧美国产wwwww| 欧美日韩五月天| 91精品在线免费| 成人一区二区三区视频在线观看 | 日本怡春院一区二区| 国产一区二区成人久久免费影院| 有码一区二区三区| 久久久久国产一区二区三区四区| 欧美人狂配大交3d怪物一区| 99精品视频在线观看| 国产麻豆日韩欧美久久| 裸体健美xxxx欧美裸体表演| 亚洲va欧美va国产va天堂影院| 国产精品久久久久久福利一牛影视| 精品国产一区二区三区不卡 | 久久精品国产亚洲一区二区三区| 亚洲色图清纯唯美| 亚洲欧洲精品成人久久奇米网| 国产精品久久久久aaaa| 国产精品盗摄一区二区三区| 国产精品青草久久| 国产精品不卡在线| 中文字幕欧美一| 亚洲欧美福利一区二区| 亚洲综合网站在线观看| 亚洲精品国产一区二区精华液| 一区二区三区在线免费播放| 亚洲精品乱码久久久久久久久| 国产精品人人做人人爽人人添| 亚洲国产高清在线观看视频| 136国产福利精品导航| 亚洲三级在线免费观看| 一区二区三区日韩欧美| 香蕉久久夜色精品国产使用方法 | 亚洲成av人片在线观看无码| 亚洲一区二区av电影| 午夜电影一区二区三区| 喷水一区二区三区| 国产91精品精华液一区二区三区| 懂色av一区二区三区免费观看| 9i看片成人免费高清| 欧美三级日韩三级国产三级| 欧美精品 国产精品| 精品国产免费一区二区三区香蕉| 国产亚洲一区二区三区| 一区二区三区国产豹纹内裤在线| 亚洲国产成人av| 国产精品主播直播| 日本道免费精品一区二区三区| 欧美一区日韩一区| 国产色产综合产在线视频| 成人欧美一区二区三区视频网页| 午夜私人影院久久久久| 韩国精品主播一区二区在线观看| 9人人澡人人爽人人精品| 欧美日本国产视频| 亚洲国产精品ⅴa在线观看| 亚洲一区二区三区四区五区黄| 激情欧美一区二区三区在线观看|