久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

會寫代碼的 AI 開源了:掌握 12 種編程語言 C 語言寫得比 Codex 還要好

人工智能
2022
03/11
11:09
量子位
分享
評論

來源:量子位

比 Codex 還會寫 C 語言的 AI 代碼生成模型,現(xiàn)在開源了!這段時間,用 AI 寫代碼可以說是大火,其中最著名的要屬 OpenAI 的 Codex 和 DeepMind 的 AlphaCode。然而,這兩個 AI 模型,全都沒有開源:其中 AlphaCode 只給出了一些測試樣例,而 Codex 只開放了 API。

△基于 Codex 的 Copilot

為此,來自 CMU 的幾個研究人員,用 GPT-2 搞出了一個名叫PolyCoder的 AI 代碼生成模型,而且還是開源的

據(jù)研究人員表示,雖然 PolyCoder 最大只有 27 億參數(shù)(相比 Codex 有 120 億參數(shù)),但它用C 語言寫出來的代碼,比 Codex 的效果還要好。

這里面究竟有什么秘訣?

用 12 種編程語言代碼集訓練

首先來看訓練用的數(shù)據(jù)集,這也是 PolyCoder 的最大特點之一。

此前,包括 Codex、CodeParrot 等 AI 代碼生成模型,主要都是基于Python語言的代碼來訓練。

例如 Codex 的評估數(shù)據(jù)集之一 HumanEval,評估的也是生成 Python 代碼的效果。

相比之下,PolyCoder采用了多種編程語言代碼集來訓練,一共有 12 種:

C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。

其中,C 語言的代碼量是最多的,達到了 221GB;而 Python 代碼的數(shù)據(jù)量比 Codex 和 CodeParrot 用得都要少。

這里 PolyCoder 用的是 GitHub 上的公開代碼,主要選取的是各種編程語言中比較受歡迎的庫,每個庫至少有 50 Stars。

據(jù)研究人員表示,每種編程語言庫的 Stars 總數(shù)加起來不超過 25k,以避免模型生成的代碼效果太過于傾斜最流行的編程語言(通常編程語言越流行,庫的 Stars 就越多)。

通過提取庫中的文件、經(jīng)過簡單處理(包括消除重復代碼)后,一共篩選出大約254GB的數(shù)據(jù)用于訓練。

然后是預(yù)訓練的方法。

語言模型的預(yù)訓練方法通常有三種。

第一種是自左向右的語言模型,根據(jù)上文預(yù)測下文,比較適用于代碼生成等;第二種是掩蔽語言模型,基于上下文預(yù)測屏蔽片段,比較適合代碼分類等;第三種是編解碼器模型,比較適用于代碼注釋等任務(wù)。

這里 PolyCoder 主要采用的是第一種預(yù)訓練方法。

相比于同樣采用 GPT-2 訓練的 CodeParrot 和 Codex,PolyCoder 在超參數(shù)設(shè)置上也稍微有一些差異:

PolyCoder 一共提供了三種不同的模型,分別有 27 億參數(shù)、4 億參數(shù)和 1.6 億參數(shù),研究人員可以根據(jù)自身需求和不同的訓練能力來選取合適的模型。

那么,最終訓練出來的 AI 模型,代碼生成效果如何?

C 語言寫得尤其好,但 Python 不行

研究人員將 PolyCoder 與已有的 AI 代碼生成模型進行了對比。

由于 AlphaCode 不好比較(接口沒開放),所以研究人員主要分析了下面這些模型,包括 GPT-Neo、CodeParrot 和 Codex 等。

其中藍色的是開源的,橙色的是沒開源的:

從參數(shù)量來看,PolyCoder 并不是最頂尖的,最大的 27 億參數(shù)模型也只有 Codex 的四分之一不到。

研究人員先是用語言模型評估常用的困惑度對一系列模型進行了比較。

困惑度(Perplexity),用于衡量語言模型(LM)的好壞。困惑度越低,語言模型面對代碼感到困惑的程度就越低,模型生成效果越好。

從圖中來看,PolyCoder 在C 語言中意外取得了最好的效果(困惑度最低)。

用大量 C 語言訓練 PolyCoder 的結(jié)果說明,即使模型整體原理不變(基于 GPT-2),單純改變訓練用的代碼集,也能訓練出擅長不同語言風格的 AI 代碼生成模型。

可惜的是,從其他語言來看,生成的效果就完全沒辦法和 Codex 相比了:

例如,在主要用于評估 Python 代碼的 HumanEval 上,PolyCoder 的能力遠不如 Codex 好:

據(jù)論文分析,這可能是 Python 代碼數(shù)據(jù)量、模型參數(shù)量不足等原因?qū)е碌摹?/p>

此外,作者們也提到,做出 PolyCoder 的目的主要還是為了開源一個 AI 代碼生成模型,讓更多人參與研究和使用。

目前代碼已經(jīng)開源,無論是直接拿來用,還是試著在它的基礎(chǔ)上開發(fā)新模型都可以。

感興趣的小伙伴可以上手一試了 ~

作者介紹

一作許方正(Frank Xu),目前在 CMU 讀博,研究方向是 NLP、信息抽取等,發(fā)表過多篇頂會論文,包括 ICLR、ACL 和 EMNLP 等。本碩畢業(yè)于上海交通大學,師從朱其立教授。

Uri Alon,在 CMU 進行博士后工作,研究方向是編程語言處理(PLP)、NLP 和深度學習。

Graham Neubig,CMU 助理教授,研究方向是 NLP、機器翻譯和基于機器學習的自然語言理解。

Vincent J. Hellendoorn,CMU 計算機助理教授,主要研究方向是軟件工程和機器學習,致力于利用智能方法幫助軟件開發(fā)人員減少代碼調(diào)試、程序優(yōu)化等繁瑣工作的時間。

不知道作者們是否已經(jīng)在用這個 AI 擼代碼了(手動狗頭)

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

1 月 25 日消息,近日,網(wǎng)易試水 AI 音樂創(chuàng)作,推出全球首個一站式音樂創(chuàng)作平臺天音。
業(yè)界
該研究是由三星高級技術(shù)研究院(SAIT)與三星電子代工業(yè)務(wù)和半導體研發(fā)中心一起展開,由SAIT員工研究員Seungchul Jung博士、SAIT研究員、哈佛大學教授Donhee Ham博士、以及SAIT技術(shù)副總裁Sang Joon Kim博...
業(yè)界
1 月 12 日消息,根據(jù)韓國媒體 businesskorea 報道,韓國科學技術(shù)研究院(KAIST)研發(fā)出了一種專門針對 AI 人工智能相關(guān)運算進行優(yōu)化的 SSD。
業(yè)界
根據(jù)Politico的報道,Clearview AI有望為其面部識別技術(shù)獲得一項美國專利。
業(yè)界
11 月 16 日消息,據(jù)“清華大學智能產(chǎn)業(yè)研究院”公眾號消息,日前,華深智藥、清華大學智能產(chǎn)業(yè)研究院(AIR)和清華大學醫(yī)學院共同合作,利用新型人工智能抗體平臺,在新冠抗體設(shè)計和優(yōu)化等方面取得了突破...
業(yè)界

相關(guān)推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      88在线观看91蜜桃国自产| 日韩三级高清在线| 亚洲日本一区二区| 国产精品一区二区久久精品爱涩 | 日本一区中文字幕| 成人小视频免费在线观看| 日韩一区二区三区免费观看| 一区二区三区四区不卡视频 | 国产午夜精品福利| 国产精品亚洲视频| 欧美精品一区二区三区视频| 精品一区二区精品| 久久久综合视频| 国产精品成人在线观看 | 亚洲国产欧美一区二区三区丁香婷| 日本特黄久久久高潮| 日韩欧美一级在线播放| 蜜臀av一级做a爰片久久| 制服丝袜在线91| 免费人成精品欧美精品 | 日韩精品91亚洲二区在线观看| 91女神在线视频| 亚洲图片欧美综合| 欧美不卡123| av网站免费线看精品| 一区二区三区在线播放| 欧美日韩国产不卡| 亚洲成人一区二区| 久久久久亚洲蜜桃| 91国产成人在线| 麻豆国产精品777777在线| 久久精品亚洲麻豆av一区二区| 一本久道中文字幕精品亚洲嫩| 亚洲成人免费在线| 欧美国产日本韩| 欧美色手机在线观看| 捆绑调教一区二区三区| 久久99国内精品| 亚洲免费视频成人| 久久久99精品免费观看| 色噜噜狠狠色综合中国| 久久精品噜噜噜成人av农村| 亚洲国产一区二区a毛片| 国产精品久久久久三级| 久久众筹精品私拍模特| 欧美日韩三级一区| 97se亚洲国产综合自在线观| 黄色成人免费在线| 一本大道久久a久久综合| 日韩高清不卡在线| 视频精品一区二区| 婷婷成人激情在线网| 亚洲精品va在线观看| 国产精品久久久久久福利一牛影视 | 精品盗摄一区二区三区| 亚洲精品一区二区三区福利 | 91亚洲国产成人精品一区二三| 国产成人午夜视频| 石原莉奈在线亚洲二区| 国产精品亲子伦对白| 国产日产精品1区| 国产欧美一区二区在线| 中文字幕精品三区| 亚洲国产综合在线| 视频一区在线播放| 蜜桃精品视频在线观看| 久久国产精品第一页| 国产成人综合网| 不卡的av电影在线观看| 色激情天天射综合网| 日韩午夜av电影| √…a在线天堂一区| 日韩av一区二区三区四区| 国产69精品一区二区亚洲孕妇| 91精品国产aⅴ一区二区| 色女孩综合影院| 欧美天堂一区二区三区| 91麻豆精品国产91久久久久| 亚洲视频一区二区免费在线观看| 亚洲高清免费观看 | 日本不卡在线视频| 97精品国产露脸对白| 欧美mv日韩mv| 香蕉av福利精品导航| 91蝌蚪porny| 亚洲主播在线播放| 99久久er热在这里只有精品15| 欧美一区欧美二区| 日本欧美在线观看| 欧美tickling网站挠脚心| 久久 天天综合| 日韩欧美另类在线| 国产一区福利在线| 欧美激情一区二区三区四区| 国产乱国产乱300精品| 国产日韩在线不卡| 色综合天天综合狠狠| 亚洲一区成人在线| 3atv在线一区二区三区| 蜜桃av一区二区三区| 日韩一区二区三区免费看| 国产精品一区二区久久不卡| 国产精品传媒入口麻豆| 在线一区二区观看| 一区二区三区视频在线观看| 欧美一区二区免费视频| 国产福利一区在线观看| 亚洲一二三区视频在线观看| 欧美一级一区二区| 91性感美女视频| 另类的小说在线视频另类成人小视频在线 | 自拍偷拍欧美激情| 91麻豆精品国产91久久久资源速度| 亚洲成人av在线电影| 欧美日韩成人综合天天影院| 韩国女主播成人在线观看| 久久精品一区八戒影视| 欧美日韩中文字幕一区| 国产不卡一区视频| 国产综合色在线视频区| 性做久久久久久免费观看欧美| 久久精品夜色噜噜亚洲a∨| 91精品国产手机| 色偷偷久久人人79超碰人人澡| 青青青伊人色综合久久| 亚洲综合在线电影| 亚洲精品写真福利| 亚洲激情校园春色| 亚洲少妇30p| 亚洲激情在线激情| 亚洲成a人v欧美综合天堂下载 | 免费欧美在线视频| 亚洲mv大片欧洲mv大片精品| 丝袜亚洲另类欧美综合| 日韩精品免费专区| 麻豆精品一区二区综合av| 亚洲综合成人在线视频| 一区二区三区成人在线视频| 亚洲欧美日韩中文播放| 天天亚洲美女在线视频| 久久草av在线| 91美女精品福利| 欧美日韩国产综合视频在线观看| 国产精品久久久久久久第一福利| 国产精品美女一区二区三区| 亚洲乱码精品一二三四区日韩在线| 亚洲一区二区三区中文字幕在线| 丝袜美腿亚洲综合| 国产不卡一区视频| 欧美亚洲一区二区在线观看| 91精品国产综合久久久蜜臀粉嫩 | 青青草精品视频| 成人动漫一区二区三区| 欧美日韩免费电影| 亚洲久本草在线中文字幕| 韩国理伦片一区二区三区在线播放| 成人免费的视频| 精品毛片乱码1区2区3区| 亚洲成人av福利| 在线精品视频免费播放| 久久久久久久精| 日本成人在线电影网| 99九九99九九九视频精品| 精品国产乱码久久久久久浪潮 | 精品国产一区二区在线观看| 亚洲色图.com| 国产成人av在线影院| 精品国产三级a在线观看| 麻豆91精品91久久久的内涵| 欧美日韩国产123区| 悠悠色在线精品| 成人一道本在线| 国产精品国模大尺度视频| 大胆欧美人体老妇| 国产精品麻豆一区二区| 成人精品视频.| 日韩美女视频一区二区| 在线观看网站黄不卡| 亚洲影院久久精品| 日韩亚洲欧美中文三级| 免费人成黄页网站在线一区二区| 欧美日韩小视频| 日韩成人精品在线| 久久综合色播五月| 91在线看国产| 五月婷婷欧美视频| 337p粉嫩大胆色噜噜噜噜亚洲 | 欧美精品18+| 国产一区高清在线| 国产精品网站在线播放| 91麻豆视频网站| 亚洲一区中文日韩| 欧美国产日韩精品免费观看| 欧美日韩一本到| k8久久久一区二区三区| 午夜精品久久久久| 国产精品高清亚洲| 日本一区二区三区视频视频| 日韩亚洲欧美高清| 欧美午夜精品一区|