久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

你和人工智能的對話,正在被人工收聽

人工智能
2019
09/28
00:35
燃財經(jīng)工作室
分享
評論

來源: 燃財經(jīng)工作室

如今,智能設備越來越多地出現(xiàn)在每個人的生活中,在享受它們帶來的便利時,很多人或許沒有意識到,自己說的話可能會被人工 " 竊聽 " 并分析標注,而原因是,廠商想讓這些設備變得更智能。

" 放首牛德華的歌 ",一段帶口音的成年女聲從電腦里響起,但機器把它識別成了 " 兒童 " 的聲音,這是機器常犯的錯誤,標注員唐頓把它修改為 " 成人 ",緊接著還要把 " 牛德華 " 注釋為 " 劉德華 ",好讓機器下次變得 " 聰明 " 一點。

聽寫、標注這些聲音,是唐頓五年來的日常工作。

這五年,她每天大約要聽 1000 個陌生人的聲音,這些聲音出現(xiàn)在不同場景:一位帶有南方口音的尖銳男聲發(fā)出指令 " 小薇你好,請播放沙漠駱駝 ",背景里伴隨著車輛閃光燈滴答滴答的聲響;一位略帶不耐煩的女聲高喊 " 關閉導航 ";偶爾,還有車主通過罵臟話發(fā)泄情緒的聲音 ……

唐頓不明白為何要對這些聲音進行標注,她把問題拋給領導后,得到的反饋是—— " 機器需要數(shù)據(jù)來自我優(yōu)化 "。唐頓因此調(diào)侃自己是人工智能背后的女人。

人工智能的進化,需要大量數(shù)據(jù)來 " 喂養(yǎng) ",這催生出一個全新的產(chǎn)業(yè),像唐頓一樣的標注員越來越多,一個龐大的系統(tǒng)正在形成。

為 AI 打工的青年

早上 8 點,家在河南的張藝誠打開電腦,帶上耳機,輸入賬號密碼后進入到一個后臺系統(tǒng),開始一天的工作。

1 個月前,他陸續(xù)加入了兩個近 2000 人規(guī)模和兩個 50 人規(guī)模的標注團隊,每次能領到一個約有 150 條語音的數(shù)據(jù)包,大概要在 1 小時內(nèi)做完,做完后才能繼續(xù)領任務。

張藝誠向燃財經(jīng)展示搶到的不知來源的語音包,從內(nèi)容上看場景較為私密,有 " 濤哥,下班了一起斗地主啊 "" 好心累吶 "" 你在哪 " 等。

相比 " 領 " 任務,張藝誠認為,用 " 搶 " 更貼切," 僧多粥少,能搶到多少取決于老大的能力 "。

張藝誠向燃財經(jīng)展示的 50 人團隊里,大家稱管理員為 " 老大 ",老大們之間也有競爭,團隊轉(zhuǎn)錄的數(shù)據(jù)質(zhì)量越高、速度越快,老大能拿到的單子就越多,才能 " 喂飽 " 團隊并繼續(xù)擴大規(guī)模。同時,團隊規(guī)模越大,對上游的話語權也就越大,能領到的單量也更多、質(zhì)量也更高,這是相輔相成的關系。

不管團隊是上千人還是幾十人,新人加入都必須先經(jīng)過測試,測試之后是培訓,緊接著才是領任務,最后還得有一輪人工質(zhì)檢審核,因為客戶通常要求最終的準確率在 95% 以上。

想通過測試并不容易,需要記住繁瑣的細節(jié)規(guī)范,比如哪些客戶需要在轉(zhuǎn)寫英文字母時大寫、哪些要求小寫,哪些情況會直接視語音為 " 無效 ",發(fā)音不清的字詞哪些需要加音標、哪些不加," 且動不動就要整批打回 ",除此之外還得聽得懂特定場景的術語。

語音標注員需要遵循的標注規(guī)范(部分)

張藝誠讓燃財經(jīng)嘗試轉(zhuǎn)錄了 10 條他收到的語音包,從內(nèi)容看是發(fā)生在游戲同伴間的對話,里面出現(xiàn)了包括 " 呂布 "" 李白 "" 房主 " 等在內(nèi)的王者榮耀游戲里的稱呼,通常帶有環(huán)境噪音,麥克風偶有噴麥,并不容易聽清。

標注員需要熟悉的專業(yè)詞匯

張藝誠展示的錄音,大多來自擁有語音交互功能的產(chǎn)品,如車載語音、智能音箱,其中包括百度小度、天貓精靈的用戶錄音,還有來自攜程的客服錄音和來自滴滴的司乘錄音。但大部分任務并不以客戶名稱命名,而是以音頻長短來區(qū)分。

燃財經(jīng)體驗后發(fā)現(xiàn),交互類型的音頻多在 2 秒~5 秒之間,通常夾雜噪音,大部分是用戶和語音產(chǎn)品的對話,少數(shù)能明顯判斷為意外觸發(fā)的錄音,且未出現(xiàn)暴露用戶身份信息、位置信息的情況。

語音標注員需要用到的后臺系統(tǒng)及顯示界面

其中,小度音箱的轉(zhuǎn)錄注意事項注明:如果整句跟旁人聊天的無效,只有跟小度對話的才有效。

而在燃財經(jīng)體驗的車載語音中,大部分為帶口音的普通話用戶,點播的歌曲類型多為東北社會搖和快手熱門歌曲。

張藝誠表示,這是一項完全沒有技術的累活,1 小時有效時長錄音,能帶來 100 元報酬,但聽下來需要 30 個小時,平均時薪只有 3 塊多錢。即使是干了五年的唐頓,平均月薪也只有 3000 元。

AI 迫切需要成長,張藝誠和唐頓們只會越來越多,他們大多遍布在河南、山東、河北等地的四五線小城里, 夜以繼日地為世界領先的 AI 產(chǎn)品服務。

美國 AI 研究機構(gòu) Cognilytica 預計,截止 2018 年,全球數(shù)據(jù)標注相關產(chǎn)業(yè)的產(chǎn)值將增長 66% 達到 5 億美元,2023 年產(chǎn)值更將翻一番,而由于大部分工作都在 " 水下 ",具體產(chǎn)值尚且難以準確估算。

財大氣粗的數(shù)據(jù)服務商

與遍布在四五線小城鎮(zhèn)里的打工者不同,被轉(zhuǎn)錄的數(shù)據(jù)包通常由具備一定規(guī)模的人工智能公司或數(shù)據(jù)服務商發(fā)布。

在招聘軟件上,燃財經(jīng)以 " 數(shù)據(jù)標注員 " 為關鍵詞,搜索到超過 100 條相關職位信息,發(fā)布這類職位的公司通常處于 B 輪或 C 輪階段、具備一定的資金實力,有的直接在職責介紹中注明—— " 智能語音、圖片等相關數(shù)據(jù)的語義理解及標注 "" 對已標注數(shù)據(jù)的清洗,保證標注數(shù)據(jù)的正確率 "。

對于燃財經(jīng) " 數(shù)據(jù)清洗是什么 " 的疑問,一位負責招聘的 HR 回答:使用軟件對數(shù)據(jù)進行操作,不是很難。

當燃財經(jīng)繼續(xù)詢問是否是 " 將錄音內(nèi)容轉(zhuǎn)寫成文字 " 時,對方表示 " 是的 ",同時透露客戶是小米,但問到具體會是什么語音包時,對方不再回復。

而在張藝誠加入的四個群背后,發(fā)布的任務大多來自一個叫海天瑞聲的公司。

公開資料顯示,該公司成立于 2005 年,專注于人工智能上游的數(shù)據(jù)資源服務,服務場景包括人機交互、智能家居、智慧城市等。

招股書顯示,該公司有三大主營業(yè)務,分別是數(shù)據(jù)資源定制服務、數(shù)據(jù)庫產(chǎn)品和數(shù)據(jù)資源相關的應用服務。前五大客戶為阿里巴巴、三星、騰訊、微軟、百度,貢獻了 2018 年營業(yè)收入的 59.6%,總計 1.1 億元,其中阿里巴巴排名第一為 5179 萬。

2016 年~2018 年,公司分別實現(xiàn)營業(yè)收入 8422.86 萬元、1.19 億元、1.93 億元,凈利潤為 1028.93 萬元、3414.96 萬元、6714.16 萬元。

2016 年~2018 年,數(shù)據(jù)資源定制服務及數(shù)據(jù)庫產(chǎn)品兩項收入合計占營業(yè)收入近 99%,兩者毛利潤合計占比也是超過 95%。招股書中,對數(shù)據(jù)資源定制服務和數(shù)據(jù)庫產(chǎn)品定義如圖:

無論是從數(shù)據(jù)資源定制服務還是數(shù)據(jù)庫產(chǎn)品的銷售情況來看,智能語音數(shù)據(jù)資源的銷售是主要收入來源。

2019 年,海天瑞聲還上演了一場科創(chuàng)板 " 逃跑計 "。7 月 26 日,其上會審核狀態(tài)變更為終止審核,科創(chuàng)板上市之路告一段落,輿論認為原因在于其核心技術不足。

從公布的軟件著作權以及在申請專利來看,其大部分技術是用于語音數(shù)據(jù)采集與處理環(huán)節(jié)??梢?,公司的核心技術主要體現(xiàn)在錄制及標注語音數(shù)據(jù)方面。

而由于錄制及標注語音數(shù)據(jù)需要大量廉價勞動力,這也是公司經(jīng)常大規(guī)模招兼職的原因。

" 在能看得見的未來,我們還得為人工智能打工 "

在電影《她》中,那個由斯嘉麗 · 約翰遜配音的人聲智能系統(tǒng) Samantha 擁有極高的情商,為討好使用者繼續(xù)訂閱,Samantha 不僅需要讓男主人泰奧多爾完全相信她與人類無差,同時還要嘗試讓對方愛上自己。為此,永遠都不能聽錯或理解錯泰奧多爾說過的任何一個字。

這是一部來自 2013 年的電影,時間來到 2019,距離電影中的愿景還很遙遠。

一位來自北郵人工智能研究院的研究員周洲告訴燃財經(jīng),一個好的模型數(shù)據(jù)量基本都是上百萬級別的,通過用戶自發(fā)產(chǎn)生的數(shù)據(jù),才是最貼合實際業(yè)務的好數(shù)據(jù)。

" 機器學習,你教他什么,他才能學會什么。以目前的技術,脫離大數(shù)據(jù)學習的強人工智能模型還是很遙遠的。" 周洲說。

他解釋了 AI 的訓練過程:

" 首先,AI 訓練需要一個模型,這個模型需要通過一定量的基礎標注數(shù)據(jù)進行訓練,獲得一個預期的訓練結(jié)果,比如對預測天氣的語句識別率達到 60% 或更高。這時候投入使用環(huán)境會產(chǎn)生大量的用戶數(shù)據(jù),這些數(shù)據(jù)再經(jīng)過甲方脫敏處理——去掉姓名地址等能透露用戶身份的信息,再交由人工進行二次標注。

這就來到了大量廉價標注員標注的環(huán)節(jié)。通過一些標準,把質(zhì)量高的音頻篩選出來,因為引入一些冷門的數(shù)據(jù)反而會降低模型的表現(xiàn)。通過這些數(shù)據(jù)進一步調(diào)整模型,使模型能夠更加適合自己的業(yè)務場景,這樣就構(gòu)成了一次迭代,然后不斷循環(huán)。"

具體到語音交互產(chǎn)品,周洲補充,如果一個音箱恰好在南方地區(qū)銷售比較好,那么他們就可以通過數(shù)據(jù)調(diào)整,對南方口音有更好的識別率。

曾做過語音交互產(chǎn)品的創(chuàng)業(yè)者告訴燃財經(jīng),目前對智能語音產(chǎn)品的需求是,它能聽懂我說的話并反饋給我想要的東西,而中華文化博大精深,不同地域又有不同表達,加上生活和書面語言還不一樣,這些都需要交代在系統(tǒng)里。

AI 的生長需要優(yōu)質(zhì)數(shù)據(jù)喂養(yǎng),而另一邊,不知情的用戶也開始反擊。

2019 年 4 月,亞馬遜被爆在世界各地雇傭了數(shù)千名員工,對 Echo 音箱捕捉到的錄音進行轉(zhuǎn)錄、注釋;

7 月,蘋果被爆用戶與 Siri 的對話可能會被錄音,并且上傳至蘋果,由蘋果分發(fā)給 Siri 的外包公司進行分析,迫于輿論壓力,蘋果表示暫停語音分析業(yè)務;

同月,谷歌承包商泄露了超過 1000 份用戶與谷歌助理交談的錄音,錄音來自于 Google Home 智能音箱以及語音助手。對此,亞馬遜、蘋果、谷歌的回應基本一致," 偷聽 " 是為了提高各自旗下語音助手的智能性。

盡管在發(fā)布數(shù)據(jù)包前,大部分公司會對數(shù)據(jù)進行脫敏處理,但在用戶未知情的情況下,這是否觸犯了法律?

對此,有多年司法工作經(jīng)驗的中經(jīng)天平副主任王凱告訴燃財經(jīng),無論是否用于牟利,或者是為了提高服務和產(chǎn)品質(zhì)量,采集和抓取用戶數(shù)據(jù)的首要原則,就是要有用戶授權。" 即使是不涉及用戶身份信息的指令性錄音,如‘播放音樂’,在沒有經(jīng)過授權去抓取這個數(shù)據(jù),也屬于違法。"

市面上大部分產(chǎn)品以是否同意隱私協(xié)議內(nèi)容作為用戶授權的方式,但對用戶來說,雖然選擇權掌握在手,大部分情況還是處于被動狀態(tài),這是因為大部分產(chǎn)品只有在同意授權后才能使用。

對此,王凱表示,從法律上來說,還有一個問題,即便得到了用戶授權也要考慮到用戶是否完全了解授權的內(nèi)容,授權之后是否有清晰的提示與展現(xiàn),以及是否是本人進行操作等等情況。

" 但回歸到問題本質(zhì),是否合法還得看最終如何去使用這個數(shù)據(jù)。如果是倒賣給第三方,或者使用在用戶不知情的地方,仍然是違法的;

如果協(xié)議中并未明確數(shù)據(jù)將會如何使用,則處于不完全告知狀態(tài),這也存在一些法律風險,但目前并沒有一個明確的法律條款去規(guī)范,只能說如果用戶能找到明確侵權證據(jù),那就屬于違法。"

燃財經(jīng)查閱了小度音箱的用戶協(xié)議和隱私協(xié)議,協(xié)議顯示:" 當您激活 DuerOS 程序或喚醒 DuerOS 設備后,我們會自動接收并記錄您與設備終端進行交互過程中產(chǎn)生的音頻、視頻等相關信息。"

值得注意的是,協(xié)議還表明:" 若您拒絕我們收集上述信息 …… 將導致您無法獲得相關服務。"

小度音箱用戶協(xié)議

燃財經(jīng)就用戶協(xié)議向百度和阿里相關人員咨詢,截至發(fā)稿,未獲回應。

一方面,AI 變得更智能需要更多用戶數(shù)據(jù),另一方面,用戶數(shù)據(jù)屬于隱私應該保護,而法律的完善不是一朝一夕的事,這似乎形成了一個無解的困境。

是否能提出一個大膽的設想:在不久的將來,AI 訓練不再依賴大數(shù)據(jù)?

對此,周洲表示," 現(xiàn)在已經(jīng)存在一種強化學習的方式,就是機器可以通過一部分簡單學習后,自己產(chǎn)生數(shù)據(jù)進行自主學習,AlphaGo 就是這樣。"

" 但目前強化學習還只能用于規(guī)則既定、獎懲明確的場景,比如下棋、玩游戲等,下錯了就會失敗,機器人可通過獎懲的方式去學習,但現(xiàn)實更多情況是復雜的,很難制定一個明確的獎懲規(guī)則。"

他補充,未來確實有實現(xiàn)的可能性,不過這個未來有多遠就不知道了,至少在能看得見的未來,我們還得為 AI 打工。

" 在 iPhone 上發(fā)生的事,就讓它留在 iPhone 上(What happens on your iPhone, stays on your iPhone)。" 這是今年年初的 CES 展上,蘋果公司在會場外投放的巨型廣告宣傳語,目前看來,這可能只是一個美好的幻想。

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉(zhuǎn)載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關熱點

9月25日消息,在2019云棲大會上,阿里云智能事業(yè)群總裁張建鋒發(fā)布了MPU芯片含光800。他表示,含光800是全球最高性能AI智能芯片。
業(yè)界
9月20日消息,據(jù)外媒報道,美國當?shù)貢r間周四,谷歌宣布在班加羅爾市建立其印度首家人工智能(AI)實驗室,并將其命名為Google Research India。
業(yè)界
9月18日消息,今天華為全聯(lián)接大會在上海召開。大會上,華為副董事長胡厚崑表示華為現(xiàn)在狀態(tài)非常不錯,并且宣布了華為全新計算戰(zhàn)略。
業(yè)界
9月6日消息,據(jù)國外媒體報道,人工智能正在成為新加坡這個獨立島國如何參與新興技術的一個典型案例。
業(yè)界
9月5日消息,美圖公司在廣州美博會正式發(fā)布其自主研發(fā)的全景式AI皮膚檢測儀:美圖宜膚(meitueve)。
業(yè)界

相關推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      日韩欧美色电影| 国产精品综合二区| 国产日韩精品一区二区浪潮av| 色悠悠久久综合| 国产麻豆成人精品| 日本欧美一区二区三区乱码| 亚洲同性gay激情无套| 26uuu色噜噜精品一区二区| 欧美综合色免费| 色综合天天狠狠| 91在线观看下载| 成人精品国产免费网站| 国产精品中文有码| 国产原创一区二区| 精品一区二区三区在线播放视频 | 夜色激情一区二区| 国产精品电影一区二区| 国产精品护士白丝一区av| 国产亚洲精品aa| 日本一区二区成人在线| 国产欧美日韩亚州综合| 中国色在线观看另类| 中文字幕成人在线观看| 国产精品不卡在线观看| 亚洲视频 欧洲视频| 亚洲另类一区二区| 一个色综合av| 免费看日韩a级影片| 久久成人久久爱| 国产精品自在在线| 成人av在线看| 欧美中文字幕久久| 3atv在线一区二区三区| 精品日韩在线一区| 久久久国际精品| 国产精品久久久久aaaa樱花| 亚洲精品久久久久久国产精华液| 亚洲国产裸拍裸体视频在线观看乱了| 午夜成人免费电影| 国产激情91久久精品导航| 国产91丝袜在线播放| 精品一区二区成人精品| 国产91高潮流白浆在线麻豆| 91福利在线看| 日韩一区二区影院| 国产精品久久久久久妇女6080 | www.av精品| 日本电影亚洲天堂一区| 欧美一区二区免费| 日韩理论片在线| 麻豆精品久久久| 不卡视频在线看| 91精品国产综合久久久蜜臀粉嫩| 久久久www成人免费无遮挡大片| 成人免费在线视频观看| 日韩精品成人一区二区三区| 成人av在线观| 日韩视频不卡中文| 亚洲三级在线免费观看| 久久国产免费看| 欧美在线小视频| 国产区在线观看成人精品| 亚洲成人激情av| 国产成人精品一区二| 欧美精品v国产精品v日韩精品| 国产日韩欧美精品在线| 伦理电影国产精品| 在线欧美日韩国产| 国产精品三级电影| 久久精品国产秦先生| 欧美三区免费完整视频在线观看| 国产欧美日韩三区| 精品一区二区三区在线观看 | 同产精品九九九| 日本精品一区二区三区高清| 国产欧美日韩视频在线观看| 久久99精品一区二区三区| 欧美午夜在线一二页| 亚洲美女在线一区| www.欧美亚洲| 国产精品久久久久影院色老大 | 国产偷国产偷亚洲高清人白洁 | 久久香蕉国产线看观看99| 三级不卡在线观看| 欧美三级电影在线观看| 一区二区三区在线视频免费观看| 成人一区二区三区视频在线观看 | 成人美女视频在线看| 久久麻豆一区二区| 国产一区二区在线视频| ww亚洲ww在线观看国产| 国产专区欧美精品| 久久亚洲一区二区三区四区| 麻豆精品国产传媒mv男同| 欧美精品视频www在线观看| 视频在线观看一区| 欧美精三区欧美精三区| 日本欧美一区二区三区| 91精品麻豆日日躁夜夜躁| 亚洲成人一区在线| 欧美一区二区三区在线| 久久精品国产在热久久| 国产欧美精品一区二区三区四区| 国产美女精品人人做人人爽| 欧美国产日韩亚洲一区| 99视频精品在线| 亚洲精品免费在线| 欧美日韩极品在线观看一区| 免费人成精品欧美精品| 国产日韩欧美激情| 在线视频你懂得一区二区三区| 亚洲一区二区视频在线观看| 欧美一区二区三区人| 国产成人av福利| 亚洲黄色免费网站| 欧美成人一区二区三区片免费| 国产精品一区二区x88av| 亚洲免费在线视频| 日韩欧美一二三区| eeuss鲁一区二区三区| 亚洲一区二区三区美女| 精品久久久久一区二区国产| 成人av在线播放网站| 日韩精品一区第一页| 久久五月婷婷丁香社区| 91毛片在线观看| 精品一区精品二区高清| 一区二区欧美视频| 久久综合久久99| 欧美三级日韩三级国产三级| 国产一区二区三区在线观看免费视频 | 欧美激情一区二区在线| 欧美日韩中文国产| 成人18视频日本| 天堂蜜桃91精品| 中文字幕一区三区| 26uuu色噜噜精品一区| 欧美视频精品在线| 成人av网站在线| 国产在线不卡一区| 日韩黄色小视频| 亚洲日本一区二区| 国产午夜精品久久久久久久| 欧美日韩不卡一区二区| 92精品国产成人观看免费| 国产馆精品极品| 久久99精品久久久| 蜜臀av一级做a爰片久久| 一区在线观看视频| 中文字幕欧美区| 亚洲精品在线免费观看视频| 在线播放欧美女士性生活| 色综合久久久久综合体| 大白屁股一区二区视频| 国产在线国偷精品产拍免费yy| 日本视频免费一区| 午夜欧美在线一二页| 亚洲午夜精品17c| ●精品国产综合乱码久久久久 | 国产九九视频一区二区三区| 亚洲风情在线资源站| 有码一区二区三区| 亚洲综合激情另类小说区| 亚洲欧美日韩国产综合| 成人欧美一区二区三区在线播放| 国产农村妇女毛片精品久久麻豆 | xf在线a精品一区二区视频网站| 欧美一级理论片| 欧美一区二区观看视频| 欧美电影免费观看高清完整版在线| 欧美日韩亚洲综合| 欧美精品1区2区3区| 日韩一区二区三区电影在线观看| 6080yy午夜一二三区久久| 欧美精品乱码久久久久久| 欧美日韩视频在线第一区| 欧美电影在哪看比较好| 欧美精品久久天天躁| 欧美va亚洲va| 国产女人18水真多18精品一级做| 国产欧美日韩一区二区三区在线观看| 久久久综合视频| 国产精品欧美经典| 一区二区三区色| 欧美aa在线视频| 国产精品中文字幕日韩精品| 91在线观看免费视频| 欧美日高清视频| 久久精品综合网| 夜夜亚洲天天久久| 免费xxxx性欧美18vr| 国产在线观看一区二区| 一本久道久久综合中文字幕| 欧美美女直播网站| 国产亚洲一区二区三区在线观看| 中文字幕亚洲一区二区va在线| 亚洲一二三专区| 麻豆精品一二三| 色哟哟精品一区| 精品美女被调教视频大全网站|