欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址

口音識別難倒AI:“人機交互”的未來還有多遠?

口音識別難倒AI:“人機交互”的未來還有多遠?

讓機器“聽懂”人類語言,是“語音識別”技術自誕生起,就一直致力的目標。

自20世紀中葉以來,經過近70年的發展,特別是隨著深度學習技術的引入,自動語音識別已取得突破性進展——在標準口音、常見詞匯、安靜環境的應用場景下,機器已然具備接近人類的“聽覺”能力。

然而,一旦面臨口音、方言等情境,AI便顯得有些“力不從心”,哪怕你一字一句盡力向智能設備發出清晰的指令,得到的回答仍可能是:“對不起,我好像不明白你在說什么……”

語音識別技術發展的終極目標,是實現自然、順暢的“人機交互”,正如同人與人的交互。如何解決橫亙在當下的這道難題,抵達人類暢想的智能未來,已成為全球智能語音技術公司共同面對的挑戰。

全世界的AI,都栽在了“口音”上?

口音、方言等問題,困擾著幾乎全世界所有的智能語音助手。

2018年,《華盛頓郵報》曾與Globalme、Pulse Labs兩家語言研究公司合作,研究智能音箱的口音識別問題,結果顯示,谷歌智能音箱Google Home更容易“聽懂”美國西岸口音,對南部口音的識別準確率則要低3%;而亞馬遜Echo搭載的語音助手Alexa,識別東岸口音的準確率要比中西部口音高2%。

更大的問題還在于對非本土口音的識別。研究顯示,對于非英語母語者,比如以西班牙語或漢語作為第一語言的人所說的英文,不論是Google Home還是Amazon Echo,其識別準確率都要比美國本土口音低30%,而拉丁裔和華裔是美國的兩大移民族群。

這項研究結果引起了人們對智能語音助手“地域歧視”問題的廣泛關注。實際上,不只是Google Home和Amazon Echo,市場上主流的智能語音設備,在應對方言、口音等非標準語言場景時,表現都差強人意。

在中國市場,這個問題同樣凸顯。

所謂“十里不同音,百里不同俗”。作為一個幅員遼闊的多民族國家,我國56個民族使用的語言分屬五大語系,共有80種以上語言。其中,漢語的使用人數最多,分為標準語(普通話)和方言。

根據教育部2019年發布的《中國語言文字概況》,漢語方言通常分為十大方言,各方言區內,又分布著若干次方言和許多種土語。部分方言之間差異很大,無法通話。為了消除語言隔閡,國家在全社會大力推廣普通話。然而,來自天南海北的人們,又賦予普通話五花八門的口音。

帶有鮮明地域特色的口音,雖然對于人們的日常交流無傷大雅,有時還帶來些“塑料普通話”的樂趣,但你的智能語音助手就樂不起來了,甚至在它聽來,你說的極有可能是另一門語言……

與此同時,用戶也很惱火:“難道普通話不過一級乙等,我就不配擁有智能音箱?!”

口音、方言識別,到底難在哪兒?

從理論上來說,只要有足夠的數據供機器進行訓練,那么讓AI識別任何一種語言或口音,都不是問題。

以人機交互為目的的語音識別,是一個把聲學信號轉化為文本信息的過程。目前主流的語音識別框架主要由三個部分組成:聲學模型(AM)、語言模型(LM)和解碼器??梢孕蜗蟮乩斫鉃椋郝晫W模型負責找到對應的拼音,語言模型負責找到對應的句子。

要得到一個出色的語音識別模型,需要有大量標注數據的訓練,簡單來說:首先,要進行語音內容的采集;其次,需要人工對這些語音進行標注,將語音內容轉寫成文本,讓算法能夠識別它;之后,算法再將識別后的文本內容與對應的音頻進行邏輯關聯。經過這樣大量、反復的學習訓練之后,機器就能實現語音識別了。

“對于方言、口音的識別來說,最難的部分是在于語音數據的采集?!卑俣戎悄茉茢祿姲椖繉<也莒o文表示。

2019年9月,百度數據眾包團隊曾執行過一個藏語方言語音采集的項目??蛻魹榱颂嵘卣Z方言的識別和翻譯準確率,與百度團隊合作,招募870位藏民,整體采集87萬條藏語語音,覆蓋安多、康巴、衛藏等三個藏語方言區。

藏語與漢語同屬漢藏語系,但與漢語這樣資源豐富的語言不同,藏語屬于低資源語言,目前全世界約有800萬人使用藏語,訓練數據稀少。

曹靜文介紹,藏區采集工作面臨安全風險大、質檢難度高等挑戰。整個項目過程涉及諸多環節,從按需定制采集方案,到采集布點、人員招募、培訓、隱私授權,再到對采集流程、進度和項目風險進行把控,最后經過多輪質檢,在數據核驗通過后,才能最終交付確認。

百度團隊在第一時間聯系到當地的資源布點,并派遣項目經理前往西藏、青海等地指導采集。最終該項目用時一個半月,實際交付數據92萬條,驗收合格率高于95%,滿足交付要求。

“這個過程往往成本高昂、流程繁瑣,還存在諸多門檻。”曹靜文表示。

應對“數據稀缺”,眾包模式受青睞

語料庫的質量越高,語言模型越豐富,語音識別的準確率就越高。如何獲取大量訓練數據,就成為AI在口音、方言及低資源語言的識別上,面臨的關鍵問題。

全球各大AI巨頭和前沿的科技公司,都在積極致力于解決這個問題。

一方面,對于投入市場的智能語音產品來說,隨著越來越多擁有不同口音的用戶與其進行交流,訓練數據持續積累,語音助手的識別能力會不斷提升。另一方面,在自身語音數據集的擴充上,一些公司也在嘗試采取各種“眾包模式”。

“眾包”是一種分布式的問題解決和生產模式,企業通過互聯網,以自由自愿的形式,將工作分配給外部的大眾群體。

比如,谷歌、亞馬遜等科技巨頭,以游戲的形式鼓勵用戶使用不同地區的方言進行交談;國內智能語音企業科大訊飛推出“方言保護計劃”,鼓勵用戶“留下鄉音”,共建“中國方言庫”;一些機構和企業呼吁齊力“獻聲”,打破巨頭公司的數據壟斷,建立開源開放的語音數據集等。

這些方式實際上都是以眾包模式,獲取大量的語音訓練數據。

“眾包模式的優勢在于,可以低成本、高效率地整合資源?!辈莒o文表示。

2019年底,百度數據眾包團隊承接了一項海外英文語音采集項目。某手機廠商為了提升海外各國英文喚醒詞的識別率,需要采集海外不同地域用戶的英文語音,包括亞太地區口音、英式口音、美式口音、印式口音及阿拉伯口音,需招募2000人,總數據量為20萬條。

“這個項目的難點在于,要求采集的用戶口音遍布多國,交付時間短,且對用戶的性別、年齡段要求嚴格。”曹靜文說,“但我們通過百度覆蓋全國及全球22個國家的資源池,在短時間內招募到了全球多種口音用戶參與采集?!?/p>

項目執行期間,恰逢春節假期和突發的新冠疫情,百度團隊通過國內線上和國外線下的采集方式,執行布點覆蓋9個國家,用時45天,按照客戶要求完成了全部數據交付。

實踐證明,眾包模式的確是完善語音數據庫的一條有效路徑。

但光有數據庫的支持還不夠。要提高某種語言的識別準確率,還需要對該語言的文化、語素、音素等有相當的研究。因此,要實現方言、口音的準確識別,也需要方言學者、音韻學者等專業人士的深度參與。

此外,另一個現實情況是,一些方言和低資源語言,很難提供充足的數據資源以供采集。這種情況下,探索如何通過遷移學習,用較少數據量得到一個好的聲學模型,就成為當前一個熱門且極具價值的研究方向。

(0)
上一篇 2020年11月5日 17:02
下一篇 2020年11月5日 17:34
欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址
欧美日韩国产精品自在自线| 亚洲国产日韩在线一区模特| 日韩欧美在线网站| 欧美成人乱码一区二区三区| 精品久久五月天| 国产精品视频观看| 亚洲一区二区三区中文字幕 | 日韩经典一区二区| 国产成人免费视| 欧美午夜精品久久久久久孕妇| 欧美理论电影在线| 中文字幕成人av| 免费三级欧美电影| 91视频xxxx| 精品精品欲导航| 一区二区三区在线播放| 韩日欧美一区二区三区| 在线精品视频免费观看| 久久精品免费在线观看| 日韩成人午夜电影| 在线观看免费一区| 亚洲欧美在线另类| 国产精品中文字幕日韩精品 | 成人午夜碰碰视频| 日韩欧美国产1| 视频在线在亚洲| 91久久精品一区二区三区| 国产三级欧美三级| 激情深爱一区二区| 日韩一区二区三区精品视频| 亚洲一区二区在线观看视频 | 成人精品免费网站| 久久久久国产精品人| 日韩av在线免费观看不卡| 日本精品视频一区二区三区| 国产欧美日韩激情| 蜜乳av一区二区| 欧美一区二区三区播放老司机| 亚洲男女毛片无遮挡| 99国产精品一区| 日本一区免费视频| 丁香激情综合国产| 中文字幕+乱码+中文字幕一区| 久久精品国产秦先生| 精品久久人人做人人爽| 国精产品一区一区三区mba视频| 日韩欧美国产三级| 福利91精品一区二区三区| 精品福利一区二区三区| 久久99久久99| 国产精品视频一二三| av电影天堂一区二区在线观看| 国产精品成人在线观看| 日本道精品一区二区三区| 亚洲在线观看免费视频| 欧美日韩成人一区| 激情欧美一区二区三区在线观看| 欧美精品一区二区三区在线 | 精品国产乱码久久久久久闺蜜| 国产精品一区二区三区四区| 国产精品成人午夜| 欧美综合亚洲图片综合区| 亚洲第一福利视频在线| 精品成人一区二区三区| 97精品国产露脸对白| 日本亚洲欧美天堂免费| 久久精品一区二区| 欧美性xxxxxx少妇| 精品制服美女丁香| 亚洲色图在线视频| 久久亚洲精精品中文字幕早川悠里 | 99久久99久久精品免费看蜜桃| 一级日本不卡的影视| 日韩午夜在线影院| 一本到不卡精品视频在线观看| 日本午夜一区二区| 亚洲欧美日韩在线播放| 精品久久久影院| 欧美网站一区二区| 成人av第一页| 国产尤物一区二区| 日日夜夜免费精品| 樱桃国产成人精品视频| 欧美极品另类videosde| 日韩一级黄色大片| 欧美日韩国产成人在线91| 成人精品国产福利| 国产麻豆91精品| 精品亚洲成a人| 免费人成精品欧美精品| 亚洲欧美日韩成人高清在线一区| 久久久久久电影| 日韩久久免费av| 6080国产精品一区二区| 欧美三级电影在线观看| 91论坛在线播放| 91视频观看视频| 色偷偷久久人人79超碰人人澡| 成人动漫一区二区在线| 国产成人av资源| 国产成人亚洲综合a∨婷婷 | 欧美xxxxx牲另类人与| 欧美一区二区在线观看| 欧美一区二区三区视频在线 | 国产精品国产自产拍在线| 国产色综合久久| 欧美韩日一区二区三区四区| 久久九九久精品国产免费直播| 欧美成人精品二区三区99精品| 日韩片之四级片| 久久久久久久综合日本| 亚洲国产成人午夜在线一区| 亚洲国产精品v| 亚洲伦在线观看| 亚洲色图色小说| 亚洲欧洲制服丝袜| 午夜精品久久久久影视| 久久精品国产999大香线蕉| 国产一区日韩二区欧美三区| 东方欧美亚洲色图在线| 色婷婷国产精品综合在线观看| 欧美日韩一级二级三级| 欧美成人精品1314www| 国产目拍亚洲精品99久久精品| 中文字幕一区在线| 日本伊人午夜精品| 丁香五精品蜜臀久久久久99网站| 成人免费观看av| 欧美日韩国产一级二级| 久久久久久一级片| 亚洲综合成人在线视频| 久久99国产精品久久| 91蜜桃网址入口| 日韩欧美一区电影| 亚洲女同女同女同女同女同69| 日韩有码一区二区三区| 成人精品电影在线观看| 69av一区二区三区| 亚洲日本在线a| 国产美女视频一区| 欧美理论电影在线| 樱花影视一区二区| 成人成人成人在线视频| 日韩欧美一区二区在线视频| 亚洲精品国产无套在线观| 久久国内精品视频| 欧美丰满嫩嫩电影| 亚洲激情自拍偷拍| 国产伦精品一区二区三区免费| 欧美日韩中文字幕一区| 亚洲视频 欧洲视频| 国产麻豆精品久久一二三| 日韩区在线观看| 免费高清不卡av| 欧美日韩精品综合在线| 亚洲欧美日韩电影| 99久久er热在这里只有精品66| 久久综合色一综合色88| 精品亚洲免费视频| 欧美大尺度电影在线| 国产老女人精品毛片久久| 国产一区欧美二区| 精品久久久久久久久久久久久久久 | 精品久久久久久亚洲综合网| 亚洲国产精品成人久久综合一区| 中文字幕在线观看一区| 日本美女视频一区二区| 91看片淫黄大片一级在线观看| 久久久久久久久久久久久夜| 免费观看成人av| 欧美日韩mp4| 欧美一级日韩免费不卡| 国产成人a级片| 亚洲成人免费在线观看| 日韩一级黄色大片| 亚洲理论在线观看| 欧美色图12p| 日韩一区二区三区视频在线观看| 日本不卡的三区四区五区| 日韩一区二区三区电影| 成人午夜激情在线| 久久这里只有精品首页| 久久人人超碰精品| 美日韩一区二区三区| 精品日韩欧美在线| 国产精品一区二区在线看| 成人免费看视频| 色国产综合视频| 一区二区三区欧美久久| 色综合久久中文综合久久97| 午夜久久久久久电影| 亚洲人成网站色在线观看| 久久久精品2019中文字幕之3| 午夜私人影院久久久久| 中文字幕巨乱亚洲| 精品欧美一区二区在线观看| 国产精品理论在线观看| 久久久噜噜噜久久人人看| 色婷婷久久久亚洲一区二区三区| 欧美色图12p|