速途網(wǎng)訊 近日,2018 全國(guó)“視覺(jué)與學(xué)習(xí)青年學(xué)者研討會(huì)”(簡(jiǎn)稱(chēng)“VALSE 2018”)在大連舉行。
VALSE發(fā)起于2011年,是國(guó)內(nèi)計(jì)算機(jī)視覺(jué)、圖像處理、模式識(shí)別與機(jī)器學(xué)習(xí)等研究領(lǐng)域的盛會(huì),名稱(chēng)是取意華爾茲的優(yōu)雅與和諧,秉承自由、平等之學(xué)術(shù)精神,為青年學(xué)者和學(xué)生提供一個(gè)強(qiáng)互動(dòng)的學(xué)術(shù)交流舞臺(tái)。本屆VALSE大會(huì)吸引了全民短視頻平臺(tái)快手、阿里人工智能實(shí)驗(yàn)室、滴滴等多家科技公司與研究機(jī)構(gòu)參與,展示交流這一領(lǐng)域前沿技術(shù)與產(chǎn)品的最新進(jìn)展。

圖:快手多媒體內(nèi)容理解團(tuán)隊(duì)負(fù)責(zé)人在大會(huì)上做分享
大會(huì)上,快手科技展示了人臉識(shí)別、語(yǔ)音識(shí)別、三維人臉重建、視頻搜索,多媒體內(nèi)容理解等一系列炫酷十足的應(yīng)用,其中很多尖端技術(shù)已經(jīng)在快手產(chǎn)品上進(jìn)行了廣泛的應(yīng)用。快手多媒體內(nèi)容理解部(MultiMedia
Understanding,簡(jiǎn)稱(chēng)MMU)負(fù)責(zé)人李巖,介紹了快手在計(jì)算機(jī)視覺(jué)、圖像處理、模式識(shí)別與機(jī)器學(xué)習(xí)研究領(lǐng)域內(nèi)的技術(shù)探索和人才積累。
快手CEO宿華曾指出,快手的公司愿景是實(shí)現(xiàn)每個(gè)人獨(dú)特的幸福感,希望每個(gè)人都能記錄自己的生活,希望每個(gè)人都有機(jī)會(huì)被世界看到,快手通過(guò)短視頻、圖片、直播的形式把人與人連接起來(lái),幫助他們消除一點(diǎn)點(diǎn)孤獨(dú)感,增加一點(diǎn)點(diǎn)幸福感。這個(gè)愿景的實(shí)現(xiàn)正是靠著快手技術(shù)團(tuán)隊(duì)的不懈努力,才得以一步步接近。
李巖進(jìn)一步介紹說(shuō),要實(shí)現(xiàn)以上愿景,理解好每一段視頻是基礎(chǔ)。快手平臺(tái)每天有海量的短視頻作品上傳,日播放量達(dá)到150億次,這些記錄生活的短視頻千姿百態(tài)、包羅萬(wàn)象。如何分層有序的提取視頻信息,理解視頻內(nèi)容,并且有效把這些內(nèi)容分發(fā)到對(duì)它們感興趣的用戶(hù),把人和內(nèi)容精準(zhǔn)對(duì)接,背后需要極其強(qiáng)大的計(jì)算能力和技術(shù)支持,這也是學(xué)術(shù)界和產(chǎn)業(yè)界共同的課題。快手已經(jīng)在人工智能、大數(shù)據(jù)等領(lǐng)域有了7年的積累。針對(duì)該問(wèn)題,快手多媒體內(nèi)容理解部利用AI技術(shù),通過(guò)感知和推理兩個(gè)階段來(lái)解讀每一個(gè)視頻,先感知獲取視頻的客觀內(nèi)容信息,進(jìn)而推理獲取視頻的高層語(yǔ)義信息。
在感知階段,快手主要從四個(gè)維度來(lái)分析理解視頻內(nèi)容:人臉、圖像、語(yǔ)音、音樂(lè)。人臉信息在社交視頻中占據(jù)重要地位,需要對(duì)視頻中的人臉進(jìn)行檢測(cè)、跟蹤、識(shí)別,并分析出視頻中人物的年齡/性別等屬性,挖掘其中的3d形狀、表情等信息;在圖像維度,通過(guò)分類(lèi)、物體檢測(cè)等算法分析場(chǎng)景、物體,通過(guò)圖像質(zhì)量分析算法對(duì)圖像的主觀質(zhì)量進(jìn)行評(píng)估,通過(guò)OCR分析圖像中包含的文字信息等;在語(yǔ)音方面,不僅進(jìn)行語(yǔ)音識(shí)別,而且進(jìn)行說(shuō)話(huà)人識(shí)別、情緒年齡等語(yǔ)音屬性信息分析;在音樂(lè)方面,進(jìn)行音樂(lè)識(shí)別、歌聲/伴奏分離、歌聲美化打分等分析,對(duì)音樂(lè)信息進(jìn)行結(jié)構(gòu)化。基于上述四個(gè)維度,完成對(duì)視頻低級(jí)語(yǔ)義信息的感知。
在推理階段,基于感知階段的輸出,可以將視頻看做一個(gè)整體,進(jìn)行分類(lèi)、描述、檢索;
此外,像人把學(xué)到的知識(shí)存到大腦一樣,把快手的視頻內(nèi)容整理并存儲(chǔ)到快手知識(shí)圖譜中,這樣融合感知內(nèi)容和知識(shí)圖譜,使得理解視頻高層語(yǔ)義及情感成為可能。
據(jù)介紹,快手的多媒體智能分析團(tuán)隊(duì)擁有近百名資深算法研究員和研發(fā)工程師,大部分研發(fā)人員具有多年BAT工作經(jīng)歷,核心算法研究員具有十年的研發(fā)經(jīng)驗(yàn)。團(tuán)隊(duì)成員絕大多數(shù)來(lái)自于清華大學(xué),中科院,香港科技大學(xué),南京大學(xué),上海交通大學(xué)和日本京都大學(xué)等國(guó)內(nèi)外頂尖高校。目前快手該部門(mén)仍在面向全社會(huì)和各大高校誠(chéng)聘大量計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,視頻內(nèi)容理解,人臉識(shí)別&3D重建等相關(guān)領(lǐng)域的人才。
李巖最后向參會(huì)者發(fā)出誠(chéng)摯邀請(qǐng),歡迎志在多媒體理解領(lǐng)域做一些深入有影響力工作的同學(xué)加入快手,一起完成“實(shí)現(xiàn)每個(gè)人獨(dú)特幸福感”的美好使命。