近日,第十五屆亞洲計算機(jī)視覺學(xué)術(shù)會議ACCV 2020(Asian Conference on Computer Vision)國際細(xì)粒度網(wǎng)絡(luò)圖像識別賽公布最終成績,網(wǎng)易AI Lab以71.4%的準(zhǔn)確率擊敗了來自全球的569個頂尖計算機(jī)視覺團(tuán)隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。這是網(wǎng)易AI Lab繼語音、自然語言處理(NLP)等領(lǐng)域大賽奪冠之后,在計算機(jī)視覺領(lǐng)域的又一突破,彰顯了網(wǎng)易AI Lab在人工智能領(lǐng)域的綜合技術(shù)實力。

網(wǎng)易AI Lab榮獲ACCV 2020國際細(xì)粒度網(wǎng)絡(luò)圖像識別賽第一名的獎狀
ACCV是國際計算機(jī)視覺領(lǐng)域的重要學(xué)術(shù)會議之一,每兩年舉辦一次,吸引來自全球的一流學(xué)者、研究者和開發(fā)者參與,共同探討計算機(jī)視覺領(lǐng)域的前瞻學(xué)術(shù)研究與應(yīng)用。本次ACCV2020國際細(xì)粒度網(wǎng)絡(luò)圖像識別賽,主要目的在于使用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練細(xì)粒度識別模型,減輕細(xì)粒度識別任務(wù)對大規(guī)模有標(biāo)簽訓(xùn)練數(shù)據(jù)的依賴,以增強(qiáng)模型算法的實用性和擴(kuò)展性。
此次競賽的數(shù)據(jù)集規(guī)模巨大,訓(xùn)練數(shù)據(jù)集包含557169張圖片,測試數(shù)據(jù)集包含100000張圖片,涵蓋各類動植物,共計5000個類別。所有數(shù)據(jù)來自網(wǎng)絡(luò),未經(jīng)人工標(biāo)注,因此包含大量噪聲和錯誤數(shù)據(jù),且數(shù)據(jù)存在長尾分布現(xiàn)象,導(dǎo)致不同類別樣本可能同時存在欠擬合和過擬合等問題,對參賽選手提出了巨大挑戰(zhàn)。而網(wǎng)易AILab提出了一種基于類別平衡的去噪方法,配合基于BBN的原創(chuàng)模型訓(xùn)練方案,無需過度依賴高質(zhì)量的標(biāo)注數(shù)據(jù),能夠直接從網(wǎng)絡(luò)數(shù)據(jù)中獲得更好的模型表達(dá)能力。比賽采用準(zhǔn)確率(accuracy)作為評測指標(biāo),網(wǎng)易AI Lab解決方案的accuracy達(dá)到71.4%,遠(yuǎn)超過比賽方所提供的基線模型(accuracy=41.905%)。
細(xì)粒度圖像識別不同于通用圖像分析任務(wù),需要對屬于同一基礎(chǔ)類別的圖像進(jìn)行更加細(xì)致的子類劃分,因此對模型的要求更高、難度更大。而現(xiàn)有深度學(xué)習(xí)方法通常需要依賴大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù),其獲取難度較高且成本高昂,一定程度上限制了現(xiàn)實場景下的應(yīng)用。網(wǎng)易AILab在此次競賽中使用的原創(chuàng)模型,能夠在面對大量低質(zhì)量樣本的情況下,快速找到適用于特定場景的解決方案,降低了圖像識別對于人工標(biāo)注的依賴,為通用物品識別、圖像或視頻標(biāo)簽等應(yīng)用場景落地帶來了更多可能性。
成立于2017年的網(wǎng)易AILab,目前在計算機(jī)視覺研究領(lǐng)域有著豐富的技術(shù)累積,在落地應(yīng)用上也擁有著諸多的實踐經(jīng)驗。此前,網(wǎng)易AILab圖像識別技術(shù)已成功應(yīng)用于敏感內(nèi)容審核、游戲反外掛、人臉屬性識別、手勢識別等場景。