近日,阿里云機(jī)器學(xué)習(xí) PAI 開(kāi)源框架 EasyNLP進(jìn)行升級(jí)發(fā)布,推出了融合了豐富電商場(chǎng)景知識(shí)的CLIP模型,在電商文圖檢索效果上刷新了SOTA結(jié)果,并且將上述模型免費(fèi)開(kāi)源,貢獻(xiàn)給開(kāi)源社區(qū)。
CLIP(Contrastive Language-Image Pre-training)是一種經(jīng)典的文圖跨模態(tài)檢索模型,它在大規(guī)模圖文數(shù)據(jù)集上進(jìn)行了對(duì)比學(xué)習(xí)預(yù)訓(xùn)練,具有很強(qiáng)的文圖跨模態(tài)表征學(xué)習(xí)能力。EasyNLP借鑒CLIP的輕量化、易遷移的預(yù)訓(xùn)練架構(gòu),構(gòu)建基于CLIP包含圖像和文本Encoder兩部分的雙流模型,同時(shí)基于商品數(shù)據(jù),以?xún)?yōu)化電商場(chǎng)景的文圖檢索優(yōu)化。
Fashion-Gen數(shù)據(jù)集是一個(gè)大規(guī)模的時(shí)尚場(chǎng)景的圖文數(shù)據(jù)集,以Fashion-Gen數(shù)據(jù)集為例,EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en這兩個(gè)模型在Fashion-Gen數(shù)據(jù)集上進(jìn)行了20個(gè)epoch的微調(diào)。實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)公布的SOTA模型(CommerceMM),電商CLIP-large模型在文到圖和圖到文的檢索結(jié)果上均有顯著提升,評(píng)測(cè)指標(biāo)最高提升了8.7~15個(gè)百分點(diǎn)。
除此之外,電商base模型在文到圖與CommerceMM相當(dāng)檢索結(jié)果下,使用了更少的參數(shù)量。由此可見(jiàn),電商CLIP無(wú)論在large還是base圖像Encoder的設(shè)置下,都取得了有競(jìng)爭(zhēng)力的電商場(chǎng)景跨模態(tài)檢索能力。
文到圖檢索評(píng)測(cè)結(jié)果

圖到文檢索評(píng)測(cè)結(jié)果

目前,電商CLIP可在EasyNLP中直接安裝使用,在未來(lái),EasyNLP框架會(huì)集成更多NLP的多模態(tài)的知識(shí)模型,覆蓋各個(gè)常見(jiàn)領(lǐng)域和任務(wù),同時(shí)也將集成更多SOTA模型(特別是中?模型),來(lái)?持各種NLP和多模態(tài)任務(wù),共建NLP和多模態(tài)算法庫(kù)。
Github地址:https://github.com/alibaba/EasyNLP