創澤機器人
CHUANGZE ROBOT
當前位置:首頁 > 新聞資訊 > 電商 > FashionBERT 電商領域多模態研究:如何做圖文擬合

FashionBERT 電商領域多模態研究:如何做圖文擬合

來源: 阿裏機器智能     編輯:創澤   時間:2020/6/2   主題:其他 [加盟]
隨著 Web 技術發展,互聯網上包含大量的多模態信息(包括文本,圖像,語音,視頻等)。從海量多模態信息搜索出重要信息一直是學術界研究重點。多模態匹配核心就是圖文匹配技術 (Text and Image Matching),這也是一項基礎研究,在非常多的領域有很多應用,例如圖文檢索 (Cross-modality IR),圖像標題生成 (Image Caption),圖像問答係統 (Vision Question Answering), 圖像知識推理 (Visual Commonsense Reasoning)。但是目前學術界研究重點放在通用領域的多模態研究,針對電商領域的多模態研究相對較少,然而電商領域也非常需要多模態匹配模型,應用場景特別多。本文重點關注電商領域圖文多模態技術研究。

多模態匹配研究簡史

跨模態研究核心重點在於如何將多模態數據匹配上,即如何將多模態信息映射到統一的表征空間。早期研究主要分成兩條主線:Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 係列方法

主要是通過分析圖像和文本的 correlation,然後將圖像和文本到同一空間。這一係列的問題論文完美,但是效果相對深度學習方法還是有待提高的。雖然後期也有基於深度學習的方案 (DCCA),但是對比後麵的 VSE 方法還有一定差距。

VSE 係統方法

將圖像和文本分別表示成 Latent Embedding,然後將多模態 Latent Embedding 擬合到同一空間。VSE 方法又延伸出來非常多的方法例如 SCAN,PFAN。這些方法在通用圖文匹配上已經拿到不錯效果。

隨著 pre-training 和 self-supervised 技術在 CV 和 NLP 領域的應用。2019 年開始,有學者開始嚐試基於大規模數據,使用預訓練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用領域取得很好的效果,這一係列的方法可以參看 VLBERT 這篇 Paper。

基於 BERT 的預訓練圖文模型的主要流程:

1)利用圖像目標檢測技術先識別圖像中的 Region of Interests(RoIs)。

2)把 ROI 當做圖像的 token,和文本 token 做 BERT 多模態融合,這裏麵有兩個方案:

Single-stream:以 VLBERT 為代表,直接將圖像 token 和文本 token 放入到 BERT 做多模態融合。

Cross-stream:以 ViLBERT 為代表,將圖像 token 和文本 token 先做初步的交互,然後在放入到 BERT。

我們嚐試了 ViLBERT 方法,發現在通用領域效果確實不錯。但是在電商領域,由於提取的 ROI 並不理想,導致效果低於預期。主要原因在於:

1)電商圖像 ROI 太少

電商圖像產品單一,背景簡單提取 ROI 很少,如圖 1(c)。統計來看,通用領域 MsCoCo 數據,每張圖像可以提取 19.8 個 ROI,但是電商隻能提取 6.4 個 ROI。當然我們可以強製提取最小的 ROI,比如 ViLBERT 要求在 10~36 個,VLBERT 要求 100 個。但是當設定最小提取的 ROI 後,又提取了太多了重複的 ROI,可以看圖 1(e)。

2)電商 ROI 不夠 fine-grained

電商圖像單一,提取的 RoIs 主要是 object-level 的產品 (例如,整體連衣裙,T-shirt 等) 。相對文本來說,不夠細粒度 fine-grain,比如文本裏麵可以描述主體非常細節屬性 (如,圓領,九分褲,七分褲等等)。這就導致圖像 ROI 不足以和文本 token 匹配,大家可以對比一下電商領域的圖 1(c) 和圖 1(d)。再看下通用領域的圖 1(a) 和圖 1(b),你會發現通用領域簡單一些,隻要能將圖像中的主體和文本 token alignment 到一起,基本不會太差。

3)電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭,頭發,手指,對於商品匹配來說用處不大。

這也就解釋了,電商領域也采用現有的 ROI 方式,並不能得到非常理想的結果。如果說,針對電商領域重新訓練一個電商領域的 ROI 提取模型,需要大量的數據標注工作。那麼有沒有簡單易行的方法做圖文匹配擬合。




FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型,核心問題是如何解決電商領域圖像特征的提取或者表達。Google 在 2019 年年中發表了一篇文章圖像自監督學習模型 selfie,主要思路是將圖像分割成子圖,然後預測子圖位置信息。從而使模型達到理解圖像特征的目的,這個工作對我們啟發很大。我們直接將圖像 split 相同大小的 Patch,然後將 Patch 作為圖像的 token,和文本進行擬合,如圖二所示。使用 Patch 的好處:

圖像 Patch 包含了所有圖像的細節信息。

圖像 Patch 不會出現重複的 ROI 或者太多無用的 ROI。

圖像 Patch 是天然包含順序的,所以解決 BERT 的 sequence 問題。

FashionBERT 整體結構如圖 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣,先將句子分成 Token,然後我們采用 Whole Word Masking 技術將整個 Token 進行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類似,這裏我們將圖片平均分成 8*8 個 patch。每個 Patch 經過 ResNet 提取 patch 的圖像特征,我們提取 2048 維圖像特征。Patch mask 策略,我們隨機 masked 10% 的 patch,masked 的 patch 用 0 代替。同時在 Segment 字段我們分別用 "T" 和 "I" 區分文 本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預訓練的 BERT 為網絡,這樣語言模型天然包含在 FashionBERT 中。模型可以更加關注圖文匹配融合。

FashionBERT 模型在 pretrain 階段,總共包含了三個任務:

1  Masked Language Modeling (MLM)

預測 Masked Text Token,這個任務訓練和參數我們保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

預測 Masked Patch,這個任務和 MLM 類似。但是由於圖像中沒有 id 化的 token。這裏我們用 patch 作為目標,希望 BERT 可以重構 patch 信息,這裏我們選用了 KLD 作為 loss 函數。

3  Text and Image Alignment

和 Next Sentence Prediction 任務類似,預測圖文是否匹配。正樣本是產品標題和圖片,負樣本我們隨機采樣同類目下其他產品的圖片作為負樣本。

這是一個多任務學習問題,如何平衡這些任務的學習權重呢?另外,還有一個問題,目前很多實驗指出 BERT 中 NSP 的效果並不一定非常有效,對最終的結果的影響不是特別明朗。但是對於圖文匹配來說,Text and Image Alignment 這個 loss 是至關重要的。那麼如何平衡這幾個任務的學習呢?這裏我們提出 adaptive loss 算法,我們將學習任務的權重看做是一個新的優化問題,如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和,由於隻有三個任務,其實我們可以直接得到任務權重 W 的解析解(具體的求解過程可以參考我們論文,這裏不再贅述)。

整個 w 的學習過程可以看做是一個學生想學習三門功課,w 的作用是控製學習的關注度,一方麵控製別偏科,一方麵總成績要達到最高。具體 adaptive loss 算法,可以參看論文。從實際的效果來看 w,隨著訓練的迭代關注不同的任務,達到對任務做平衡的目的。

業務應用

目前 FashionBERT 已經開始在 Alibaba 搜索多模態向量檢索上應用,對於搜索多模態向量檢索來說,匹配任務可以看成是一個文文圖匹配任務,即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關係。FashionBERT 從上麵的模型可以看到是一個基礎的圖文匹配模型,因此我們做了 Continue Pretrain 工作,同時加入 Query,Title,Image Segment 區分,如圖四所示。和 FashionBERT 最大的區別在於我們引入三個 segment 類型,“Q”,“T”,“I” 分別代表 Query,Title,Image。



創澤智能機器人
創澤智能機器人
中國智能服務機器人領軍企業,涵蓋商用、家庭、特種等多用途的智能機器人產品體係,十幾年行業應用解決方案提供商



浙江製定全國首個直播電商行業規範標準

據直播電商的不同參與角色,分別確立了從主體資格、亮證亮照、商家和主播入駐審核、規則建立、直播監控、違規處置以及消費者權益保障等全流程的規範體係

直播電商需規範 首部全國性“直播帶貨”標準立項製定

首部全國性社團標準《視頻直播購物運營和服務基本規範》和《網絡購物誠信服務體係評價指南》兩項標準(以下簡稱《標準》),預計將於7月份正式發布執行

德勤攜手穀歌聯合發布《2020中國時尚跨境電商發展報告》

不同發展階段、不同規模和資源稟賦的企 業選擇了不同的出海策略和演進路徑,通過對國內企業的實地調研,總結其發展模式有三 類:流量導向型、產品導向型和品牌導向型

電商平台必須的十大商標核心類別

第9類:APP、計算機程序、電子設備(產品) ;第16類:印刷物、雜誌,包裝物;第35類:廣告服務、電子商務、營銷策劃;第42類:計算機編程服務

帶貨的邏輯:直播電商產業鏈研究報告

2020年直播電商更火了,預計在2020年將達到8570億元,近三年年複合增長率高達314%,行業處於高速發展階段

2020年中國直播電商生態研究報告

直播電商帶來的增量與機會主要在於為產業鏈提效降本及為參與者帶來新機會點。

全球最大B2B跨境電商平台阿裏國際站,未來三年GMV如何突破1000億美元

阿裏巴巴國際站作為最大的B2B跨境電商平台以流量服務與跨境供應鏈服務賦能外貿出口企業,為其提供跨境出口的一站式解決方案

巨量引擎聯合抖音電商首次發布《抖音直播營銷實戰經驗手冊第一期》

對抖音上半年的商業直播案例進行了全盤梳理和分析,針對“品牌宣傳+電商帶貨”兩大最具代表性的開播目的,圍繞人、貨、場三個層麵分享實戰經驗

電商AI客服機器人《樂語助人》模擬金牌客服的回複

麵向淘寶、天貓等平台的AI客服機器人,具備高精準的語言理解能力,可模擬金牌客 服的回複邏輯,輔助人工客服進行客服谘詢接待、業務問題處理、智能推薦、客情維係等

GrowingIO推出《私域電商數據驅動增長白皮書》

電商正經曆由“粗放式獲取流量”到“精細化運營用戶”的轉變,而私域構建則是這一轉變的關鍵點

艾瑞谘詢:2020年中國企業采購電商市場研究報告

報告首先通過對中國企業采購電商市場發展方向的研究,揭示出疫情不改變行業發展長期向好態勢,中小微企業數字化速度加快,聚焦中小微企業采購的電商平台將在未來獲得更大優勢

阿裏:邁向萬億市場的直播電商

了解直播電商的發展現狀、機遇和挑戰,助力可持續發展,畢馬威聯合阿裏研究院,實地走訪了大量業內專家和從業人員,並針對 MCN 機構、品牌商家發放調研問卷
資料獲取
電商
== 最新資訊 ==
國標《智慧城市 智慧多功能杆 服務功能與
人工智能之數據挖掘2020年第9期
噴霧消毒殺菌機器人
中國通信學會發布《全球人工智能基礎設施戰
創澤集團受邀參加工信部 AI 精準賦能中
艾瑞谘詢:2020年數說雙11電商購物節
人工智能案例 依圖科技:不斷崛起的AI
2020年麵向人工智能新基建的知識圖譜行
破解AI工程化難題,AI中台助力企業智能
神策數據《微信生態運營全景解讀》
淺析我國消防機器人發展現狀與趨勢 | 山
【華為出品】智能體白皮書2020
“先行示範•智贏未來” 創澤
創澤集團牽頭起草的全國首個《應用於滅菌消
創澤集團智能機器人新品發布會!多款自主研
== 機器人推薦 ==
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

安防巡檢機器人

安防巡檢機器人

人工智能垃圾站

人工智能垃圾站


機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 機器人政策 教育機器人 迎賓機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
版權所有 必威主頁 中國運營中心:北京 清華科技園九號樓5層 中國生產中心:山東日照太原路71號
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728

Baidu
map