創澤機器人
CHUANGZE ROBOT
 
  當前位置:首頁 > 新聞資訊 > 機器人知識 > 深度解析大規模參數語言模型Megatron-BERT  
 

深度解析大規模參數語言模型Megatron-BERT

來源:智東西      編輯:創澤      時間:2020/6/18      主題:其他   [加盟]
大家好,我是NVIDIA解決方案架構師王閃閃。今天主要和大家分享兩個部分的內容:

1.  BERT模型深度解析

2.  大規模參數的語言模型Megatron-BERT

我們今天主要是溫故知新我先帶大家複習一下BERT模型的整體架構,內容不會特別偏數學,主要把BERT一些要點給大家說清楚,包括BERT的輸入/輸出以及具體它是怎麼工作的,然後介紹NVIDIA基於BERT開發出的一係列好的模型。

首先介紹一下自然語言處理常見的應用方向,第一類是序列標注,比如命名實體的識別、語義標注、詞性標注,循環智能也是用了序列標注。第二類是分類任務,如文本分類和情感分析,這個方向目前在量化金融領域,尤其是對衝基金上應用性很強,尤其是情感分析。我記得3、4年前,有一條新聞說斯坦福大學的一個碩士生,暑期在他的宿舍裏用幾塊GPU卡,自己搭建了一個小的超級計算機,他把Twitter上的信息全部錄下來,每天更新。他使用了BERT進行情感分析,把每天每個人的信息分成三類:positive積極、neutral中性、negative消極。他把三類情感的量化信息和當天納斯達克股票的升跌情況彙總,進行了統計分析,發現如果Twitter上的信息大部分都是積極的,那麼股票就有很大的概率會上漲。我們現在把這類數據叫做情感分析因子,它在股票分析上是一個特別重要的推進方向,能讓模型越發準確。第三類NLP應用方向就是對句子關係的判斷,如自然語言的推理、問答係統,還有文本語義相似性的判斷。最後一類,是生成式任務,如機器翻譯、文本摘要,還有創造型的任務比如機器寫詩、造句等。

BERT模型深度解析

現在我們進入正題:對BERT的講解。要了解BERT,首先我們要說一下Transformer,因為BERT最主要就是基於Transformer和注意力機製,這兩點也是BERT能從GPT、RNN、LSTM等一係列架構中能脫穎而出的很大原因。Attention,專業的叫法是Attention Mechanism,Attention是一個Encoder+Decoder的模型機製。Encoder-Decoder模型是在深度學習中比較常見的模型結構:在計算機視覺中這個模型的應用是CNN+RNN的編輯碼框架;在神經網絡機器翻譯的應用是sequence to sequence模型,也就是seq2seq。而編碼(Encoder)就是將序列編碼成一個固定長度的向量,解碼(Decoder)就是將之前生成的向量再還原成序列。

那麼問題來了,為什麼要在Encoder-Decoder模型機製中引入Attention呢?因為 Encoder-Decoder模型有兩個比較顯著的弊端:

一是Encoder會把序列信息壓縮成一個固定長度的向量,那麼在Encoder的輸出中,我們暫且把它叫做語義編碼c,c就有可能無法完全地表示出全部序列的信息,尤其是當信息特別長時。

二是先輸入到網絡中的信息會被後輸入的信息覆蓋掉,輸入的信息越長,對先前輸入信息的遺忘程度就越大。因為這兩個弊端,Decoder在解碼的一開始就沒有獲得一個相對完整的信息,也就是語義編碼c沒有一個相對完整的信息輸入,那麼它解碼的效果自然就不好。有的同學可能會說想要解決RNN記憶力差的問題,可以考慮用LSTM。我們的確可以考慮LSTM,但LSTM對超長距離的信息記憶,效果也不是很好。

我們再來看看Attention為什麼能夠解決這個問題。Attention,顧名思義是注意力。它是模仿人類的注意力,人類在處理一個問題時會把注意力放到那個特別重要的地方,比如我們在短時間內去看一張照片,第一眼落到照片上的位置可能是某個建築物或者是某個人,這取決於我們不同的目的和興趣等。我們不會在短時間之內記清楚甚至是看清楚照片上的全部細節,但是我們會將注意力聚焦在某個特定的細節上並記住它。Attention模型最終輸出結果也是能夠達到這麼一個效果。 

Attention的機製最早也是應用在計算機視覺上麵,然後是在自然語言處理上麵發揚光大。由於2018年在GPT模型上的效果非常顯著,所以Attention和 Transformer才會成為大家比較關注的焦點。之所以Attention的能力在NLP領域得到了徹底釋放,是因為它解決了RNN不能並行計算的弊端,Attention使其每一步的計算不依賴於上一步的計算,達到和CNN一樣的並行處理效果。並且由於Attention隻關注部分的信息,所以它的參數較少,速度就會快。其次RNN記憶能力較差,所以大家一開始想到的解決方式都是用LSTM和GRU(Gated Recurrent Unit)來解決長距離信息記憶的問題,但是都沒有起到很好的效果。Attention由於隻關注長文本中的一個小部分,可以準確地識別出關鍵信息,所以取得了特別不錯的效果。

下麵我們來說一下Attention是怎麼實現的聚焦。主要是因為它是采用了雙向的RNN,能夠同時處理每個單詞前後的信息。在Decoder中,它首先計算每一個Encoder在編碼隱藏層的狀態,然後會和Decoder隱藏層狀態比較,做出相關程度的評定。得到的權值會通過softmax歸一化得到使用的權重,也就是我們前麵所說的編碼向量c。然後對Encoder中對應的不同狀態的權重進行加權求和,有了編碼c之後,我們就可以先計算Decoder隱藏層的狀態,然後再計算Decoder的輸出。這就是一個比較完整的在BERT當中運用Attention以及Encoder-Decoder模型的使用案例。Attention根據計算區域、權值的計算方式等會有很多不同變種。

不止是在NLP領域,在其他很多領域中,Transformer的模型由於很好用都是大家首選的,主要的一個運用機製就是Attention。我們之後會說到的Transformer模型會用到 Multi-head Attention和Self-Attention。首先說一下Self-Attention,Self-Attention是將原文中每個詞和該句子中所有單詞之間進行注意力的計算,主要是為了尋找原文內部的關係。對應到閱讀理解任務,這個模型就可以判定一篇文章中的兩段話是不是同一個意思。Multi-head Attention,則是對一段原文使用多次的注意力,每次會關注到原文的不同部分,相當於多次地在單層中使用Attention,然後把結果給拚接起來。 




創澤智能機器人
創澤智能機器人
中國智能服務機器人領軍企業,涵蓋商用、家庭、特種等多用途的智能機器人產品體係,十幾年行業應用解決方案提供商



億級視頻內容如何實時更新

基於內容圖譜結構化特征與索引更新平台,在結構化方麵打破傳統的數倉建模方式,以知識化、業務化、服務化為視角進行數據平台化建設,來沉澱內容、行為、關係圖譜,目前在優酷搜索、票票、大麥等場景開始進行應用

基於真實環境數據集的機器人操作仿真基準測試

通過使用仿真和量化指標,使基準測試能夠通用於許多操作領域,但又足夠具體,能夠提供係統的有關信息

看高清視頻,如何做到不卡頓

優酷智能檔突破“傳統自適應碼率算法”的局限,解決視頻觀看體驗中高清和流暢的矛盾

京東姚霆:推理能力,正是多模態技術未來亟需突破的瓶頸

姚霆指出,當前的多模態技術還是屬於狹隘的單任務學習,整個訓練和測試的過程都是在封閉和靜態的環境下進行,這就和真實世界中開放動態的應用場景存在一定的差異性

利用時序信息提升遮擋行人檢測準確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時序信息來輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個數據集取得了業界領先的準確率

基於網格圖特征的琵琶指法自動識別

根據各種指法的具體特點,對時頻網格圖、時域網格圖、頻域網格圖劃分出若幹個不同的計算區域,並以每個計算區域的均值與標準差作為指法自動識別的特征使用,用於基於機器學習方法的指法自動識別

知識圖譜在個性化推薦領域的研究進展及應用

新加坡國立大學NExT中心的王翔博士分析了知識圖譜在個性化推薦領域的應用背景,並詳細介紹了課題組在個性化推薦中的相關研究技術和進展,包括基於路徑、基於表征學習、基於圖神經網絡等知識圖譜在推薦係統中的融合技術

重構ncnn,騰訊優圖開源新一代移動端推理框架TNN

新一代移動端深度學習推理框架TNN,通過底層技術優化實現在多個不同平台的輕量部署落地,性能優異、簡單易用。騰訊方麵稱,基於TNN,開發者能夠輕鬆將深度學習算法移植到手機端高效的執行,開發出人工智能 App,真正將 AI 帶到指尖
 
資料獲取
新聞資訊
== 資訊 ==
» 國標《智慧城市 智慧多功能杆 服務功能與
» 人工智能之數據挖掘2020年第9期
» 噴霧消毒殺菌機器人
» 中國通信學會發布《全球人工智能基礎設施戰
» 創澤集團受邀參加工信部 AI 精準賦能中
» 人工智能案例 依圖科技:不斷崛起的AI
» 2020年麵向人工智能新基建的知識圖譜行
» 破解AI工程化難題,AI中台助力企業智能
» 淺析我國消防機器人發展現狀與趨勢 | 山
» 【華為出品】智能體白皮書2020
» “先行示範•智贏未來” 創澤
» 創澤集團牽頭起草的全國首個《應用於滅菌消
» 創澤集團智能機器人新品發布會!多款自主研
» 人工智能人才發展報告:亞太地區創新與招聘
» 創澤集團智能機器人“創創”受邀參加進博會
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

安防巡檢機器人

安防巡檢機器人

人工智能垃圾站

人工智能垃圾站

== 信息推薦 ==
 

機器人招商  Disinfection Robot   消毒機器人公司  機器人應用  智能垃圾站  消毒機器人價格  消毒機器人廠家  機器人政策  教育機器人  迎賓機器人  機器人開發  清潔機器人  消毒機器人  講解機器人  安防巡檢機器人  霧化消毒機器人  紫外線消毒機器人  地圖 
版權所有 © 必威主頁     中國運營中心:北京·清華科技園九號樓5層     中國生產中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728

機器人
Baidu
map