什么是文本摘要?為什么要有注意力機制?
2020-08-27 09:34
深度學習 視覺
關注

建立Tokenizer
通過分詞器生成詞匯表,并將單詞文本序列轉為數值序列,方便計算機計算。
模型建立
我們可以選擇是否讓LSTM在每個時間步都會生成隱藏狀態h和記憶單元狀態c。
選擇LSTM是否僅生成最后一個時間步的隱藏狀態h和記憶單元狀態c。
選擇LSTM相互堆疊提高模型效果。
選擇雙向LSTM,可以雙向處理文本數據,獲取更加豐富的上下文信息。
使用beam search strategy代替貪婪方法argmax。
根據BLEU分數評估模型的性能。
可以選擇指針生成網絡,
因為整數序列采用獨熱編碼的方式,所以損失函數采用了稀疏交叉熵,對內存友好。
數學理解注意力機制
編碼器為源文本序列每一個時間步j都生成了一個隱藏狀態值hj。
相似的工作,解碼器為目標文本每一個時間步i都生成了隱藏狀態值si。
alignment score: 。用這個分數表示源文本中的第j步單詞與目標文本中第i步單詞的關聯度。可以用hj與si來計算這個分數值 根據所使用的得分函數的類型,有不同類型的注意力機制。這里列舉一些流行的注意力機制:

使用softmax函數對注意力參數的值進行歸一化。
計算注意力權重與編碼器hj的隱藏狀態乘積的線性總和,以產生注意力上下文向量Ci。

將注意力上一下文向量Ci與目標隱藏層向量si級聯以產生新的注意力隱藏層向量Si。
將注意力隱藏層向量傳入密集層產生yi。
聲明:
本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













