作者:張書元 / 臺灣大學計算機及資訊網路中心作業管理組行政專員
隨著網路科技的發展與大資料時代來臨,人們對文本摘要的需求日益增加,文本摘要目的是將原始文章濃縮成簡短片段,有助人們快速選讀文章或取得重點資訊。在人工智慧的研究領域中,生成式人工智慧的出現讓我們知道預訓練語言模型不只儲存語言知識,還可儲備基礎知識,加上大數據,當生成式AI系統外接多種工具,如網路搜尋器、計算機等,即可生成答案給使用者。本文章嘗試介紹生成式AI在自動文本摘要的應用。
文啟
如今科技讓人們可以方便地在多樣化的平台上分享自己的觀點。這些平台有豐富,多種形式表示,包括文字、圖像、視訊和音訊,特別是關於文本文件(例如:新聞、電子書、科學論文、部落格等),這些資訊藉由無遠弗屆的網際網路傳播到世界各個角落,然而,資訊流通的便利性提供豐富的資訊來源,但同時帶來另一個問題:Information overloading「資訊泛濫」。如何透過電腦計算能力,快速匯總資訊以生成簡短的摘要,縮減人類過濾、尋找資訊的時間。
如何緩解資訊過載問題,是人工智慧領域研究的熱點和困難之一。其中,文字「降維」的摘要生成是一個熱門且重要的領域,目標是將一段文字或文本轉換為包含關鍵資訊的摘要。往昔文本摘要是透過人工來完成,文本數量的激增使其工作繁重且效率低,人們開始考慮如何利用人工智慧科技來協助。
自從人工智慧(artificial intelligence)一詞約翰·麥卡錫於1956年在達特茅斯會議中提出,為了實現人工智慧,不同學派學者提出了不同理論和實踐方式,其中最先取得優勢的便是符號主義,其本質是邏輯加上規則,然而眾人逐漸發現…,世上規則何其多,不太可能以有限的規則和邏輯教會電腦所有問題的解法。
為了解決人工智慧只能 "說一做一" 式的學習,研究人員紛紛提出了各種新理論來提升其「智慧」,當中讓電腦具備自我學習能力,可以從資料中自行找出規律,並建立解決問題的方法,這些方法統稱為機器學習,成為明日新星。但機器學習需仰賴大量的訓練資料和龐大的運算能力,因此直到計算機能夠提供高效能的運算能力,此時機器學習開始顯現出其無限的可能性。
2006年,傑佛瑞·辛頓 (Geoffrey Hinton) 提出了新的類神經網路訓練方法,改善類神經網路並成功訓練多層的類神經網路,此時深度學習成為顯學。2012年,Hinton的學生Alex Krizhevsky提出以圖形處理器(Graphical Computing Unit)來做為訓練多層類神經網路的工具,2014年DeepMind團隊結合了深度學習和行為主義的增強式學習,引爆第三次人工智慧熱潮 [4]。OpenAI於2022年11月聊天機器人(ChatGPT) 的誕生讓生成式人工智慧(Generative Artificial Intelligence,下稱「生成式AI」)躍然成為全球火熱的話題。
生成式AI是指那些能創建全新內容和構思的AI技術和演算法,內容生成包括對話、故事、圖像、影片和音樂等。生成式AI系統靈活的原因,是因為它們不需要經由程式設計明確指示機器如何學習,而是讓電腦讀取大量資料。電腦自己訓練,自己識別資料中的模式,從所學到的知識中得出結論。而這樣的模式也讓通用性的人工智慧漸露曙光。廣泛應用這項技術的軟體有Dall-E 2、GPT-4 和 Copilot等,目前正徹底改變我們的工作和互相溝通的方式。
表1 生成式 AI 和分辨式 AI 對比
項目
|
分辨式AI
|
生成式AI
|
技術
|
利用大量標記或選定的資料來訓練演算法進行識別或者分類數據
|
通過讓機器學習模型研究歷史數據的模式,以先進的深度學習技術去創造出一個全新生成的成品,
|
發展程度
|
底層技術相對成熟,在許多領域已有廣泛商業應用
|
2014年至今發展迅速,堪稱等比級數的倍數爆發,已在文本和圖片生成等廣泛應用
|
應用方向
|
人臉辨識,推薦系統,以及機器人和自動駕駛
|
提供診斷和個性化的治療方案,市場營銷,客戶服務,
設計 (繪畫及影像生成)
|
最早的自動文本摘要方法是由Luhn 1958年提出,其本質為節录式(extractive)摘要,使用各種特徵為句子打分數,例如利用詞語頻率或相似度找出含有關鍵詞的句子來排序出重要語句,組成摘要,常見的特徵包括使用字詞頻率、位置(Baxendale, 1958)及關鍵詞(Edmundson, 1969)等。初期的單文件摘要多以節录式摘要為主,使用特徵值來評估選取的字詞或句子。隨著技術發展,簡易貝氏法、隱藏式馬可夫模型、邏輯線性模型、統計機器學習等常見的技術亦逐漸使用。
與節录式摘要相比,萃取式(abstractive)摘要在思想上更接近人工摘要的過程(如表2所示),因而具有重要的研究意義。經典的生成式方法需結合語言學知識和領域知識進行推理和判斷。在文本分析階段,利用知識庫中的字典、文法規則對文本進行語法分析,形成語法結構樹作為輸出根據。但受限于傳統方法很難實現萃取式摘要所需的文本表徵、文本理解和文字生成能力,使得該領域的發展一直比較緩慢,萃取式的效果通常也差於節录式。伴隨著深度學習方法的發展,基於神經網路模型的萃取式摘要演算法有了令人注目的發展
表2
自動摘要與人工摘要對比
|
節录式自動摘要
|
海灣刊物對美國新當選總統柯林頓,能否幫助振興中東和平進程感到懷疑,但也確實進行了接觸希望
|
人工摘要
|
海灣刊對柯林頓是否會恢復和平進程,持懷疑態度
|
萃取式自動摘要
|
海灣新聞界對柯林頓恢復和平進程的前景,持懷疑態度
|
近年深度學習方法在萃取式自動摘要中不斷研究與應用,透過其深層神經網路來代表和處理輸入的資料,模型不再完全依賴特定領域的特徵值。實用性得以大幅提升。在該類方法中經典模型是序列到序列模型 (Sequence-to-sequence, seq2seq) 是由兩篇在2014年文章描述seq2seq的主要概念及模型架構(Chung et al., 2014; Sutskever et al., 2014)。Seq2Seq模型基本主要結構由編碼器(encoder)和解碼器(decoder)組成,編碼器和解碼器通常由CNN,RNN,或LSTM實現,如下圖所示。編碼器將輸入序列的語義資訊于以濃縮成輸入序列 (context vector),解碼器則從輸入序列中提取重要內容,產生文字摘要。同時,為了使模型的效果進一步提升,解決生成摘要時出現的不通順、重複詞句等問題,一般還會加入注意力機制函數提升訓練效率。
Seq2Seq模型基本工作原理如下:
- 選擇一個大型語料庫作為訓練集和測試集,
- 選擇合適的編解碼器,如RNN和LSTM等,將輸入文字編碼到語意空間,得到一個固定長度的語意提示向量 (context vector),
- 選擇合適的解碼器,其作用是相當於一語言模型,用來產生摘要詞語(summary word),
- 設定合適的注意力機制,基於輸入中「注意力」較高的字詞來預測輸出文字序,此外還包括結合強化學習來提升模型訓練效果。
結論
隨著時代改變與技術發展,人們接收到的資訊量大增,如何協助人們快速抓取到信息是一大重點,自動文本摘要便是其一重要課題。基於深層神經網路模型的生成式自動文摘取得了令人矚目的發展,在DUC測試集上已經超越了最好的節录式摘要模型,未來的自動文摘研究也期望生成式AI帶領。
參考資訊
[1] Wikipedia. Automatic summarization[EB/OL]. [2018-11-03]. https://en.wikipedia.org/wiki/Automatic_summarization
[2] Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
[3] Baxendale P E. Machine-made Index for Technical Literature——an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361.
[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [OL]. [2020-03-05].
[5] Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles, 1959: 1-142.
[6] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[OL]. [2020-03-05]. https://arxiv.org/abs/1409.3215.
[7] Chung, J., Gulcehre, C., Cho, K., & Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling.
[8] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Paper presented at the Advances in neural information processing systems
[9] 淺顯易懂的AI人工智慧簡史https://flagtech2020.medium.com/%E6%B7%BA%E9%A1%AF%E6%98%93%E6%87%82%E7%9A%84-ai-%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E7%B0%A1%E5%8F%B2-d3fd8801da4f