轉換器的生成式預訓練模型
生成式預訓練轉換器(GPT)是一種重要的生成式人工智慧框架,也是一種大型語言模型(LLM),能夠生成新穎的類人文本。它是基於 Transformer 架構的人工神經網路,在未標記的大型數據集上進行預訓練。美國人工智慧組織 OpenAI 在 2018 年引入了這個概念和第一個這樣的模型,其基礎模型被按順序編號為「GPT-n」系列,其中最新的 GPT-4 已於 2023 年 3 月發布。
現在許多語言模型都具有相似的特點,有時也被稱為 GPT。這種模型已成為更多特定於任務的 GPT 系統的基礎,例如 ChatGPT 聊天機器人服務。其他人開發的此類模型也經常使用「GPT」這個術語,例如由 EleutherAI 創造的一系列受 GPT-3 啟發的模型,以及由 Cerebras 創建的一系列七個模型。
此外,不同行業的公司在各自領域開發了特定於任務的 GPT,例如 Salesforce 的「EinsteinGPT」(用於客戶關係管理)和彭博社的「BloombergGPT」(用於金融)。
OpenAI用於構建大規模生成系統的半監督方法
首先是使用Transformer模型涉及兩個階段:
一個無監督的生成「預訓練」階段,使用語言建模目標設置初始參數,以及一個監督判別「微調」階段,使這些參數適應目標任務。在預訓練階段,GPT使用Transformer網絡將大量未標註的文本作為輸入,並生成預測下一個單詞的輸出。這種預測下一個單詞的方法稱為「語言建模」。通過大量的訓練,GPT可以生成類似於人類自然語言的文本。在微調階段,GPT使用帶有標籤的少量數據進行微調。在這個過程中,GPT通過微調自身的參數,以使得在下游任何任務中都能更好地表現。
產生文字的應用
GPT模型能夠生成各種自然語言的文字,因此被廣泛應用在各種自然語言處理的任務上,包括:
- 文字生成:如自動寫作、自動翻譯、情感分析等。
- 影片生成:如自動字幕、自動配音等。
- 圖像生成:如生成對圖片的描述、圖片標註等。
- 論文寫作:如自動寫出文章摘要、研究結果等。
- 影視創作:如自動編寫劇本、對白等。