Generative pre-trained transformer(GPT)
生成式預訓練轉換器(GPT)是由OpenAI開發的一系列自然語言生成模型,可以完成各種自然語言處理任務,例如文字生成、代碼生成、影片生成、文字問答、圖像生成、論文寫作、影視創作、科學實驗設計等。它是基於大量語料資料上訓練的模型,可以生成類似於人類自然語言的文字。模型的初始預訓練是在大型文字語料庫上進行的,學習預測文章中下一個單詞,為模型在有限的任務特定資料的下游任務中表現良好提供了堅實的基礎。
歷史
生成式預訓練(GP)是機器學習應用程式中的一個常用概念,但直到2017年由Google發明的Transformer架構才使其成為可能。這種發展導致了大型語言模型的出現,它們是預訓練的轉換器(PT),但並非設計用於生成文本。在2018年,OpenAI發表了題為「通過生成式預訓練改善語言理解」的文章,其中介紹了第一個生成式預訓練轉換器(GPT)系統。在基於Transformer的架構出現之前,性能最好的神經NLP模型通常採用從大量手動標記的數據中進行監督學習,這限制了它們在沒有好的標註數據集上的使用,也使得訓練極大的語言模型變得非常昂貴和耗時。
生成式預訓練是一種機器學習技術,用來讓電腦學習理解和產生自然語言。Google在2017年發明了一種名為Transformer的架構,進一步發展了預訓練的轉換器(PT)這項技術,也造就了大型語言模型,像是BERT和XLNet。但這些模型不能用於生成自然語言。幸好,OpenAI在2018年推出了第一個能夠生成自然語言的預訓練模型,名為GPT系統。
以前,自然語言處理模型的表現主要依賴於監督學習,需要使用大量手動標記的數據。這樣不但限制了模型在沒有人工標註的資料集上的使用,也導致了在沒有足夠文字資料的語言中應用這些模型非常困難。此外,訓練超大模型也非常昂貴和耗時。相比之下,GPT使用了一種半自動監督方法,先在沒有人工標註的資料上訓練模型,然後再使用少量人工標註的資料進行調整。這樣做可以讓模型學習更多自然語言的模式,也讓大型模型的訓練更為可行。
總的來說,GPT技術讓電腦能夠更好地理解和產生自然語言,而且可以在較少的人工標註資料的情況下進行學習和訓練,大大提高了效率和可行性。