[繁]結緣甘神神社03-	✌ 國漫【剑来 / 劍來	[繁]轉生貴族憑鑑定技
[繁]孤單一人的異世界	[繁]膽大黨04-	[繁]妻子變成小學生。

電腦新資訊	電腦軟體討論	電腦軟體資訊分享	電腦硬體討論	電腦硬體資訊分享	電腦萌化版	電腦系統 OS 討論	電腦程式設計
電腦設計技術交流	圖像設計及交流	各類下載工具教學	寬頻上網討論

返回列表

查看: 20587|回復: 1

[軟體新資訊]Google開發逐步蒸餾技術，小資料小模型也能打敗LLM[複製鏈接]

cancy

小學生(200/1000)

Rank: 2 Rank: 2

帖子: 558
積分: 529 點
潛水值: 31864 米

電梯直達

樓主

發表於 2023-9-23 10:12 AM|只看該作者|倒序瀏覽

若有安裝色情守門員，可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

本帖為轉載帖

Google開發逐步蒸餾（Distilling Step-by-Step）技術，以較少資料訓練專用小模型，效能即可優於少樣本提示語言模型，解決龐大模型的部署挑戰，同時也使小模型效能可超越大型語言模型

為了解決模型大小和訓練資料收集成本之間的權衡問題，Google現在發展一種稱為

下載: 訪客無法瀏覽下載點，請先註冊或登入會員

的技術，可用比一般方法少得多的資料，訓練用於特定任務的小模型，但是效能卻能優於少樣本提示語言模型（Few-Shot Prompted LLM）。

大型語言模型雖然功能強大，但是實際部署卻具有各種挑戰，Google提到，光是要部署一個1,750億參數的大型語言模型，專用基礎設施的GPU記憶體就至少需要350 GB。更不用說先進的語言模型參數可能高達5,000億個，所以供應商為了規避這類部署挑戰，通常會選擇部署較小的專用模型。

研究人員解釋，小型專用模型有兩種訓練方式，分別是微調（Fine-tuning）和蒸餾（Distillation）。微調使用人工註釋資料，更新預先訓練的BERT或T5等規模較小的模型。而蒸餾的概念則是將一個大型模型，或稱為教師模型的知識，轉移至一個比較小的學生模型，運用大型語言模型所生成的標籤，訓練相同但規模較小的模型，雖然蒸餾法可以讓學生模型的規模和複雜性都遠低於教師模型，效能卻可以接近或是超越教師模型。

但是要達到良好的效能，微調法需要人工生成標籤，這個過程既昂貴又繁瑣，而蒸餾法則需要大量未標記的資料，且收集資料本身就並非一件簡單的事。因此Google發展了逐步蒸餾法，這相對是一個簡單的機制，能夠讓研究人員以比標準微調或是蒸餾法少得多的訓練資料，訓練一個更小且專用於特定任務的模型，而且效能還可能可以優於少樣本提示語言模型。

少樣本提示語言模型是指，大型語言模型使用少量的樣本，並透過提示來完成任務的方法，像是要求語言模型完成翻譯任務，研究人員便可以提供少量的英翻中樣本，再給予新的提示問題，期望模型能夠依據範例正確翻譯新問題。

研究人員解釋，當大型語言模型被問到某些問題時，能夠透過推理並給出最終答案，這些中間的推理包含了可以完成任務需要的重要知識，但是小型模型需要大量資料才能學到這些知識。因此逐步蒸餾的核心想法，便是從大型語言模型中擷取有用的自然語言解釋，也就是中間的推理步驟，然後使用這些解釋更有效地訓練小型模型。

因此逐步蒸餾的第一步驟，是從大型語言模型中擷取解釋，研究人員會提供少數範例，這些範例包含問題、中間的解釋和答案，引導大型語言模型對新的問題產生相對應的解釋。第二階段則是利用第一階段取得的解釋訓練小型模型，小型模型學習由大型語言模型生成的中間推理步驟，便能夠更好地預測答案。

研究人員使用5,400億參數的PaLM大型語言模型，並選用T5作為特定任務的模型，實驗在不同自然語言處理任務的表現。透過逐步蒸餾法，使用較少的訓練資料就能超越標準微調方法的效果，甚至僅擁有2.2億參數的T5模型，在e-SNLI資料集表現就可超越5,400億參數的PaLM大型語言模型。

而在ANLI資料集上，只擁有7.7億參數的T5模型只使用整個資料集的80％，效果便以超越擁有5,400億參數的PaLM大型語言模型。這些結果證明了逐步蒸餾法即便使用小資料，小模型仍可以超越大型語言模型的效能。

...

瀏覽完整內容，請先註冊或登入會員

分享0收藏0支持0

JOY CHEN
Best regards

上傳頭像立即獲得 1 點積分。

使用道具檢舉

ddgo

中學生(1000/4000)

Rank: 3 Rank: 3 Rank: 3

帖子: 2358
積分: 2916 點
潛水值: 39175 米

頭香

發表於 2023-10-16 06:56 PM|只看該作者

成為伊莉的版主，你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛，那種滿足感等著你來嚐嚐喔。

雖然看得不是很懂，但這是不是意味著，未來個人電腦或手機不用上網，不用連到伺服器，也能自己作到GPT的能力？

如果瀏覽伊莉時速度太慢或無法連接，可以使用其他分流瀏覽伊莉，www01.eyny.com(02,03)。

使用道具檢舉

返回列表

Archiver|手機版|廣告|聯絡我們|廣告查詢|廠商合作|伊莉

GMT+8, 2024-11-5 08:33 AM

重要聲明：本討論區是以即時上載留言的方式運作，對所有留言的真實性、完整性及立場等，不負任何法律責任。而一切留言之言論只代表留言者個人意見，並非本網站之立場，用戶不應信賴內容，並應自行判斷內容之真實性。於有關情形下，用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。由於本討論區受到「即時上載留言」運作方式所規限，故不能完全監察所有留言，若讀者發現有留言出現問題，請聯絡我們。有權刪除任何留言及拒絕任何人士上載留言，同時亦有不刪除留言的權利。切勿上傳和撰寫侵犯版權(未經授權)、粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論，敬請自律。本網站保留一切法律權利。

		自動登錄	找回密碼或安全提問
密碼			註冊