ChatGPT 探索 RLHF 和 GPT 的完美結合

發布時間:2024-05-08 閱讀:3583

前言。

ChatGPT已經發布一周了,熱度依舊有增無減,ChatGPT也展現了各種神奇的力量,給各大網友“出謀劃策”,有的寫週報,有的寫表現甚至寫**,作為NLP從業者,除了體驗樂趣之外,當然也要了解其背後的原理, 本文將從技術細節中為您一一揭開謎底。

ChatGPT的前世。

在ChatGPT問世之前,相信大家已經體驗過很多智慧型問答機械人,評價大多是“人工智障”,而ChatGPT給人的感覺是,一夜之間突然如春風般,萬樹梨花盛開,AI怎麼突然變得如此智慧型! 事實上,ChatGPT的成功,可以說是2年前後期對GPT3+的RLHF優化。

接下來,我們簡單回顧一下GPT3,GPT3是乙個基於Transformer Decoder的生成模型,其引數規模已經達到1750億,並且用45TB的資料進行訓練,它的預訓練任務是“句子紙牌”,給定前乙個文字持續到下乙個單詞,所以只要有乾淨的文字資料,就可以作為模型的訓練資料。 雖然任務很簡單,但由於模型規模中的資料量很大,訓練成本已經達到了數千萬美元,而且在模型訓練過程中出現了乙個小插曲,研究人員在**中發現了乙個小bug,但由於訓練成本高,bug沒有得到修復。

GPT3 首次將模型規模提公升到 1000 億級,開闢了一條大模型賽道,其次也為 NLP 帶來了新的正規化提示,為 GPT3 帶來了 0 樣本和小樣本的學習能力,也為 BERT BASE 級別模型帶來了一些新的玩法。

GPT3在AI圈內轟動了一,但並沒有出圈,其關鍵原因是它有嚴重的弱點。

可能存在偏差,因為它是在現有資料上訓練的,如果訓練資料中存在任何偏差,那麼其結果也會受到影響。

該模型的訓練和使用存在安全漏洞,因為它儲存了使用者資料,並且它的使用也可能導致機器無法控制。

這些問題統稱為錯位,隨著語言模型規模的擴大,模型的輸出難以滿足使用者的需求,而對於生成模型來說,如果涉及到取樣演算法生成不同的答案,那麼對於生成的內容來說,這就更難控制了,那麼這個問題該如何解決呢? 接下來,讓我們來看看ChatGPT是如何做到的。

可以控制的ChatGPT

在 ChatGPT 出現之前,OpenAI 也發表了一篇 ***訓練語言模型遵循人類反饋指令的文章,一看這個標題就能感覺到人工標記是必不可少的,這個 *** 提出了對 GPT3 的改進稱為 InstructGPT,INSTRUCTGPT 的目標是解決 GPT3 的“解決方案稱為 RLHF, 它包括 3 個步驟。

1、collect demonstration data, and train a supervised policy

GPT3 問世後,OpenAI 提供了 API,付費後可以整合到自己的專案中,使用者在使用時直接使用提示方式做 0 個樣本或小樣本,這個過程讓 OpenAI 可以收集大量的提示資料,研究人員取樣其中的一部分提示,並手動回答這些提示, 而得到的結果稱為演示,即標記資料,然後使用這些演示繼續微調 GPT3,這個過程稱為監督微調 (SFT)。GPT3 的預訓練階段使用了大量來自網際網絡的資料,質量參差不齊,監督學習的目的是讓模型生成更多符合人類期望的答案,從而盡可能避免產生有害資訊。

2、collect comparison data, and train a reward model

但畢竟監督學習需要標註大量資料,OpenAI再豐富也做不到這樣,所以OpenAI想到了一種方法,做乙個模型來判斷GPT3輸出是否存在問題。 所以有了SFT模型後,繼續取樣提示,讓SFT模型輸出多個不同的輸出,手動對輸出進行排序,並拿著這個結果訓練乙個RM(獎勵模型),這個模型和SFT結果一樣,只是大小更小,6B級模型比175B級模型更穩定。 請注意,這裡的輸出是零均值,因此只要 RM 模型輸出的值大於 0,那麼 GPT3 生成的內容就被認為是正常的。

最後,讓我們看一下損失函式,其中 r r

它代表 rm,x xx 代表使用者輸入的內容,y yy 代表不同的答案,請注意有乙個組合數字 (k2) binom(

k 在訓練時,要把同乙個組合數的內容放到乙個批次裡,否則會出現過擬合,k 通常取乙個介於 4 到 9 之間的值,可以看出這其實是乙個成對模型。

3、optimize a policy against the reward model using ppo

有了 RM,下一步就是利用 RM 的輸出結果反饋 SFT 模型,思路是利用 RM 的輸出值作為獎勵,並根據 RL 的思想進行優化,策略:將文字輸出到 GPT 並輸出結果的過程。

action:字典。

observation:輸出文字。

目標函式:包含三個專案,其中 r r

是RM的輸出分數,第二項是KL罰分項,目的是使RL模型的輸出結果和SFT模型的輸出結果不要太大,第三項是保證RL模型能夠保留語言模型的能力, 整個模型稱為 PPO-PTX。有了這樣的模型框架,就有了一種新的提示模型,可以實現連續的自我迭代。

當有很多人造的東西時,就會有很多智慧。

事實上,RLHF的優化過程中有很多標註任務,OpenAI非常重視標註過程,他們組建了一支40人的外包標註團隊,並根據以下標準對標註人員進行了嚴格的篩選:

為了保證標註者對資訊敏感,OpenAI首先準備了乙個自標註資料,其中包含一些敏感資訊,標註者的標註結果需要盡可能與OpenAI認為的敏感資訊一致。

排序階段的標註需要盡可能與 OpenAI 研究人員的標註排序保持一致。

OpenAI 構建了一些敏感的提示,供注釋者編寫演示,研究人員給每個演示乙個 1-7 分的李克特量表,並計算出注釋者的平均分數。

詢問注釋者哪些主題或文化群體能夠更好地識別敏感主題。

基於以上四個標準,OpenAI篩選出乙個標註團隊,表明只有高質量的資料才能為模型帶來質的改進。

最後,從整體效果來看,基於PPO-PTX的模型效果有了明顯的提公升,尤其是6B尺度模型效果優異。

思考。 ChatGPT走紅後,大家都在討論ChatGPT是否可以應用到自己的業務中,或者是否可以將RL應用到自己的業務中,以減少一些人力標籤成本。

ChatGPT比較大,直接落地還是很困難的,光是算力就已經擋住了大部分人,但從上面的渲染圖中也可以看出,6B比例模型在RLHF的思路下效果很好,所以如果真的想往這個方向落地,可以考慮6B比例模型, 並且有許多相同大小的開源語言模型可以嘗試。但是,RLHF貼標的成本並不低,是否負擔得起也需要提前考慮。

RL真的適合NLP應用程式碼嗎? 我覺得還是要看場景,在ChatGPT中RL其實解決了錯位的問題,GPT3本身就已經有很強的生成能力,但很容易“胡說八道”,RL的任務只是糾正GPT3的這個缺點,RM的上限決定了GPT3能在多大程度上改善這個缺點。 因此,RL並不是靈丹妙藥,在我看來,ChatGPT更多地使用RL是為了盡可能節省人工標註的成本。

ChatGPT應該只是OpenAI的壓軸大戲,讓我們一起期待GPT4在23年初能給我們帶來什麼樣的驚喜。

版權宣告:本文為CSDN博主愛編輯原創文章**太好了,遵循CC 40 BY-SA 版權協議,**請附上原始來源鏈結和本宣告。

原文鏈結:

高速率體驗5G應用場景! OPPO明年將推出3000元以上的全5G機型

近日,在烏鎮舉行的第六屆世界網際網絡大會上,G技術成為被提及最多的詞。據中國電信浙江負責人介紹,烏鎮片區已實現G網路室外全覆蓋,核心支撐區域室內深度覆蓋。走在烏鎮,人們可以隨時隨地以高頻寬 低時延 大連線的方式連線到中國電信的G網路。由此我們也可以看出,G不再是概念中的乙個詞,而是已經走進了我們的日...

SimX與美國空軍合作,探索先進的VR醫療模擬訓練

VR醫療模擬解決方案提供商Simx已同意向美國空軍投資 , 美元的合作,用於探索高階 VR 醫學模擬培訓 MST 的新興領域。此次合作旨在圍繞美國空軍特種作戰司令部 AFSOC 城市和技術搜尋和救援 傷員疏散和戰鬥護理的三個關鍵培訓的 VR MST 需求進行創新。此次合作是SIMX虛擬戰備學習 Va...

在東南亞,小公尺與店主合作,探索“品牌價值走出去”。

中國, 年 月 日 東南亞電商平台 Shopee 近日發布 個超級品牌的每日戰報。知名一線手機品牌小公尺繼Shopee之後超級購物節後,成為全平台手機品牌排行榜冠軍。隨著東南亞的快速發展,在東南亞走出國門,不再只是賣東西。對於品牌來說,需要移植原有的品牌力量,在當地消費群體中建立影響力和創造價值。經...

羅技的新滑鼠 G502 X 和 G502 有什麼區別? 在一篇文章中理解它

外設大廠商羅技 Logitech 於月發布了 遊戲滑鼠G X,這是老款G滑鼠的公升級版,在很多方面都進行了公升級和改進。那麼這款新款G X和老款G有什麼區別,下面就讓我們來看看吧。這次共發布了有線 無線和無線RGB三個版本,還有乙個新的白色版本,有線和無線版本都有黑色和白色可供選擇。首先,在造型上,...

市總工會舉辦“招商引資實踐與探索”專題講座。

市總工會舉辦 招商引資實踐與探索 專題講座。為進一步加深全體幹部職工對招商引資工作的認識,增強做好招商引資工作的能力,月日上午,市總工會召開第三十四屆 陽泉市工會講堂 暨優化營商環境政策,法規和業務知識培訓。市總工會黨組書記 常務副主席成繼喜出席講座並致辭,市總工會黨組成員 副主席張建軍主持講座。石...