ChatGPT 探索 RLHF 和 GPT 的完美結合

前言。

ChatGPT已經發布一周了，熱度依舊有增無減，ChatGPT也展現了各種神奇的力量，給各大網友“出謀劃策”，有的寫週報，有的寫表現甚至寫**，作為NLP從業者，除了體驗樂趣之外，當然也要了解其背後的原理，本文將從技術細節中為您一一揭開謎底。

ChatGPT的前世。

在ChatGPT問世之前，相信大家已經體驗過很多智慧型問答機械人，評價大多是“人工智障”，而ChatGPT給人的感覺是，一夜之間突然如春風般，萬樹梨花盛開，AI怎麼突然變得如此智慧型！事實上，ChatGPT的成功，可以說是2年前後期對GPT3+的RLHF優化。

接下來，我們簡單回顧一下GPT3，GPT3是乙個基於Transformer Decoder的生成模型，其引數規模已經達到1750億，並且用45TB的資料進行訓練，它的預訓練任務是“句子紙牌”，給定前乙個文字持續到下乙個單詞，所以只要有乾淨的文字資料，就可以作為模型的訓練資料。雖然任務很簡單，但由於模型規模中的資料量很大，訓練成本已經達到了數千萬美元，而且在模型訓練過程中出現了乙個小插曲，研究人員在**中發現了乙個小bug，但由於訓練成本高，bug沒有得到修復。

GPT3 首次將模型規模提公升到 1000 億級，開闢了一條大模型賽道，其次也為 NLP 帶來了新的正規化提示，為 GPT3 帶來了 0 樣本和小樣本的學習能力，也為 BERT BASE 級別模型帶來了一些新的玩法。

GPT3在AI圈內轟動了一，但並沒有出圈，其關鍵原因是它有嚴重的弱點。

可能存在偏差，因為它是在現有資料上訓練的，如果訓練資料中存在任何偏差，那麼其結果也會受到影響。

該模型的訓練和使用存在安全漏洞，因為它儲存了使用者資料，並且它的使用也可能導致機器無法控制。

這些問題統稱為錯位，隨著語言模型規模的擴大，模型的輸出難以滿足使用者的需求，而對於生成模型來說，如果涉及到取樣演算法生成不同的答案，那麼對於生成的內容來說，這就更難控制了，那麼這個問題該如何解決呢？接下來，讓我們來看看ChatGPT是如何做到的。

可以控制的ChatGPT

在 ChatGPT 出現之前，OpenAI 也發表了一篇 ***訓練語言模型遵循人類反饋指令的文章，一看這個標題就能感覺到人工標記是必不可少的，這個 *** 提出了對 GPT3 的改進稱為 InstructGPT，INSTRUCTGPT 的目標是解決 GPT3 的“解決方案稱為 RLHF，它包括 3 個步驟。

1、collect demonstration data, and train a supervised policy

GPT3 問世後，OpenAI 提供了 API，付費後可以整合到自己的專案中，使用者在使用時直接使用提示方式做 0 個樣本或小樣本，這個過程讓 OpenAI 可以收集大量的提示資料，研究人員取樣其中的一部分提示，並手動回答這些提示，而得到的結果稱為演示，即標記資料，然後使用這些演示繼續微調 GPT3，這個過程稱為監督微調（SFT）。GPT3 的預訓練階段使用了大量來自網際網絡的資料，質量參差不齊，監督學習的目的是讓模型生成更多符合人類期望的答案，從而盡可能避免產生有害資訊。

2、collect comparison data, and train a reward model

但畢竟監督學習需要標註大量資料，OpenAI再豐富也做不到這樣，所以OpenAI想到了一種方法，做乙個模型來判斷GPT3輸出是否存在問題。所以有了SFT模型後，繼續取樣提示，讓SFT模型輸出多個不同的輸出，手動對輸出進行排序，並拿著這個結果訓練乙個RM（獎勵模型），這個模型和SFT結果一樣，只是大小更小，6B級模型比175B級模型更穩定。請注意，這裡的輸出是零均值，因此只要 RM 模型輸出的值大於 0，那麼 GPT3 生成的內容就被認為是正常的。

最後，讓我們看一下損失函式，其中 r r

它代表 rm，x xx 代表使用者輸入的內容，y yy 代表不同的答案，請注意有乙個組合數字（k2） binom（

k 在訓練時，要把同乙個組合數的內容放到乙個批次裡，否則會出現過擬合，k 通常取乙個介於 4 到 9 之間的值，可以看出這其實是乙個成對模型。

3、optimize a policy against the reward model using ppo

有了 RM，下一步就是利用 RM 的輸出結果反饋 SFT 模型，思路是利用 RM 的輸出值作為獎勵，並根據 RL 的思想進行優化，策略：將文字輸出到 GPT 並輸出結果的過程。

action：字典。

observation：輸出文字。

目標函式：包含三個專案，其中 r r

是RM的輸出分數，第二項是KL罰分項，目的是使RL模型的輸出結果和SFT模型的輸出結果不要太大，第三項是保證RL模型能夠保留語言模型的能力，整個模型稱為 PPO-PTX。有了這樣的模型框架，就有了一種新的提示模型，可以實現連續的自我迭代。

當有很多人造的東西時，就會有很多智慧。

事實上，RLHF的優化過程中有很多標註任務，OpenAI非常重視標註過程，他們組建了一支40人的外包標註團隊，並根據以下標準對標註人員進行了嚴格的篩選：

為了保證標註者對資訊敏感，OpenAI首先準備了乙個自標註資料，其中包含一些敏感資訊，標註者的標註結果需要盡可能與OpenAI認為的敏感資訊一致。

排序階段的標註需要盡可能與 OpenAI 研究人員的標註排序保持一致。

OpenAI 構建了一些敏感的提示，供注釋者編寫演示，研究人員給每個演示乙個 1-7 分的李克特量表，並計算出注釋者的平均分數。

詢問注釋者哪些主題或文化群體能夠更好地識別敏感主題。

基於以上四個標準，OpenAI篩選出乙個標註團隊，表明只有高質量的資料才能為模型帶來質的改進。

最後，從整體效果來看，基於PPO-PTX的模型效果有了明顯的提公升，尤其是6B尺度模型效果優異。

思考。 ChatGPT走紅後，大家都在討論ChatGPT是否可以應用到自己的業務中，或者是否可以將RL應用到自己的業務中，以減少一些人力標籤成本。

ChatGPT比較大，直接落地還是很困難的，光是算力就已經擋住了大部分人，但從上面的渲染圖中也可以看出，6B比例模型在RLHF的思路下效果很好，所以如果真的想往這個方向落地，可以考慮6B比例模型，並且有許多相同大小的開源語言模型可以嘗試。但是，RLHF貼標的成本並不低，是否負擔得起也需要提前考慮。

RL真的適合NLP應用程式碼嗎？我覺得還是要看場景，在ChatGPT中RL其實解決了錯位的問題，GPT3本身就已經有很強的生成能力，但很容易“胡說八道”，RL的任務只是糾正GPT3的這個缺點，RM的上限決定了GPT3能在多大程度上改善這個缺點。因此，RL並不是靈丹妙藥，在我看來，ChatGPT更多地使用RL是為了盡可能節省人工標註的成本。

ChatGPT應該只是OpenAI的壓軸大戲，讓我們一起期待GPT4在23年初能給我們帶來什麼樣的驚喜。

版權宣告：本文為CSDN博主愛編輯原創文章**太好了，遵循CC 40 BY-SA 版權協議，**請附上原始來源鏈結和本宣告。

原文鏈結：

ChatGPT 探索 RLHF 和 GPT 的完美結合

高速率體驗5G應用場景！ OPPO明年將推出3000元以上的全5G機型

SimX與美國空軍合作，探索先進的VR醫療模擬訓練

在東南亞，小公尺與店主合作，探索“品牌價值走出去”。

羅技的新滑鼠 G502 X 和 G502 有什麼區別？在一篇文章中理解它

市總工會舉辦“招商引資實踐與探索”專題講座。

看過此篇文章的人也喜歡

ChatGPT 探索 RLHF 和 GPT 的完美結合

高速率體驗5G應用場景！ OPPO明年將推出3000元以上的全5G機型

SimX與美國空軍合作，探索先進的VR醫療模擬訓練

在東南亞，小公尺與店主合作，探索“品牌價值走出去”。

羅技的新滑鼠 G502 X 和 G502 有什麼區別？ 在一篇文章中理解它

市總工會舉辦“招商引資實踐與探索”專題講座。

看過此篇文章的人也喜歡

羅技的新滑鼠 G502 X 和 G502 有什麼區別？在一篇文章中理解它