catch-img

論文紹介:Reinforcement Learning from Human Feedback

サムネイル画像はOpenAIの記事[10]より引用しています。


目次[非表示]

  1. 1.はじめに
  2. 2.Reinforcement Learning(RL)
    1. 2.1.RLの用語
    2. 2.2.RLの弱点
  3. 3.従来のRLタスクへの適用
    1. 3.1.Christiano et al. (2017)[9]
    2. 3.2.Ibarz et al. (2018)[6]
  4. 4.NLP(自然言語処理)への適用
    1. 4.1.Stiennon et al. (2020)[14]
    2. 4.2.Ouyang et al. (2022)[18]
    3. 4.3.ChatGPT [19]
  5. 5.RLHFの課題
  6. 6.おわりに
  7. 7.引用


はじめに

こんにちは.AI技術開発部の小幡です。

昨今は、言わずもがなChatGPT, 大規模言語モデル(LLM:Large Language Models) がML界隈の中心になっています。日々の目に入る論文でもLLMs関連を見ない日はありません。そんな状況ですので、私もLLMsについて勉強しないわけにはいかないわけですが、どこから手を付けたらいいものか、と思い手がとまる日々です。

ところで、私の所属しているAI技術開発部では、computer vision関連の論文輪講会を行っており、今年4月に私の輪講当番が回ってきました。よい機会だと思い、今回の当番ではChatGPTの学習方法として有名なReinforcement Learning from Human Feedback(RLHF)について調べてみました。RLにも初めて触れる素人なので、ざっくりとした調査しかできませんでしたが、RLHFについて順を追って説明していきます。

Reinforcement Learning(RL)

いわゆる強化学習です。wikipedia[1]によれば、強化学習の定義は下記のとおりになります。

ある環境におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて、報酬が最も多く得られるような方策(plicy)を学習する。

古いもので言えば、Atariで高スコアを出せるようになったDeep Q-Network[2]が有名ですね。

Mnih, V. et al. (2015)[2]より引用

また、RLの成功事例としては囲碁のプロ棋士に勝利を上げたAlpha Go[3]も有名です。

RLの用語

この記事を通じて何度か登場する単語を紹介していきます。

  • Agent
       policyに従う主体
       例: ゲームキャラクター

  • Policy
       enviromentの状態を受け取って行動する関数
       例: ゲームキャラクターを動かす戦略
  • Enviroment
       Agentの行動に応じて状態が変化する空間
       例: ゲームの1ステージ
  • Reward Function
       状態を次の状態をもとにReward(報酬)を計算する関数
       例: ステージのゴールに到達したかどうか

RLの弱点

Alpha Goだけみれば、RLが万能なもののように思えますが、実際はそうではありません。Reward Hackingと呼ばれる、意図しない挙動で報酬を最大化しようとします。

例えば、ボートレースのゲームでスコアを報酬に設定すると、壁や他のボートにぶつかり続けながらアイテムを取って高スコアを狙う挙動が起こり得ます。当然、これは意図した挙動ではありません。


Faulty reward functions in the wild[4]の動画内より引用

Dario Amodei et al.(2016)[5]ではReward Hackingの原因考察を行い、原因として下記を挙げています。

  • Partially Observed Goals: 報酬が部分的にしか見えない
  • Complicated Systems: システムが複雑すぎる
  • Abstract Rewards: 報酬が抽象的
  • Goodhart’s Law: 尺度が目標になっている(例:掃除の報酬=掃除に漂白剤を使っている)
  • Feedback Loops: 一過性の爆発的報酬で本来の目的が埋もれる
  • Environmental Embedding: 報酬を得るために環境を改ざんする(例:wireheading)

さらに、Reward Hackingを克服するための手段として、Ibarz et al. (2018)[6]では下記が挙げられています。

  • Combining Imitation Learning
  • Inverse Reinforcement Learning
  • Reward-free Learning
  • Learning from human feedback

ここでようやくLearning from human feedback、今ではReinforcement Learning from Human Feedback(RLHF)と呼ばれる手法が登場します。
紹介していないその他の手法については、それぞれ下記を参照ください。

  • Combining Imitation Learning: CS 294-112: Deep Reinforcement Learning[7]
  • Inverse Reinforcement Learning: CS 294-112: Deep Reinforcement Learning[7]
  • Reward-free Learning: Baumli et al. (2021)[8]

Reinforcement Learning from Human Feedback

本題のRLHFについ触れていきます。これから参照する論文を見てみると、 Learning from human preferences, Learning from human feedbackと呼ばれる時期もあったようですが、Reinforcement Learning from Human Feedbackというwikiページをみるに、どうも一般名称は固まったようです。

それではまずは従来のRLタスク(Atari)などに対する適用事例をみていきます。

従来のRLタスクへの適用

Christiano et al. (2017)[9]

Atariのゲームに対して、Human feedbackを用いた研究です。下記のようなSTEPでRLによる学習を行っています。

画像自体はhttps://openai.com/research/learning-from-human-preferences[10]より引用

Ibarz et al. (2018)[6]

Christiano et al. (2017)[9]と同様にAtariに対してHuman Feedbackを適用していますが、Christiano et al. (2017)[9]とは異なり、評価だけでなく人のデモンストレーションも用いてRLを行っています。

画像自体はhttps://openai.com/research/learning-from-human-preferences[10]より引用

NLP(自然言語処理)への適用

ここから大きく話はかわり、NLPにRLを適用するお話になります。

従来のNLPタスクの学習には、一つの課題がありました。それは、学習に用いる指標(例: 要約タスクにおけるROUGE)が高スコアだとしても、人の目から見たときに良い品質とは限らない、ということです。入力される文章にそぐわない結果を出力することを、Hallucinationと呼びますが、文章の要約タスクにおいて、ROUGEが高スコアであってもHallucinationが見られるケース(Maynez et al. (2020)[11]) があります。Hallucinationについては、こちらの記事[13]で日本語解説がされています。


Maynez et al. (2020)[11]より引用

また、LLM以前のNLPに対するRLの適用は、Luketina et al. (2019)[12]によくまとまっていますので、ご興味があれば読んでみてください。

Stiennon et al. (2020)[14]

ROUGEを使わずに要約タスクのfine-tuningするという先行研究(Ziegler et al. Arxiv (2019)[15])をバッチ単位に拡張し、解析を行っています。下図に示すとおり、RLHFをNLPの要約タスクに対して適用しています。

Stiennon et al. (2020)[14]より引用

各STEPは下記のようになっています。
STEP 1. Collect human feedback
   1. TL;DRデータセット[16]から特定の文章をサンプリング
   2. 現在のpolicy, 初期policy, ベースラインモデルのpolicyから作った要約、正解の要約などを作成
   3. 複雑の要約から2つを選択
   4. 人間がどちらの要約が好ましいか選択
STEP 2. Train Reward model
   1. 文章1つと要約2つをreward modelに与える
   2. それぞれの要約からreward modelがそれぞれの報酬を計算
   3. 人間の評価結果を正解データにreward modelを更新
STEP 3. Train policy with PPO
   1. データセットから文章をサンプル
   2. policyが要約を生成
   3. STEP2で学習したreward modelで報酬を計算
   4. 報酬をもとにpolicyを更新(with PPO[17])

この論文では、教師あり学習よりも優れた要約を生成することを確認しています。

Stiennon et al. (2020)[14]より引用


さらに、最適化の度合いを強めると、ROUGEによる教師あり学習では品質が頭打ちになる一方で、RLHFでは品質が向上していくことが確認できています。

Stiennon et al. (2020)[14]より引用

グラフが右にいけばより最適化が進んだ状態ですが、赤線(ROUGEによる教師あり学習)が頭打ちになっていることがわかります。横軸が棄却サンプリングのサンプル数とのことですが、恥ずかしながらこの部分はしっかりとは理解できませんでした。

Ouyang et al. (2022)[18]

さて、ようやくChatGPTにつながる論文です。

Stiennon et al. (2020)[14]とは異なり、要約タスクではなく、既存のGPT3をよりユーザーにとって好ましいモデルにfine-tunningすることが主題です。Stiennon et al. (2020)[14]で指摘されていたいくつかの課題を解決しています。これがChatGPTの前進であるInstruct-GPTです。

Ouyang et al. (2022)[18] より引用

STEP 1. Collect demonstration data, and train supervised policy
   1. プロンプトデータからサンプリング
   2. 人間が出力例を執筆
   3. 出力例をGPT-3の教師ありfine-tuningに利用
STEP 2. Collect comparison data, and train a reward model
   1. プロンプトを複数モデルに入れて、出力を取得
   2. 人間が出力にランク付け
   3. ランク付けをreward modelの学習に利用
STEP 3. Optimize a policy against the reward model using reinforcement learning
   1. プロンプトデータセットから新しいプロンプトをサンプリング
   2. policyで結果出力
   3. STEP2で学習したreward modelで報酬を計算
   4. 報酬をもとにpolicyを更新(with PPO[17])

Instruct-GPTは、教師ありfine-tuningよりも優れた結果であることが確認できています。

Ouyang et al. (2022)[18] より引用

また、定性評価も行っており、GPT-3よりも優れた評価結果であることがわかっています。

Ouyang et al. (2022)[18] より引用


ChatGPT [19]

ようやくChatGPTまでたどり着きました。ChatGPTは論文がでていませんが、OpenAIの記事[19]は存在します。

OpenAIの記事[19]より引用

このように、ChatGPTでもStiennon et al. (2020)[14]、Ouyang et al. (2022)[18]と同じようにRLHFを用いていることがわかります。

RLHFの課題

ChatGPTまでたどりつくと、RLHFが非常に優れた手法であるかのように思えます。

しかし、実際にStiennon et al. (2020)[14]、Ouyang et al. (2022)[18]を見てみると、実際には多くのハードルがある手法であることがわかります。Stiennon et al. (2020)[14]には、高品質のラベルを得るための努力がAppendixにつらつらと書かれています。また、どちらの論文にもRLHFの学習コストの重さが記載されています。Ouyang et al. (2022)[18]では、Stiennon et al. (2020)[14]で3,640 petaflops/s-daysかかる学習コストを、60 petaflops/s-daysにしたという記載がありますが、単位が大きすぎて実感が湧きません。

さらに、Ouyang et al. (2022)[18]では、ラベル付けする人の宗教的背景や個人の考え方など、RLHFが個人のバックグラウンドに依存するという言及がされています。

おわりに

今回は、ChatGPTの学習方法として有名になったRLHFについて調べてみました。RLからの勉強しましたが、なんとか大枠を理解することができました。本当はRLの数式やPPO[17]も理解したかったのですが、そこまで手が届きませんでした。

本記事が皆様にとって有益な情報であれば,幸いです.



コニカミノルタは画像IoTプラットフォームFORXAIを通じて,お客様やパートナー様との共創を加速させ,技術・ソリューションの提供により人間社会の進化に貢献してまいります.


引用

[1] https://ja.wikipedia.org/wiki/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92
[2] Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).
[3] David Silver et al. Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
[4] https://openai.com/research/faulty-reward-functions
[5] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Man´e. Concrete problems in AI safety. arXiv preprint arXiv:1606.06565, 2016.
[6]  B. Ibarz, J. Leike, T. Pohlen, G. Irving, S. Legg, and D. Amodei. Reward learning from human preferences and demonstrations in atari. In Advances in neural information processing systems, pages 8011–8023, 2018
[7] http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_12_irl.pdf
[8] Kate Baumli, David Warde-Farley, Steven Hansen, and Volodymyr Mnih. 2021. Relative Variational Intrinsic Control. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35. 6732–6740
[9]  P. F. Christiano, J. Leike, T. Brown, M. Martic, S. Legg, and D. Amodei. Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems, pages 4299–4307, 2017.
[10] https://openai.com/research/learning-from-human-preferences
[11] Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. 2020. On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, Online. Association for Computational Linguistics.
[12] Jelena Luketina, Nantas Nardelli, Gregory Farquhar, Jakob Foerster, Jacob Andreas, Edward Grefenstette, Shimon Whiteson, and Tim Rocktaschel. A survey of reinforcement learning informed by natural language. In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI-19, pp. 6309–6317. International Joint Conferences on Artificial Intelligence Organization, 7 2019.
[13] https://engineering.linecorp.com/ja/blog/graph-based-non-machine-learning-hallucination-detection-of-news-article-summary-sentences
[14] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
[15]  D. M. Ziegler, N. Stiennon, J. Wu, T. B. Brown, A. Radford, D. Amodei, P. Christiano, and G. Irving. Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593, 2019.
[16] M. Völske, M. Potthast, S. Syed, and B. Stein. Tl; dr: Mining reddit to learn automatic summarization. In Proceedings of the Workshop on New Frontiers in Summarization, pages 59–63, 2017. 
[17] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
[18] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
[19] ]https://openai.com/blog/chatgpt


コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。

中途採用に関する情報については以下の採用情報ページをご覧ください。

  キャリア採用情報 - 採用情報 | コニカミノルタ コニカミノルタキャリア採用情報 現在の募集職種にはこちらからエントリー可能です。募集要項、先輩インタビュー、人事部からのメッセージなど掲載。 KONICA MINOLTA
Obata Tomokazu
Obata Tomokazu
FORXAI事業統括部 AI技術開発部 第1グループ所属 機械学習モデルの開発を行っています。


pagetop