DeepMind新钻研:ReST让大模子与人类偏好对于齐,比在线RLHF更实用
发布时间:2024-11-18 06:38:47 作者:玩站小弟 我要评论
本文提出了一种新的RLHF算法ReST,极大地后退了翻译品质。这多少个月以来,咱们已经见证了大型语言模子LLM)在天生高品质文本以及处置泛滥语言使命方面卓越的能耐。可是,LLM 又面临这样一个顺境,即
。
本文提出了一种新的新钻线RLHF算法ReST,极大地后退了翻译品质。让人类
这多少个月以来 ,大模对于咱们已经见证了大型语言模子(LLM)在天生高品质文本以及处置泛滥语言使命方面卓越的偏好能耐 。可是齐比 ,LLM 又面临这样一个顺境 ,实用即发生的新钻线输入很大水平上与人类偏好并不不同 。假如不适量的让人类对于齐,语言模子可能输入不清静的大模对于内容。此外,偏好对于齐 LLM 尚有助于改善卑劣使命 。齐比
有钻研者提出基于人类反映的实用强化学习 (RLHF) ,经由运用人类偏好来处置对于齐下场