Controlled Decoding via Q-Star on Outcome Feedback for Language Models

Yingru Li, Jiawei Xu, Xiangbo Wu, Anningzhe Gao, Baoxiang Wang, Benyou Wang, Zhi-Quan Luo

July, 2024