根据人工反馈调整“文生图”模型
2023/3/6 14:06:27 阅读:133 发布者:
深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分匹配的图像。据此,这项研究提出了一种使用人类反馈来调整此类模型的方法。
具体而言,包括三个阶段:首先,从一组不同的文本提示中收集评估模型输出对齐的人类反馈;然后,使用人工标记的图像-文本数据集来训练预测人类反馈的奖励函数;最后,文本到图像模型通过最大化奖励加权似然来微调改进图像-文本的一致性。
这项研究的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。此外,通过分析了几种设计选择(例如使用辅助损失和收集不同的训练数据),发现对此类设计选择进行仔细调查对于平衡一致保真度权衡非常重要。研究结果表明,从人类的反馈中学习有可能大大改善基于文本生成图像的模型。
论文链接:
https://arxiv.org/abs/2302.12192
转自:“学术头条”微信公众号
如有侵权,请联系本站删除!