开始了智能会话的研究。
算法的目标:让会话的轮数尽可能多;不要万能回复;不要回复说过的话
主要的方法:强化学习。
文献1: 宋皓宇 张伟男刘挺. (2018). 基于DQN的开放域多轮对话策略学习. 中文信息学报, 32(7), 99. http://jcip.cipsc.org.cn/CN/abstract/article_2604.shtml
思路:多轮会话策略,让轮数增多;不考虑回复生成,只考虑整体收益最大,从已有回复中,选择目标最大化的选项
主要的数据集是:微博短文本。微博正文+评论,形成一个会话回合。
文献2: Cuayahuitl, H., Yu, S., Williamson, A., & Carse, J. (2017). Deep Reinforcement Learning for Multi-Domain Dialogue Systems. Proceedings of the International Joint Conference on Neural Networks, 2017-May, 3339–3346. https://doi.org/10.1109/IJCNN.2017.7966275
思路:生成回复,对话生成;强化学习,多领域回复文本生成
数据集:饭馆和酒店的数据
原文:https://www.cnblogs.com/xuehuiping/p/12184611.html