纵观人工智能腾飞的这十年,从最初的计算智能,逐渐发展成为以计算机视觉、智能语音为代表的感知智能阶段,随着科技不断地在产业场景中应用落地,不断有人叩问:新一代AI技术是否能通过“图灵测试”,达到“能理解、会思考、有感情”的认知智能阶段?

人机交互作为人工智能的重要研究领域,自然语言处理、意图理解、情绪识别、对话交互和知识推理等一直是其技术迭代升级的主要组成部分。而其中基于基于深度学习的自然语言处理(NLP)研究,在2020年迎来了最繁忙的年份,OpenAI的GPT-3(175B参数)的参数量比Microsoft Research的Turing-NLG(17B参数)高出约10倍。

得益于计算能力的提升、算法框架的优化和大数据的升级等,NLP研究实现了广泛商业化。而一知智能作为一家专注于人机交互领域的杭州市领军型人工智能公司,在首席科学家赵洲的科研成果支持下,以数字化谋效率,向数字化要生产力,致力于为全社会提供高效率的数字员工,在2021年,也迎来了NLP研究全速发力的一年。

大型领域预训练模型

从底层数据来看,提升NLP产品及服务的使用体验,需要贴近真实使用场景的语料库作为更加有效的训练素材。

今年,以首席科学家赵洲老师为核心、算法总监姜兴华为主导的一知智能算法团队训练了消费对话领域十亿级参数的预训练语言模型Yiwise-DNLP。基于Yiwise-DNLP模型,全面升级了意图识别算法、实体抽取算法、对话生成算法。

Yiwise-DNLP采用transformer的模型结构,同时对对话理解和对话生成进行联合建模。使用双向注意力机制,模型对上下文充分理解,并采用解码器使用单向注意力机制,帮助生成对话内容。

Yiwise-DNLP在千亿级token语料上训练,模型参数量高达十亿。模型训练过程使用了多种模型优化算法,包括 shareded data parallelism、activation checkpointing、model parallel、pipeline parallel等多种策略。

自学习的对话管理系统

对话管理模块控制着人机对话的整个流程,对话管理根据对话历史信息,决定此刻对用户的反应。

在首席科学家赵洲老师的指导下,一知智能算法团队开发了基于强化学习的自学习对话管理系统,能够对系统理解用户输入的不确定性进行建模,让算法来自己学习最好的行为序列。

一知智能构建了用户模拟器,让用户模拟器和对话管理模型进行交互,通过目标评估模型获得Action的Reward,从而获得大量对话管理交互数据。利用强化学习不断优化。该系统支持自学习、可交互学习、在线学习,从而使得对话管理能够快速更新,越来越智能。

多模态情绪识别模型

一知智能使用语音和文本的多模态神经网络模型,进行对话情绪识别。利用海量数据的聊天语料进行模型的预训练。抽取语音特征、文本特征、语音和文本混合特征等多种不同模态的特征,在海量对话语料上训练情绪识别模型,大幅提高了情绪识别准确率。不同模态信息相互补充,可以帮助机器更好地理解情感。

首席科学家赵洲认为,从人机交互角度出发,多模态情感分析可以使得机器在更加自然的情况下与人进行交互。机器可以基于图像中人的表情和手势,声音中的音调,和识别出的自然语言来理解用户情感,进而进行反馈。

算法总监姜兴华说道,AI探索的征程是星辰大海,一知智能作为孜孜不倦的摘星人,致力于在数据底层技术升级的影响下,提升语音识别技术准确率,为Al语音识别的商用渗透提供强大的市场驱动力,让科技的成果在更多应用场景落地,让企业与员工真正感知数字员工的价值。

推荐内容