浅析微软小冰算法和决策模型

文 李红涛

微软小冰,从2014年5月发布版本小冰一代,到2019年5月发布小冰七代;

概要:
1.小冰的训练数据,来源是全网数据
2.给用户打情绪标签
3.情绪数据来源:emoji数据表情
4.问答+情绪渲染 学习无情绪的表达 然后加上情绪的渲染

算法:
小冰的算法结构,信息输入、存储、分析、决策、输出等几个环节;
小冰的图片识别能力,是基于深度卷积神经网络(CNN)的计算机视觉算法系统,通过深度学习等机器学习算法,不断学习历史信息,建立相应数学模型。通过全网文本内容,挖掘得出相关的主题,即机器学习和文本理解的基础。
微软的 LightLDA算法是当前唯一能训练超过100万个主题的机器学习算法。

决策:
小冰采用多种联合决策机制,实现情感决策;采用分布式词向量模型训练算法,计算两个词之间的情感距离,以关系远近帮助小冰决策;为每一个词训练出上千个相关指标(维度)

 

输出:
学习人类表达方式,从中识别出带有不同情感色彩的表达方式,再结合不同对话的上下文语境,以个性化的语音方式表达出来。比如 你是天津人吗?会被表达为 你家天津那的?
深度卷积神经网络CNN、LightLDA主题词机器学习算法、分布式词向量模型等仅仅是小冰算法集中的冰山一角。

个性化:
根据聊天记录打标签,比如“失恋”。这个功能叫 Proactive Mood(主动情绪探知)
逻辑–
先划分场景,判断对话是谈情感问题,还是职业问题
再判断用户在这个场景里属于什么状态(失恋、失业)。
接下来,判断用户在这个状态里是什么情绪(愤怒、沮丧……)。比如用户的惊叹号特别多,那么他的情绪是属于几个极端情绪之一,就能锁定了。小冰并不知道无限细分的人类情绪;

如何平衡“有趣”和“有用”:
回答按照阈值打分,对“有用”的信息,采用解锁技能模式;对“有趣”的信息采用滑竿式调节;其中包括“有用”的部分,离散的点;“有趣”的部分,是线性和连续的;
emotiCON 表情符号、深度神经网络(Deep Neural Networks, 以下简称DNN)embedding词嵌入是能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习算法;