本文档会从:语音技能的概念、语音技能的类型、如何选择创建的类型、如何创建语音技能、如何使用语音技能 等方面进行介绍。帮助您能在 AliGenie智能应用平台 上更快的实现语音技能的创建。


语音技能是什么?

AliGenie智能应用平台 上,语音技能是在平台提供的 ASR(语音识别技术)、NLU(自然语言理解)、TTS(语音合成技术)等能力的基础上通过配置化的工作实现对话能力的结果。AliGenie智能应用平台 提供了技能的控制台,帮助开发者在页面上便捷的开发和配置语音技能。


语音技能可以完成非常多的工作,给用户提供丰富多彩的服务。例如:听音乐、听新闻、听故事、查天气、问时间、玩游戏、叫外卖、购物、交友 等等。涵盖了人们生活中的衣食住行等方方面面。


语音交互的优势:相比于传统的手机APP,对话是人类最早能学会的交流工具,是人类的一种交流本能。所以语音交互的学习成本非常低,从孩子到老人都能够与语音技能进行交互。优秀的语音技能能够让用户非常自然流畅的使用,给用户的感觉就像与另一个人在对话一样。


创建语音技能,最主要的工作是创建技能的 语音交互模型,具体参考文档【语音交互模型简介】。


语音技能的类型

语音交互模型的创建是一个比较复杂的工作,需要开发者对语音交互模型有一定程度的理解。


在某些场景下,用户可能的交互方式是固定的。例如:

  • 在听音乐、故事或新闻时,用户可能的交互主要是:搜索、下一首、上一首、暂停、继续、推荐、收藏等。
  • 在智能家电控制时,用户可能的交互主要是:打开、关闭、模式选择等。

所以针对这些交互场景,内容&IOT技能 已经将语音交互模型创建完成并制作成了模板,开发者只需要将语音交互之外的音频资源或控制动作配置好,就可以完成语音技能的创建,很大程度上减轻了开发者的工作量。


语音技能的类型分为:

  • 内容模板技能:平台将语音交互模型制作成内容模板供开发者选择。
  • 智能家居技能:平台已将语音交互模型创建好,并将用户的对话变成智能设备的控制指令告诉开发者的网关,开发者网关只需要按照指令去控制智能设备即可。
  • 智能应用:部署在天猫精灵音箱或集成 AliGenie语音系统 的智能硬件设备上的 智能交互应用。包含语音技能、app和小程序等多种形态,覆盖语音、触碰、手势等交互方式。


智能应用 分为以下三种类型应用:

    • 技能智能应用:拥有语音交互的能力,可以在所有天猫精灵智能音箱上使用。
    • 小程序智能应用:使用支付宝小程序开发,可同时具备语音交互能力和有屏设备展示的智能应用。
    • APP智能应用:使用APK来开发,可同时具备语音交互能力和有屏设备展示的智能应用。


选择创建何种类型的语音技能

如果您有大量的音频内容,希望能让用户收听这些内容,可以选择在 内容&IOT技能 创建 内容模板技能。内容模板中已经有现成的语音交互模型,能够覆盖用户大部分的语音交互需求。您只需要按照内容技能的配置指导文档,即可创建出一个语音技能。您可以先在天猫精灵上体验一下已有的内容技能,如:音乐、故事、新闻、笑话等。体验一下这些技能的交互逻辑,您就可以知道创建内容模板技能后该如何与此技能交互。


如果希望用户通过简单的语音指令就可以控制智能设备,可以选择在 内容&IOT技能 创建 智能家居技能。智能家居技能的语音交互模型目前支持大部分智能家居设备的控制,拥有丰富的指令集合,而且还在不断地拓展中。


当平台提供的内容模板或智能家居技能无法满足您对语音交互的需求时,可以选择在 智能应用平台 创建 自定义技能。自定义技能用支持专业开发者设计符合自己业务场景的语音交互模型和业务处理逻辑。


如果您想开发在天猫精灵带屏设备上使用的有屏交互技能,可以选择在 智能应用平台 创建 小程序智能应用 APP智能应用。有屏交互技能不仅具备语音交互的能力,还拥有屏幕展示的能力,给用户提供内容更加丰富的体验。


如何创建语音技能

创建内容模板技能,参考【内容技能接入】。

创建智能家居技能,参考【云云接入】。

创建技能智能应用,参考【自定义技能接入】。

创建小程序智能应用,参考【小程序接入】。

创建APP智能应用,参考【APP接入】。


如何使用语音技能

语音技能中,智能家居技能不需要调用词,内容模板技能和智能应用均需要【调用词】。


智能家居技能:当用户绑定了相应的智能设备后,可以说。

  • 天猫精灵,打开客厅空调
  • 天猫精灵,打开加湿器
  • 天猫精灵,关闭卧室灯
  • 天猫精灵,关闭书房窗帘


内容模板技能:用户需要通过技能调用词进入技能,可以这么说。

  • 天猫精灵,放个屁(“放个屁”是技能的调用词)
  • 天猫精灵,播放杭州早新闻(“播放”是动词,“杭州早新闻”是技能调用词)
  • 天猫精灵,打开睡前音乐(“打开”是动词,“睡前音乐”是技能调用词)
  • 天猫精灵,讲个笑话(“讲个笑话”是技能调用词)


在播放音频内容时,用户可直接说指令,不需要带技能调用词。例如

  • 天猫精灵,下一首
  • 天猫精灵,收藏
  • 天猫精灵,暂停


技能智能应用:用户如何与技能交互,主要取决于技能的语音交互模型。例如天气查询技能。

在用户第一次与技能交互时,需要对天猫精灵说出此技能的唤醒词:

  • 如果用户只说了技能的唤醒词,则进入的是技能的 默认意图
  • 如果用户说的是 唤醒词+某个意图的语料,则可以直接进入这个意图,执行这个意图的对话。


当用户已经说过技能唤醒词进入对话,并且没有跳出技能。只要用户的表达能够命中意图的语料,不需要说唤醒词也能正确进入相应的意图。

用户:天猫精灵
天猫精灵:你好,主人。
用户:天气小助手,查天气                    ("天气小助手"是调用词,"查天气"是天气查询意图的语料)
天猫精灵:请问您要查询哪个城市的天气? 
用户:北京
天猫精灵:北京 今天天气 晴,气温12到23度。   (时间默认是今天)
用户:那明天呢                              (多轮对话语料)
天猫精灵:北京 明天天气 多云,气温11到17度。 (根据上下文信息确定城市信息)
用户:空气质量怎么样                        (“空气质量怎么样”是空气质量查询意图的语料,有前置意图)
天猫精灵:北京 明天空气质量 优,PM2.5指数26。(根据上下文对话信息确定城市和日期信息)


在技能的对话中,如果用户所说的话没有命中本技能任何意图的语料,就会跳出技能。技能跳出后就会进入其它技能或领域,当发生这种情况时,用户需要重新说技能唤醒词进入技能,并重新开始技能交互。



小程序智能应用 和 APP智能应用:用户不仅可以使用语音与技能交互,还可以使用屏幕与技能交互。