⑴ 有哪些语音助手
我对比了2018年各家手机大厂语音助手,告诉你语音助手哪家强
“对不起,我没有听懂,你可以再说一次吗”
熟悉的台词再度出现,人们又想起了曾经被手机语音助手支配过的恐惧。
从 2011 年第一款语音助手 Siri 伴随着 iPhone 4S 惊艳亮相,到现在五花八门、名称各异的语音助手占据各大主流手机品牌,已经走过了 7 年历史。据 Strategy Analytics 的报告,2018 年全球出售的智能手机中,有 47.7% 配备了语音助手,而到 2023 年,语音助手渗透率将达到 90%。
2018 年手机语音助手市场份额前三名:Google Assistant,Siri,网络 DuerOS
只不过,在语音助手百花齐放的背后,很多语音助手还是被人们视为调戏的对象,沦落到被贴上“人工智障”的标签而非“助手”的境地。
复杂环境下拾音不准确,用户要发音清楚,不得不一字一顿地说话;语义理解不佳,换一种表达方式就答非所问;在公众场合唤醒语音助手,总是自带尴尬滤镜;智能化程度较低,更像是语音识别与搜索功能的简单叠加;应用场景有限,最多只能帮你打开 App,还不如触屏交互便捷。
众多因素,使得手机语音助手长期成为了鸡肋般的存在,大多数用户使用手机的习惯,还停留在触屏交互上。以致于有些用户拿到新手机之后其中一个步骤,就是为了省电而默默关闭后台的语音助手,当然也包括一直奉行“能打字就绝不说话”原则的我。
2018 年各大手机厂商的语音助手动态
然而,从去年开始,人们的刻板印象正发生着变化。当看到“给小张发送 88 块钱微信红包并备注生日快乐”这种骚操作也能通过单纯说话实现之后,语音助手终于不再被当成一个笑话。Bixby、小爱同学、Jovi 的出现,让我们不得不重新审视语音助手在手机上的地位。手机厂商、人工智能服务商、芯片厂商联手一起,终于开始认真打造起语音助手的用户体验了。
本次测评,我们选择了 2018 上半年主流手机厂商的代表性语音助手:小米小爱同学,华为 HiAssistant,苹果 Siri,三星 Bixby,vivo Jovi,来一番对比体验;
测试机型分别为:小米 MIX 2S,华为 P20,苹果 iPhone 8,三星 S9,vivo NEX;
系统版本分别为:MIUI 9.6,EMUI 8.1,iOS 11.4,Android 8.0,Funtouch OS 4.0。
评测环节分为四个维度:设备控制和系统功能调用,第三方应用支持,对话与智力水平,技能学习能力。各环节分值为 5 分,以下就来看看各家语音助手的表现吧。
Part 1 设备控制和系统功能调用
小爱同学:
华为 HiAssistant:
Siri:
Bixby:
Jovi:
从 2018 年开始,一个明显的趋势是,各大手机厂商陆续为语音助手配备独立的 AI 按键,意味着语音助手的地位正逐步提高。
前有三星 S9 的 Bixby 按键,后有 vivo NEX 的 Jovi AI 按键。按键作为手机交互的第一层级,高于触摸操作,让用户在不接触手机屏幕的情况下快速调用特定功能,同时带来的好处是,缓解了用户在公共场合唤醒语音助手的尴尬癌。
音量键下方即是三星 S9 的 Bixby 按键
除了 Bixby 和 Jovi,小爱同学和 Siri 也在灵活调动已有的按键资源为语音助手赋予第二入口。小爱同学可通过长按电源键 0.5 秒唤醒,Siri 也可设置长按 Home 键唤醒(iPhone X 则是长按电源键唤醒),唯独华为 HiAssistant 没有实体唤醒入口。不过,从实际体验上看,从按下按键到激活语音助手需要等待 0.5~1 秒,比起语音唤醒没有显着的效率提升。
首先从基本的手电筒启用来看,小爱同学、华为 HiAssistant、Bixby、Jovi 都能迅速地接收指令并开启手机闪光灯,小爱同学还贴心地提供了开关按钮。
Siri 则还未拥有调用闪光灯的权限,不支持开启手电筒。华为 HiAssistant 可以开启手电筒但却不能语音关闭,比较令人费解,而且在语义理解上需要多次纠正才能理解我的意思。
在亮度调节上,5 款语音助手都能很好地完成指令,而且都能展示亮度条实现精准调节。从下图可以一窥各家语音助手的 UI 风格,小爱同学和 Jovi 多是以悬浮窗的形式呈现交互界面,华为 HiAssistant 和 Bixby 经常以对话框或跳转到相应设置界面来呈现,而 Siri 不管是系统内还是第三方应用操作都是在对话框完成。
悬浮窗给人的直观感受在于语音交互都在原有页面层级之上进行,减少了频繁跳转界面给用户带来的割裂感,这一点小爱同学做的尤为出色。
在计算功能和日程提醒上,各家语音助手都能胜任,其中华为 HiAssistant 还能让用户确认是否确认创建提醒,同样可以注意不同语音助手的 UI 设计。
当我想给朋友发短信或打电话时,华为 HiAssistant、Siri、Bixby 和 Jovi 都能迅速给出反馈,在编辑好短信后需要手动点击“发送”确认;小爱同学在收到指令后只是打开了短信应用,既没有搜索联系人也没有进行短信编辑。
信息搜索上,当我说出“今天天气如何”,华为 HiAssistant、Siri、Bixby 和 Jovi 都提供了每小时的天气状况,Bixby 更是给出了一份气温曲线图,比较专业。在描述上,小爱同学和 Jovi 会给出比较直观化的陈述,例如“挺热的”、“非常热”,Jovi 还会提醒你注意防暑。
了解完天气,我还想知道今天的新闻。小爱同学会直接跳转到浏览器自带的新闻栏目;华为 HiAssistant 会接入神马搜索的新闻排行榜;Siri 则是在对话框中直接弹出浏览器搜索结果;Bixby 会跳转到新浪新闻;Jovi 则接入的是腾讯新闻,一组五条,还提供语音播报。
新闻搜索方面,Jovi 的表现是最好的,小爱同学也基本满足“今日新闻”的需求。其余三款语音助手都还需要用户手动搜索才能找出今天的新闻,有点不太走心。
又到了午饭时间,“附近有哪些地方吃的”,小爱同学是去浏览器搜索关键词;华为 HiAssistant 和 Bixby 都调用了大众点评的服务;而 Siri 使用了自家地图应用帮我找餐馆。
对于本地搜索,我想让语音助手找出最近的一条短信。小爱同学又耿直地在浏览器搜索栏查找“最近一条短信”;华为 HiAssistant 则是答非所问;Siri 虽然找出了,但不是很懂为什么不能跳转到短信应用而是通过语音播报。只有 Bixby 和 Jovi 完美实现这一需求。
在一些复杂的深度设置上,例如将“锁屏时间设置为 10 分钟”。这时小爱同学直接表示“臣妾做不到”;华为 HiAssistant 和 Jovi 都只能帮你跳转到设置页面,锁屏时间还需要自己去调整;Siri 更是连界面跳转都还需要用户点按。只有 Bixby 能自动帮你调整好锁屏时间。
备忘录测试可以检验各家语音助手的听写识别水平。当我说出“创建备忘录,记录甲方如更改活动方案需及时告知乙方”,这里包含两层操作,一是激活备忘录应用,二是听写文段“甲方如更改活动方案需及时告知乙方”。
在这里 Siri、Bixby、Jovi 都能实现激活备忘录 + 听写,而华为 HiAssistant 虽然能创建备忘录,但语义理解能力不佳,尝试几次都不无法录入完整的句子。
小爱同学的表现更为突出,在这里备忘录的创建分为三步。第一步录入语句,第二步确认文段是否正确,甚至你还能继续录入文段,实现分点记录!第三步即可呈现在备忘录中。
对于“帮我卸载应用”这一需要更高系统权限的指令,5 款语音助手都表示爱莫能助。
值得一提的是,各家厂商的特色功能也能拓展语音助手的使用场景,例如小爱同学、华为 HiAssistant、Bixby、Jovi 可以通过语音调用自家系统的“智能识图”功能,轻松实现智能翻译、智能识物、智能扫码等功能,算是一个加分项。
另外,小爱同学还有一个强有力的杀手锏,那就是它背后所连接着的庞大米家生态链。只需要呼唤一句“小爱同学”,绑定着的米家产品都可以被唤醒,极大丰富了用户体验。
通过小爱同学控制米家台灯
Part 2 第三方应用支持
小爱同学:
华为 HiAssistant:
Siri:
Bixby:
Jovi:
很多 iOS 的用户都知道,Siri 的第三方应用支持是一个永远的痛。尽管作为语音助手的鼻祖,但因为苹果一直以来的隐私政策,加上接入第三方应用 API 需要冗长的业务谈判,导致伴随 iOS 迭代数年的 Siri 可支持第三方应用依然屈指可数。
iPhone 安装的 40 多个第三方应用中,支持 Siri 的寥寥无几
许多对隐私敏感的用户也许会赞同苹果的做法,只不过很大程度上限制了语音助手的价值。从 2017 年开始,其他手机厂商另辟蹊径,通过模拟手指点击的方式,巧妙避开了 API 接口和复杂的商业谈判,实现各个 App 内的深度操作。
在微信上,5 款语音助手都能实现简单的“给 XX 发微信,今天晚上一起吃饭”。对于发送微信红包并备注这种操作,华为 HiAssistant 表示需要你先选择应用程序;Siri 直接耿直地发送“100 块钱的”信息;而小爱同学、Bixby、Jovi 实现的方式如出一辙,整个过程实测 5-6 秒,比手动操作更便捷:
打开微信 App;
在搜索栏检索联系人的首字母或拼音,例如“小炫”首字母即“xx”。不过小爱同学的文字呈现有些偏差,虽然准确识别了湾仔的拼音“wan zai”,但在悬浮窗中呈现的却是“一载”;
进入聊天界面,点击红包按钮;
输入金额和备注内容,询问是否发送。
当我想查看最新的微信朋友圈,小爱同学、Bixby、Jovi 均可实现;华为 HiAssistant 则去了浏览器搜索“朋友圈”;Siri 虽然准确识别了我的需求,还是可怜巴巴跟我说“我很想帮你,但微信还不支持这种操作”。
在微博上,华为 HiAssistant 和 Bixby 一样都能“打开微博,发送今天很开心”,总算帮华为挽回了一点颜面;小爱同学和 Jovi 都只能帮你打开应用,而不能进行深度操作;Siri 就连打开应用都需要用户手动点击。
在 Bixby 的对话框中,可以发现在微博应用下对话框有一个小小的微博图标。意味着 Bixby 此时进入了应用内操作模式,Bixby 可以理解当前的应用环境,用户对该应用的所有指令 Bixby 都能进行识别和操作,这种细节值得给一个好评。
Bixby 在应用内模式下的微博图标
在导航方面,华为 HiAssistant 和 Bixby 使用的是网络地图,能直接在应用内启用网络 DuerOS 语音服务,非常方便;小爱同学和 Jovi 使用的是高德地图;Siri 调用的是自家的地图应用。此外比较突出的是 Jovi 还能通过语音设定途径点。
而对于网易云、QQ 音乐等应用,Siri 直接表示不支持;华为 HiAssistant 货不对板,“播放网易云的推荐歌单”却给我打开了本地音乐应用;只有 Bixby 和 Jovi 可以无障碍打开应用播放指定音乐。
有趣的是,对小爱同学说“打开网易云音乐播放青花瓷”,它只能打开网易云音乐应用本身。而当我对小爱同学命令“打开 QQ 音乐播放青花瓷”时,它却行云流水般打开应用,搜索《青花瓷》,点开播放,合作方的待遇果然不一样。
“在爱奇艺上搜索播放楚乔传”,只有小爱同学自动打开播放了《楚乔传》,华为 HiAssistant、Bixby、Jovi 只能打开应用本身。而且让人眼前一亮的是,如果对小爱同学说出影视剧的名称,它就会把拥有该剧版权的 App 信息汇总给你,让用户省去了提前了解哪个 App 拥有版权的麻烦。
Part 3 对话与智力水平
小爱同学:
华为 HiAssistant:
Siri:
Bixby:
Jovi:
从声音体验来说,比起 Siri、华为 HiAssistant、小爱同学充满机械味的音色,Bixby 的音色、语气停顿是最接近人声的,对话起来很舒服。Bixby 的男声配音员名叫王聪,女声配音员叫张喆,他们录制了不少完整的实际场景语音,然后再经由三星研究院合成,因此 Bixby 的发音十分自然。
在自然语言理解方面,Bixby 和 Jovi 的表现也非常出色。“我想看五月拍的照片”和“五月的照片帮我搜索一下”这种同一指令不同的表达方式,它们都可以准确识别。相比之下,华为 HiAssistant 要逊色不少,很多时候必须要不断调整句子语序,答非所问的情况依然很严重。
小爱同学在对数字进行语义理解时,会更偏向中文数字的理解,即录入的文段是“一二三”而非“123”。而在英文理解方面,小爱同学的识别精度也并不是很准确,跟它说“打开 FM”,它识别成“打开 FA 梦”;跟它说“打开 Yeelight 台灯”,它识别成“打开依赖台灯”,或许准确的英文识别需要更地道的口语水平,这可多少有点为难我了。
同时,我发现 5 款语音助手都无法准确断句,所以在听写长文时,我们还是得手动输入标点。
在讲笑话方面,发现除了 Siri,其他都没有找到笑点,是我理解能力太低了吗?
相比之下,华为 HiAssistant 莫名其妙的回答和小爱同学实力卖老板,反而更能博人一笑。
“你的爸爸是谁”,小爱同学、Jovi、华为 HiAssistant 的回答比较耿直;Siri 的回答很温馨;Bixby 的回答非常婉转含蓄。
当问及如何评价自家品牌与竞品时,只有华为 HiAssistant 勇敢地夸耀自己;小爱同学、Siri、Bixby 在网上搜集一堆观点交给用户评判;而 Jovi 用一个充满哲理的回答打起了太极,可以说求生欲非常强了。
而在“什么是隐形贫困人口”“哲学的基本问题是什么问题”这种知识性问答上,华为 HiAssistant 充分发扬了“不知为不知”的精神;其余 4 款则从搜索引擎上把解释摘录下来,小爱同学的回答还附上了贴图。
Part 4 技能学习能力
小爱同学:
华为 HiAssistant:
Siri:
Bixby:
Jovi:
与 AI 独立按键一样,2018 年另一大趋势,是各大厂商开始打造自己的语音助手学习平台,让用户成为语音助手的老师,使之“越用越懂你”。
5 款语音助手中, 小爱同学、Bixby、Jovi 都有自己的技能学习平台,而 Siri 和华为 HiAssistant 则落后于时代,不过随着 iOS 12 正式版发布,拥有 Shortcuts 加持的 Siri 也许能重获新生。
Bixby 的技能学习分为“自定义聊天内容”和“快捷命令”两大板块。“自定义聊天内容”可以把 Bixby 对特定语句的反馈改造成个性化的回答,从实用性来说意义不大。
“快捷命令”则可以把多条命令汇总到一句话中,例如一句“导航回家”,就可以把“开启导航”、“输入目的地”、“调高音量”、“调高亮度”、“发送微信告诉家人我要回家了”等五项操作连在一起编成一句指令,简化了操作步骤。
不过缺点在于,用户只能调取 Bixby 命令库中的命令,其实还是工程师提前预设好的,用户并不能随心所欲地定义自己的操作。例如在手机淘宝命令库中,只能找到“搜索卖家具的店铺”这一命令,而没有“搜索卖电器的店铺”“搜索卖文具的店铺”,本质上还是一种伪技能学习。
小爱同学、Jovi 的“录屏教学”模式,应该是最接近真正意义上的自定义操作。在 Jovi 语音 App 和小爱同学 App 上,分别找到“我的教学命令”和“训练计划”,打开录屏教学模式,用户模拟一遍操作流程,语音助手即可记住你的点按套路。
Jovi 技能学习平台
例如,在没有教小爱同学之前,小爱同学是没办法做到“打开哔哩哔哩观看人生一串”这样的操作的。打开录屏教学,我先亲手模拟一遍操作流程:
回到主屏;
打开哔哩哔哩 App;
在搜索栏输入人生一串;
点开人生一串视频;
点击播放。
小爱同学技能学习平台
小爱同学记住了我的操作套路后,当我说出指定口令,小爱同学就像流水线一样对我的演示进行复现。
小爱同学和 Jovi 可以支持应用内“点击”以及“文本输入”这两种类型的教学,满足大部分 App 内的操作方式。
如果不想手把手对语音助手教学,小爱同学和 Jovi 分别还有“公共训练”和“Jovi 广场”,可以找到其他用户共享的创意技能,添加到自己的教学命令中。
在小爱同学的公共训练中可以找到其他用户分享的命令
录屏教学极大地激发了用户的创造性,类似“支付宝收能量”(打开支付宝,点击更多、财富管理、蚂蚁森林),“浦发信用卡还款”(打开浦发银行,点击信用卡还款),“我想吃肯德基”(打开饿了么,点击搜索,输入肯德基)这些命令已经在技能广场上屡见不鲜。这也让我有一个大胆的想法:如果通过录屏教学,教会语音助手帮我每天领取“绝地求生”的登陆奖励,岂不是美滋滋?
尝试过后,我发现我还是太年轻,几次教学都止步于“账号登陆”这一步。看来对于登陆游戏这种更高级别的权限,已经不是手机厂商能够给予的了,当语音助手也能自动帮你刷分领经验,这不是在抢游戏脚本的饭碗吗?
写在最后,语音助手的未来是什么样子
智能手机的“智能”,体现在何处?
是多任务运行?是滑动屏幕时的卷轴特效?还是像电脑一样可扩展第三方应用程序?
10 年前,这些令我们惊呼 Amazing 的特性,现在早已成为了习以为常的存在。
今天的“智能”,在我看来,即“所想即所得”。
当我想获知某类信息时,它能立即给我答案;当我想使用某项服务,它能迅速地调出,不需要频繁切换界面,一步到位;当我处于某个场景下,它还能预知预判我的下一步行为,并把一切工作准备妥当。
Jovi 的智能服务矩阵,语音交互其实只是手机 AI 的一部分
我们使用手机的方式多种多样,尽管通过语音交互不能百分百接管所有的场景,但随着小爱同学、Bixby、Jovi 技能学习平台的出现,让我们看到语音助手正逐渐找到自己的定位——专注于解决较繁琐但却有规律可循的任务,简化用户调取手机服务的流程。
让用户自己教导和训练 AI,不需要去“不断尝试”什么样的指令是语音助手能听懂的,App 开发者也不再需要去思考“用户会说什么关键词来触发我的服务”。
让一句话,同时进行设闹钟、开勿扰、打开白噪音、发送微信表情、关灯等几种操作。给语音助手编写好“工作流”,设置“触发词”,制作一个个语音开关,实现“一触即发”的体验。这正是语音助手所擅长的,也是小爱同学、Bixby、Jovi 以及 iOS 12 的 Shortcuts 的发展方向。
回到我们今天对比的 5 款语音助手,小爱同学的悬浮窗 UI 和背后庞大的米家生态链成为它的加分项;Bixby 拥有最出色的自然语言理解能力和音色调校;作为后起之秀的 Jovi 凭借技能广场,在打造技能生态上已经初露锋芒; Siri 则受限于系统,祝愿它能在 iOS 12 正式推出之后完成蜕变;至于华为 HiAssistant,语义理解和可支持的服务似乎还停留在 7 年前的水平,需要继续努力。
我希望,未来的语音助手,不仅仅是充当“一触即发”的语音开关,还能举一反三,将类似的“工作流”应用在更多的场景下,真真正正帮助用户提高效率。
⑵ 一对一聊天自动打招呼脚本赚钱吗
一对一聊天自动打招呼脚本赚钱的。
首先,在平台里,女生是免费上传照片,修改资料,收发消息,收发视频的。而男生则需要充值才能进行修改资料,给女生发消息,打语音电脑等等操作。其中一条文字消息0.02~0.03元不等,1分钟语音1块~3块不等。
⑶ 按键精灵脚本,功能是歪歪语音聊天,自动上麦,然后下麦后继续自动上麦,下麦到上麦时间是不固定的,所...
您好,如果上麦下麦这两个字的颜色,位置都是固定始终不变的,可以使用文字识别或者找图功能来判断是否需要执行的操作!很高兴为您解答!
⑷ 黑猫脚本圈里的TT语音引流脚本又什么功能
附近人私信,开黑私信,评论功能,具体的你自己去他们的 官网里面看一下,我就是用的他们家的
⑸ 什么是voiceXml
VoiceXML是建立于XML 语言规范基础之上,是一种应用于语音浏览的标记语言。利用VoiceXML可以建立基于WEB的语音应用和服务。本文简要描述了VoiceXML规范及相关术语,并给出了一种基于VoiceXML的语音与数据集成模型,它主要由语音浏览器、语音识别、语音合成和VoiceXML网关等部分组成。应用该模型,可以方便地建立各种基于WEB的语音应用系统。
关键词 VoiceXML 集成 模型 语音浏览器
1 引言
随着电子商务、客户服务等信息服务的普遍化,交互式语音应答系统(IVR ,Interactive Voice Response)在各种商业系统中的应用越来越广泛。然而这种语音交互方式存在以下缺点[1]:(1)移植性、灵活性差;(2)在实际系统上做应用开发的难度很大,特别是涉及到话音流程的编写及调试问题;(3)无法综合利用现在的WEB资源。而将IVR系统Internet化,可以增加系统可重用的机会,降低成本,这必将成为今后语音应用的一种主要趋势。另一方面,到目前为止,人们从Internet获取各种资源时,还只能是借助计算机来实现。而实际上,电话具有比计算机更高的普及率,如果允许人们通过电话来访问Internet的资源,那么这对于Internet的应用发展必将是一次质的飞跃。
在这类应用前景的驱动下,VoiceXML [2] 标准被提出来了,它是由World Wide Web Consortium (W3C)制定的。利用这种技术,用户可以通过电话按键或语音来访问Internet上的各种资源,它是语音浏览技术以及语音互联网的核心。与XML标准类似,VoiceXML是一种基于文本的语言,它只定义了数据的存取方式,用户必须编写程序,以便能解释、生成、传送VoiceXML文档。
VoiceXML为语音应用领域展现了一个广阔的未来,在语音门户、语音呼叫中心(Call Center) 、语音信息服务、语音电子商务等领域有着广泛的应用。而这些应用或服务可以很容易地和原有的数据系统结合起来,甚至可以轻易地从原有的各类应用中延展出来。使用VoiceXML的应用系统中,不要求用户学习复杂的高级语言,就可灵活扩充新业务。而无需再与开发商联系,重新定制开发,只需要编写几个VoiceXML页面就可以实现新的业务流程。而且编制好的VoiceXML脚本可以随时随地加入到系统中,而不会影响系统的正常运行。
本文简要描述了VoiceXML规范及主要术语,给出了一个基于VoiceXML的语音与数据集成模型。该模型通过VoiceXML解释器和浏览器访问Internet上的VoiceXML文档及数据库,从而实现语音和数据的集成,达到了语音浏览的目标。
2 VoiceXML规范
2.1 结构模型
VoiceXML的结构模型[2] 如图1所示。主要包括文档服务器、VoiceXML解释器程序、VoiceXML解释程序环境和执行平台组成。
图1 VoiceXML 的结构模型
文档服务器,可以是一台WEB服务器,它处理VoiceXML解释程序的请求数据包,文档服务器产生VoiceXML文档并送给VoiceXML解释程序。解释程序对文档中的标识进行分离,产生相应的数据或动作命令,引导和控制用户与执行平台之间的交互作用。同时,VoiceXML解释程序环境和解释程序一起监控用户的输入。比如,一个解释程序环境可能监听用户的操作帮助请求;另一个环境可能监听用户请求更改音量或文本语音输出的某些特性。
执行平台是由解释程序环境和解释程序控制的,例如,在一个交互式的语音应答应用中, VoiceXML解释程序环境能可靠地监测到呼叫,获得初始的VoiceXML文档,并且回答这一呼叫,在回答之后VoiceXML解释程序引导这一对话。执行平台产生事件响应用户的动作(说话或者字符输入)和系统事件(例如计时器溢出)。这些事件中的一部分依照相应的VoiceXML文档按照VoiceXML解释程序的解释加以执行,其他的被VoiceXML解释程序环境控制。执行平台提供字符和语音的输入和音频输出,包括合成语音的输出(TTS,text to speech)、音频文件的播放、话音输入的识别(ASR ,automated speech recognition)、DTMF按键的识别、语音输入的录音等。
2.2 术语
VoiceXML中的基本术语[2]主要有:
会话和子会话(Dialogs and Subdialogs):
会话用于描述应用程序对用户所说的各种提示,定义和收集用户做出的响应,并描述应用程序控制的流程。用户和应用系统用会话轮流进行交互。有两种类型的会话:表格和菜单。表格负责执行会话定义中描述的所有操作,用于封装用户的输入和输出相关的命令。在表格中,可以包含一些域,可以从表格中得到这些域的值。而每个域可以规定允许用户输入的语法定义。菜单允许用户进行选择,而进入到所选的对话中。一个子会话类似一个函数调用,它引起一个新的交互作用并且返回给上一层的表单。
例如,子会话可以用于创建一个在数据库查询时需要的确认序列;创建在单一请求中的多个文档共享的一批组件;或创建一个在多个请求中共享的可重用的会话库。
会话(session):
会话期从用户与VoiceXML解释程序语境交互开始,持续进行文档的装载和处理,直到由用户、文档或解释程序环境发出终止请求才结束。
请求:
一个请求就是一组共享同一个请求根文档的文档。在一个请求中,无论何时用户与文档交互,请求根文档总是被加载。请求根文档被加载后,它的变量作为请求变量被其它文档使用,而且它的文法在请求的持续时间一直起作用。当用户在同一个请求中的不同文档间转换时,请求根文档总是被加载,只有用户转换到别的请求中的文档时,请求根文档才被卸载。
文法(grammar):
每一个会话有一个或多个语音和(或)DTMF文法。在定向对话应用中,一个会话的文法只有在使用者与此会话交互时才起作用。在混合主动式对话中,计算机和用户交替控制下一步的操作,一些会话被标记以使它们的文法(如侦听呼叫)即使当用户在同一文档的其它会话时也起作用。在这种情况下,如果用户进行的操作与另一个会话的有效文法匹配,执行就会转移到另一个会话。
事件(Event):
VoiceXML提供一种表单填充机制以处理"正常"的用户输入。另外,VoiceXML也定义了处理异常事件的机制。如用户在一定时间内没有作出应答,请求系统帮助等情况下平台会产生事件。如果解释程序在VoiceXML文档中发现语义性错误也会产生事件。
链接(Links):
链接支持混合主动式对话,当用户在链接的作用范围时它指定的文法就起作用。如果用户的输入与链接的文法匹配,控制就转移到链接的目的URI。<link>可以用来产生一个事件跳转到目的URI。
应用(Applications):
一个应用是由许多有共同应用根的文档组成。应用根在其中一个文档激活时就被装入,同时,在同一个应用的不同文档之间跳转时,根文档仍然驻留在内存,只有当用户在不同的应用之间跳转时,才会被弃。应用根文档的变量和语法定义都可以被其中的文档访问。
3 基于VoiceXML的语音与数据集成
3.1 总体结构模型
一个VoiceXML应用模型,如图2所示。主要由以下几个部分组成:VoiceXML网关,WEB服务器,数据库服务器。各部分的功能介绍如下。
图2 VoiceXML应用模型
3.2 文档结构及其执行过程
VoiceXML以应用、会话期、文档为单位建立应用结构,以会话为交互单位,逐个完成对话确定流程导向。<vxml>可以看作一个包含会话的容器,所有的VoiceXML文档都是由一系列会话构成的。一组VoiceXML文档之间可以互相跳转,并且构成一个会话的有限状态机。用户总是处于某一会话中,每一个会话决定要转移到的下一个会话。转移由URIs指定,URIs定义下一个要使用的文档和会话。
根文档是一个VoiceXML程序的开始,其中可以包括form、script、var、grammars等元素。VoiceXML程序总是从元素form开始执行,当程序需要跳转时,也是从一个form跳转到另一个form。一般采用多文档的应用结构,在一个应用中有一个根文档,其他文档中用<vxml>来引用。
一个应用的例子,如下:
Application root document (app-root.vxml)
<?xml version="1.0"?>
<vxml version="2.0">
<var name="test" expr="'Man'"/>
<link next="operator_xfer.vxml">
<grammar>
<rule id="root" scope="public">operator</rule>
</grammar>
</link>
</vxml>
Leaf document (leaf.vxml)
<?xml version="1.0"?>
<vxml version="2.0" application="app-root.vxml">
<form id="say_hello">
<field name="answer" type="boolean">
<prompt>Shall we say <value expr="application.test"/>?</prompt>
<filled>
<if cond="answer">
<exit/>
</if>
<clear namelist="answer"/>
</filled>
</field>
</form>
</vxml>
一个VoiceXML的应用是一系列VoiceXML文档的集合。而且每一个应用都包含一个“根文档”,这有点像一个动态网站的default.asp或是index.asp。在VoiceXML应用调用的时候,“根文档”始终被调用。
3.3 VoiceXML网关
3.3.1 语音识别
语音识别使计算机能理解用户的语音命令,产生相应的文字结果,送回VoiceXML解析程序做处理。在VoiceXML网关中,语音识别引擎为命令式的识别引擎,其根据有限的文法)来识别用户的语音信号,并产生对应语法定义的识别结果。在VoiceXML语音浏览器中,文法决定了用户能说什么以及如何说。好的语法能带给用户良好的交互感觉,也能从逻辑上提高语音识别引擎的识别率。
VoiceXML网关中,语音识别不仅需要处理对用户语音信号的识别,同时也需要处理对用户按键的识别,按键和语音以同样的机制被处理和传递。
一个典型的语音识别流程[3]如图3所示。
图3 典型的语音识别流程
可以针对软件结构做一些调整[4],进行数据压缩传输。如图4是一个基于client/server方式的改进方法。
图4 基于client/server方式得语音识别
⑹ 语音脚本
我记得在哪里见过类似的脚本
点“记事本”新建一个记事本文件。在里面输入 CreateObject("SAPI.SpVoice").Speak "I love YOU" 保存扩展名为 .VBS 文件 如:我爱你.vbs 然后 点击这个文件 就会听到一句I LOVE U
中文也是可以的,你再稍加变化估计就是你想要的!
⑺ VBS 语音脚本怎么变成男声
楼主用的什么操作系统?
如果是XP 开始---运行,输入如下内容:
C:\Program Files\Common Files\Microsoft Shared\Speech\sapi.cpl
将缺省语音改一下
或者开始---运行,输入如下内容:
rundll32.exe shell32.dll,Control_RunDLL
打开 语音 然后 将缺省语音改一下
⑻ 黑猫引流工作室软语音引流脚本如何
看你自己需要怎么样的 粉丝吧,不同的app引流脚本,引流的流量是不一样的
⑼ iPad怎么装praat
可以试试脚本安装
praat脚本安装方法praat脚本安装方法1.打开PRAAT,录制一个声音文件,方法如下:点击,选择下拉菜单第一个RecordMonoSound,点击随便录音,然后点旁边的stop停止,再点右下部的savetolist进行保存,则出现。点击右边中间部位的Periodicity,选to pitch 点 ok,点右边的edit进行编辑。
点左上角file选项卡,打开open editor script,选择传给您的FO文件(下载到那个路径需自行寻找)。选择左上角file,选择add to menu,在打开的窗口中command—
栏后填写FO,点ok.
重启PRAAT即可在音高编辑界面file使用该脚本。
Praat语音学软件,原名Praat: doing phonetics by computer,通常简称Praat,是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验,同时生成各种语图和文字报表。