⑴ 有哪些語音助手
我對比了2018年各家手機大廠語音助手,告訴你語音助手哪家強
「對不起,我沒有聽懂,你可以再說一次嗎」
熟悉的台詞再度出現,人們又想起了曾經被手機語音助手支配過的恐懼。
從 2011 年第一款語音助手 Siri 伴隨著 iPhone 4S 驚艷亮相,到現在五花八門、名稱各異的語音助手占據各大主流手機品牌,已經走過了 7 年歷史。據 Strategy Analytics 的報告,2018 年全球出售的智能手機中,有 47.7% 配備了語音助手,而到 2023 年,語音助手滲透率將達到 90%。
2018 年手機語音助手市場份額前三名:Google Assistant,Siri,網路 DuerOS
只不過,在語音助手百花齊放的背後,很多語音助手還是被人們視為調戲的對象,淪落到被貼上「人工智障」的標簽而非「助手」的境地。
復雜環境下拾音不準確,用戶要發音清楚,不得不一字一頓地說話;語義理解不佳,換一種表達方式就答非所問;在公眾場合喚醒語音助手,總是自帶尷尬濾鏡;智能化程度較低,更像是語音識別與搜索功能的簡單疊加;應用場景有限,最多隻能幫你打開 App,還不如觸屏交互便捷。
眾多因素,使得手機語音助手長期成為了雞肋般的存在,大多數用戶使用手機的習慣,還停留在觸屏交互上。以致於有些用戶拿到新手機之後其中一個步驟,就是為了省電而默默關閉後台的語音助手,當然也包括一直奉行「能打字就絕不說話」原則的我。
2018 年各大手機廠商的語音助手動態
然而,從去年開始,人們的刻板印象正發生著變化。當看到「給小張發送 88 塊錢微信紅包並備注生日快樂」這種騷操作也能通過單純說話實現之後,語音助手終於不再被當成一個笑話。Bixby、小愛同學、Jovi 的出現,讓我們不得不重新審視語音助手在手機上的地位。手機廠商、人工智慧服務商、晶元廠商聯手一起,終於開始認真打造起語音助手的用戶體驗了。
本次測評,我們選擇了 2018 上半年主流手機廠商的代表性語音助手:小米小愛同學,華為 HiAssistant,蘋果 Siri,三星 Bixby,vivo Jovi,來一番對比體驗;
測試機型分別為:小米 MIX 2S,華為 P20,蘋果 iPhone 8,三星 S9,vivo NEX;
系統版本分別為:MIUI 9.6,EMUI 8.1,iOS 11.4,Android 8.0,Funtouch OS 4.0。
評測環節分為四個維度:設備控制和系統功能調用,第三方應用支持,對話與智力水平,技能學習能力。各環節分值為 5 分,以下就來看看各家語音助手的表現吧。
Part 1 設備控制和系統功能調用
小愛同學:
華為 HiAssistant:
Siri:
Bixby:
Jovi:
從 2018 年開始,一個明顯的趨勢是,各大手機廠商陸續為語音助手配備獨立的 AI 按鍵,意味著語音助手的地位正逐步提高。
前有三星 S9 的 Bixby 按鍵,後有 vivo NEX 的 Jovi AI 按鍵。按鍵作為手機交互的第一層級,高於觸摸操作,讓用戶在不接觸手機屏幕的情況下快速調用特定功能,同時帶來的好處是,緩解了用戶在公共場合喚醒語音助手的尷尬癌。
音量鍵下方即是三星 S9 的 Bixby 按鍵
除了 Bixby 和 Jovi,小愛同學和 Siri 也在靈活調動已有的按鍵資源為語音助手賦予第二入口。小愛同學可通過長按電源鍵 0.5 秒喚醒,Siri 也可設置長按 Home 鍵喚醒(iPhone X 則是長按電源鍵喚醒),唯獨華為 HiAssistant 沒有實體喚醒入口。不過,從實際體驗上看,從按下按鍵到激活語音助手需要等待 0.5~1 秒,比起語音喚醒沒有顯著的效率提升。
首先從基本的手電筒啟用來看,小愛同學、華為 HiAssistant、Bixby、Jovi 都能迅速地接收指令並開啟手機閃光燈,小愛同學還貼心地提供了開關按鈕。
Siri 則還未擁有調用閃光燈的許可權,不支持開啟手電筒。華為 HiAssistant 可以開啟手電筒但卻不能語音關閉,比較令人費解,而且在語義理解上需要多次糾正才能理解我的意思。
在亮度調節上,5 款語音助手都能很好地完成指令,而且都能展示亮度條實現精準調節。從下圖可以一窺各家語音助手的 UI 風格,小愛同學和 Jovi 多是以懸浮窗的形式呈現交互界面,華為 HiAssistant 和 Bixby 經常以對話框或跳轉到相應設置界面來呈現,而 Siri 不管是系統內還是第三方應用操作都是在對話框完成。
懸浮窗給人的直觀感受在於語音交互都在原有頁面層級之上進行,減少了頻繁跳轉界面給用戶帶來的割裂感,這一點小愛同學做的尤為出色。
在計算功能和日程提醒上,各家語音助手都能勝任,其中華為 HiAssistant 還能讓用戶確認是否確認創建提醒,同樣可以注意不同語音助手的 UI 設計。
當我想給朋友發簡訊或打電話時,華為 HiAssistant、Siri、Bixby 和 Jovi 都能迅速給出反饋,在編輯好簡訊後需要手動點擊「發送」確認;小愛同學在收到指令後只是打開了簡訊應用,既沒有搜索聯系人也沒有進行簡訊編輯。
信息搜索上,當我說出「今天天氣如何」,華為 HiAssistant、Siri、Bixby 和 Jovi 都提供了每小時的天氣狀況,Bixby 更是給出了一份氣溫曲線圖,比較專業。在描述上,小愛同學和 Jovi 會給出比較直觀化的陳述,例如「挺熱的」、「非常熱」,Jovi 還會提醒你注意防暑。
了解完天氣,我還想知道今天的新聞。小愛同學會直接跳轉到瀏覽器自帶的新聞欄目;華為 HiAssistant 會接入神馬搜索的新聞排行榜;Siri 則是在對話框中直接彈出瀏覽器搜索結果;Bixby 會跳轉到新浪新聞;Jovi 則接入的是騰訊新聞,一組五條,還提供語音播報。
新聞搜索方面,Jovi 的表現是最好的,小愛同學也基本滿足「今日新聞」的需求。其餘三款語音助手都還需要用戶手動搜索才能找出今天的新聞,有點不太走心。
又到了午飯時間,「附近有哪些地方吃的」,小愛同學是去瀏覽器搜索關鍵詞;華為 HiAssistant 和 Bixby 都調用了大眾點評的服務;而 Siri 使用了自家地圖應用幫我找餐館。
對於本地搜索,我想讓語音助手找出最近的一條簡訊。小愛同學又耿直地在瀏覽器搜索欄查找「最近一條簡訊」;華為 HiAssistant 則是答非所問;Siri 雖然找出了,但不是很懂為什麼不能跳轉到簡訊應用而是通過語音播報。只有 Bixby 和 Jovi 完美實現這一需求。
在一些復雜的深度設置上,例如將「鎖屏時間設置為 10 分鍾」。這時小愛同學直接表示「臣妾做不到」;華為 HiAssistant 和 Jovi 都只能幫你跳轉到設置頁面,鎖屏時間還需要自己去調整;Siri 更是連界面跳轉都還需要用戶點按。只有 Bixby 能自動幫你調整好鎖屏時間。
備忘錄測試可以檢驗各家語音助手的聽寫識別水平。當我說出「創建備忘錄,記錄甲方如更改活動方案需及時告知乙方」,這里包含兩層操作,一是激活備忘錄應用,二是聽寫文段「甲方如更改活動方案需及時告知乙方」。
在這里 Siri、Bixby、Jovi 都能實現激活備忘錄 + 聽寫,而華為 HiAssistant 雖然能創建備忘錄,但語義理解能力不佳,嘗試幾次都不無法錄入完整的句子。
小愛同學的表現更為突出,在這里備忘錄的創建分為三步。第一步錄入語句,第二步確認文段是否正確,甚至你還能繼續錄入文段,實現分點記錄!第三步即可呈現在備忘錄中。
對於「幫我卸載應用」這一需要更高系統許可權的指令,5 款語音助手都表示愛莫能助。
值得一提的是,各家廠商的特色功能也能拓展語音助手的使用場景,例如小愛同學、華為 HiAssistant、Bixby、Jovi 可以通過語音調用自家系統的「智能識圖」功能,輕松實現智能翻譯、智能識物、智能掃碼等功能,算是一個加分項。
另外,小愛同學還有一個強有力的殺手鐧,那就是它背後所連接著的龐大米家生態鏈。只需要呼喚一句「小愛同學」,綁定著的米家產品都可以被喚醒,極大豐富了用戶體驗。
通過小愛同學控制米家台燈
Part 2 第三方應用支持
小愛同學:
華為 HiAssistant:
Siri:
Bixby:
Jovi:
很多 iOS 的用戶都知道,Siri 的第三方應用支持是一個永遠的痛。盡管作為語音助手的鼻祖,但因為蘋果一直以來的隱私政策,加上接入第三方應用 API 需要冗長的業務談判,導致伴隨 iOS 迭代數年的 Siri 可支持第三方應用依然屈指可數。
iPhone 安裝的 40 多個第三方應用中,支持 Siri 的寥寥無幾
許多對隱私敏感的用戶也許會贊同蘋果的做法,只不過很大程度上限制了語音助手的價值。從 2017 年開始,其他手機廠商另闢蹊徑,通過模擬手指點擊的方式,巧妙避開了 API 介面和復雜的商業談判,實現各個 App 內的深度操作。
在微信上,5 款語音助手都能實現簡單的「給 XX 發微信,今天晚上一起吃飯」。對於發送微信紅包並備注這種操作,華為 HiAssistant 表示需要你先選擇應用程序;Siri 直接耿直地發送「100 塊錢的」信息;而小愛同學、Bixby、Jovi 實現的方式如出一轍,整個過程實測 5-6 秒,比手動操作更便捷:
打開微信 App;
在搜索欄檢索聯系人的首字母或拼音,例如「小炫」首字母即「xx」。不過小愛同學的文字呈現有些偏差,雖然准確識別了灣仔的拼音「wan zai」,但在懸浮窗中呈現的卻是「一載」;
進入聊天界面,點擊紅包按鈕;
輸入金額和備注內容,詢問是否發送。
當我想查看最新的微信朋友圈,小愛同學、Bixby、Jovi 均可實現;華為 HiAssistant 則去了瀏覽器搜索「朋友圈」;Siri 雖然准確識別了我的需求,還是可憐巴巴跟我說「我很想幫你,但微信還不支持這種操作」。
在微博上,華為 HiAssistant 和 Bixby 一樣都能「打開微博,發送今天很開心」,總算幫華為挽回了一點顏面;小愛同學和 Jovi 都只能幫你打開應用,而不能進行深度操作;Siri 就連打開應用都需要用戶手動點擊。
在 Bixby 的對話框中,可以發現在微博應用下對話框有一個小小的微博圖標。意味著 Bixby 此時進入了應用內操作模式,Bixby 可以理解當前的應用環境,用戶對該應用的所有指令 Bixby 都能進行識別和操作,這種細節值得給一個好評。
Bixby 在應用內模式下的微博圖標
在導航方面,華為 HiAssistant 和 Bixby 使用的是網路地圖,能直接在應用內啟用網路 DuerOS 語音服務,非常方便;小愛同學和 Jovi 使用的是高德地圖;Siri 調用的是自家的地圖應用。此外比較突出的是 Jovi 還能通過語音設定途徑點。
而對於網易雲、QQ 音樂等應用,Siri 直接表示不支持;華為 HiAssistant 貨不對板,「播放網易雲的推薦歌單」卻給我打開了本地音樂應用;只有 Bixby 和 Jovi 可以無障礙打開應用播放指定音樂。
有趣的是,對小愛同學說「打開網易雲音樂播放青花瓷」,它只能打開網易雲音樂應用本身。而當我對小愛同學命令「打開 QQ 音樂播放青花瓷」時,它卻行雲流水般打開應用,搜索《青花瓷》,點開播放,合作方的待遇果然不一樣。
「在愛奇藝上搜索播放楚喬傳」,只有小愛同學自動打開播放了《楚喬傳》,華為 HiAssistant、Bixby、Jovi 只能打開應用本身。而且讓人眼前一亮的是,如果對小愛同學說出影視劇的名稱,它就會把擁有該劇版權的 App 信息匯總給你,讓用戶省去了提前了解哪個 App 擁有版權的麻煩。
Part 3 對話與智力水平
小愛同學:
華為 HiAssistant:
Siri:
Bixby:
Jovi:
從聲音體驗來說,比起 Siri、華為 HiAssistant、小愛同學充滿機械味的音色,Bixby 的音色、語氣停頓是最接近人聲的,對話起來很舒服。Bixby 的男聲配音員名叫王聰,女聲配音員叫張喆,他們錄制了不少完整的實際場景語音,然後再經由三星研究院合成,因此 Bixby 的發音十分自然。
在自然語言理解方面,Bixby 和 Jovi 的表現也非常出色。「我想看五月拍的照片」和「五月的照片幫我搜索一下」這種同一指令不同的表達方式,它們都可以准確識別。相比之下,華為 HiAssistant 要遜色不少,很多時候必須要不斷調整句子語序,答非所問的情況依然很嚴重。
小愛同學在對數字進行語義理解時,會更偏向中文數字的理解,即錄入的文段是「一二三」而非「123」。而在英文理解方面,小愛同學的識別精度也並不是很准確,跟它說「打開 FM」,它識別成「打開 FA 夢」;跟它說「打開 Yeelight 台燈」,它識別成「打開依賴台燈」,或許准確的英文識別需要更地道的口語水平,這可多少有點為難我了。
同時,我發現 5 款語音助手都無法准確斷句,所以在聽寫長文時,我們還是得手動輸入標點。
在講笑話方面,發現除了 Siri,其他都沒有找到笑點,是我理解能力太低了嗎?
相比之下,華為 HiAssistant 莫名其妙的回答和小愛同學實力賣老闆,反而更能博人一笑。
「你的爸爸是誰」,小愛同學、Jovi、華為 HiAssistant 的回答比較耿直;Siri 的回答很溫馨;Bixby 的回答非常婉轉含蓄。
當問及如何評價自家品牌與競品時,只有華為 HiAssistant 勇敢地誇耀自己;小愛同學、Siri、Bixby 在網上搜集一堆觀點交給用戶評判;而 Jovi 用一個充滿哲理的回答打起了太極,可以說求生欲非常強了。
而在「什麼是隱形貧困人口」「哲學的基本問題是什麼問題」這種知識性問答上,華為 HiAssistant 充分發揚了「不知為不知」的精神;其餘 4 款則從搜索引擎上把解釋摘錄下來,小愛同學的回答還附上了貼圖。
Part 4 技能學習能力
小愛同學:
華為 HiAssistant:
Siri:
Bixby:
Jovi:
與 AI 獨立按鍵一樣,2018 年另一大趨勢,是各大廠商開始打造自己的語音助手學習平台,讓用戶成為語音助手的老師,使之「越用越懂你」。
5 款語音助手中, 小愛同學、Bixby、Jovi 都有自己的技能學習平台,而 Siri 和華為 HiAssistant 則落後於時代,不過隨著 iOS 12 正式版發布,擁有 Shortcuts 加持的 Siri 也許能重獲新生。
Bixby 的技能學習分為「自定義聊天內容」和「快捷命令」兩大板塊。「自定義聊天內容」可以把 Bixby 對特定語句的反饋改造成個性化的回答,從實用性來說意義不大。
「快捷命令」則可以把多條命令匯總到一句話中,例如一句「導航回家」,就可以把「開啟導航」、「輸入目的地」、「調高音量」、「調高亮度」、「發送微信告訴家人我要回家了」等五項操作連在一起編成一句指令,簡化了操作步驟。
不過缺點在於,用戶只能調取 Bixby 命令庫中的命令,其實還是工程師提前預設好的,用戶並不能隨心所欲地定義自己的操作。例如在手機淘寶命令庫中,只能找到「搜索賣傢具的店鋪」這一命令,而沒有「搜索賣電器的店鋪」「搜索賣文具的店鋪」,本質上還是一種偽技能學習。
小愛同學、Jovi 的「錄屏教學」模式,應該是最接近真正意義上的自定義操作。在 Jovi 語音 App 和小愛同學 App 上,分別找到「我的教學命令」和「訓練計劃」,打開錄屏教學模式,用戶模擬一遍操作流程,語音助手即可記住你的點按套路。
Jovi 技能學習平台
例如,在沒有教小愛同學之前,小愛同學是沒辦法做到「打開嗶哩嗶哩觀看人生一串」這樣的操作的。打開錄屏教學,我先親手模擬一遍操作流程:
回到主屏;
打開嗶哩嗶哩 App;
在搜索欄輸入人生一串;
點開人生一串視頻;
點擊播放。
小愛同學技能學習平台
小愛同學記住了我的操作套路後,當我說出指定口令,小愛同學就像流水線一樣對我的演示進行復現。
小愛同學和 Jovi 可以支持應用內「點擊」以及「文本輸入」這兩種類型的教學,滿足大部分 App 內的操作方式。
如果不想手把手對語音助手教學,小愛同學和 Jovi 分別還有「公共訓練」和「Jovi 廣場」,可以找到其他用戶共享的創意技能,添加到自己的教學命令中。
在小愛同學的公共訓練中可以找到其他用戶分享的命令
錄屏教學極大地激發了用戶的創造性,類似「支付寶收能量」(打開支付寶,點擊更多、財富管理、螞蟻森林),「浦發信用卡還款」(打開浦發銀行,點擊信用卡還款),「我想吃肯德基」(打開餓了么,點擊搜索,輸入肯德基)這些命令已經在技能廣場上屢見不鮮。這也讓我有一個大膽的想法:如果通過錄屏教學,教會語音助手幫我每天領取「絕地求生」的登陸獎勵,豈不是美滋滋?
嘗試過後,我發現我還是太年輕,幾次教學都止步於「賬號登陸」這一步。看來對於登陸游戲這種更高級別的許可權,已經不是手機廠商能夠給予的了,當語音助手也能自動幫你刷分領經驗,這不是在搶游戲腳本的飯碗嗎?
寫在最後,語音助手的未來是什麼樣子
智能手機的「智能」,體現在何處?
是多任務運行?是滑動屏幕時的卷軸特效?還是像電腦一樣可擴展第三方應用程序?
10 年前,這些令我們驚呼 Amazing 的特性,現在早已成為了習以為常的存在。
今天的「智能」,在我看來,即「所想即所得」。
當我想獲知某類信息時,它能立即給我答案;當我想使用某項服務,它能迅速地調出,不需要頻繁切換界面,一步到位;當我處於某個場景下,它還能預知預判我的下一步行為,並把一切工作準備妥當。
Jovi 的智能服務矩陣,語音交互其實只是手機 AI 的一部分
我們使用手機的方式多種多樣,盡管通過語音交互不能百分百接管所有的場景,但隨著小愛同學、Bixby、Jovi 技能學習平台的出現,讓我們看到語音助手正逐漸找到自己的定位——專注於解決較繁瑣但卻有規律可循的任務,簡化用戶調取手機服務的流程。
讓用戶自己教導和訓練 AI,不需要去「不斷嘗試」什麼樣的指令是語音助手能聽懂的,App 開發者也不再需要去思考「用戶會說什麼關鍵詞來觸發我的服務」。
讓一句話,同時進行設鬧鍾、開勿擾、打開白噪音、發送微信表情、關燈等幾種操作。給語音助手編寫好「工作流」,設置「觸發詞」,製作一個個語音開關,實現「一觸即發」的體驗。這正是語音助手所擅長的,也是小愛同學、Bixby、Jovi 以及 iOS 12 的 Shortcuts 的發展方向。
回到我們今天對比的 5 款語音助手,小愛同學的懸浮窗 UI 和背後龐大的米家生態鏈成為它的加分項;Bixby 擁有最出色的自然語言理解能力和音色調校;作為後起之秀的 Jovi 憑借技能廣場,在打造技能生態上已經初露鋒芒; Siri 則受限於系統,祝願它能在 iOS 12 正式推出之後完成蛻變;至於華為 HiAssistant,語義理解和可支持的服務似乎還停留在 7 年前的水平,需要繼續努力。
我希望,未來的語音助手,不僅僅是充當「一觸即發」的語音開關,還能舉一反三,將類似的「工作流」應用在更多的場景下,真真正正幫助用戶提高效率。
⑵ 一對一聊天自動打招呼腳本賺錢嗎
一對一聊天自動打招呼腳本賺錢的。
首先,在平台里,女生是免費上傳照片,修改資料,收發消息,收發視頻的。而男生則需要充值才能進行修改資料,給女生發消息,打語音電腦等等操作。其中一條文字消息0.02~0.03元不等,1分鍾語音1塊~3塊不等。
⑶ 按鍵精靈腳本,功能是歪歪語音聊天,自動上麥,然後下麥後繼續自動上麥,下麥到上麥時間是不固定的,所...
您好,如果上麥下麥這兩個字的顏色,位置都是固定始終不變的,可以使用文字識別或者找圖功能來判斷是否需要執行的操作!很高興為您解答!
⑷ 黑貓腳本圈裡的TT語音引流腳本又什麼功能
附近人私信,開黑私信,評論功能,具體的你自己去他們的 官網裡面看一下,我就是用的他們家的
⑸ 什麼是voiceXml
VoiceXML是建立於XML 語言規范基礎之上,是一種應用於語音瀏覽的標記語言。利用VoiceXML可以建立基於WEB的語音應用和服務。本文簡要描述了VoiceXML規范及相關術語,並給出了一種基於VoiceXML的語音與數據集成模型,它主要由語音瀏覽器、語音識別、語音合成和VoiceXML網關等部分組成。應用該模型,可以方便地建立各種基於WEB的語音應用系統。
關鍵詞 VoiceXML 集成 模型 語音瀏覽器
1 引言
隨著電子商務、客戶服務等信息服務的普遍化,互動式語音應答系統(IVR ,Interactive Voice Response)在各種商業系統中的應用越來越廣泛。然而這種語音交互方式存在以下缺點[1]:(1)移植性、靈活性差;(2)在實際系統上做應用開發的難度很大,特別是涉及到話音流程的編寫及調試問題;(3)無法綜合利用現在的WEB資源。而將IVR系統Internet化,可以增加系統可重用的機會,降低成本,這必將成為今後語音應用的一種主要趨勢。另一方面,到目前為止,人們從Internet獲取各種資源時,還只能是藉助計算機來實現。而實際上,電話具有比計算機更高的普及率,如果允許人們通過電話來訪問Internet的資源,那麼這對於Internet的應用發展必將是一次質的飛躍。
在這類應用前景的驅動下,VoiceXML [2] 標准被提出來了,它是由World Wide Web Consortium (W3C)制定的。利用這種技術,用戶可以通過電話按鍵或語音來訪問Internet上的各種資源,它是語音瀏覽技術以及語音互聯網的核心。與XML標准類似,VoiceXML是一種基於文本的語言,它只定義了數據的存取方式,用戶必須編寫程序,以便能解釋、生成、傳送VoiceXML文檔。
VoiceXML為語音應用領域展現了一個廣闊的未來,在語音門戶、語音呼叫中心(Call Center) 、語音信息服務、語音電子商務等領域有著廣泛的應用。而這些應用或服務可以很容易地和原有的數據系統結合起來,甚至可以輕易地從原有的各類應用中延展出來。使用VoiceXML的應用系統中,不要求用戶學習復雜的高級語言,就可靈活擴充新業務。而無需再與開發商聯系,重新定製開發,只需要編寫幾個VoiceXML頁面就可以實現新的業務流程。而且編制好的VoiceXML腳本可以隨時隨地加入到系統中,而不會影響系統的正常運行。
本文簡要描述了VoiceXML規范及主要術語,給出了一個基於VoiceXML的語音與數據集成模型。該模型通過VoiceXML解釋器和瀏覽器訪問Internet上的VoiceXML文檔及資料庫,從而實現語音和數據的集成,達到了語音瀏覽的目標。
2 VoiceXML規范
2.1 結構模型
VoiceXML的結構模型[2] 如圖1所示。主要包括文檔伺服器、VoiceXML解釋器程序、VoiceXML解釋程序環境和執行平台組成。
圖1 VoiceXML 的結構模型
文檔伺服器,可以是一台WEB伺服器,它處理VoiceXML解釋程序的請求數據包,文檔伺服器產生VoiceXML文檔並送給VoiceXML解釋程序。解釋程序對文檔中的標識進行分離,產生相應的數據或動作命令,引導和控制用戶與執行平台之間的交互作用。同時,VoiceXML解釋程序環境和解釋程序一起監控用戶的輸入。比如,一個解釋程序環境可能監聽用戶的操作幫助請求;另一個環境可能監聽用戶請求更改音量或文本語音輸出的某些特性。
執行平台是由解釋程序環境和解釋程序控制的,例如,在一個互動式的語音應答應用中, VoiceXML解釋程序環境能可靠地監測到呼叫,獲得初始的VoiceXML文檔,並且回答這一呼叫,在回答之後VoiceXML解釋程序引導這一對話。執行平台產生事件響應用戶的動作(說話或者字元輸入)和系統事件(例如計時器溢出)。這些事件中的一部分依照相應的VoiceXML文檔按照VoiceXML解釋程序的解釋加以執行,其他的被VoiceXML解釋程序環境控制。執行平台提供字元和語音的輸入和音頻輸出,包括合成語音的輸出(TTS,text to speech)、音頻文件的播放、話音輸入的識別(ASR ,automated speech recognition)、DTMF按鍵的識別、語音輸入的錄音等。
2.2 術語
VoiceXML中的基本術語[2]主要有:
會話和子會話(Dialogs and Subdialogs):
會話用於描述應用程序對用戶所說的各種提示,定義和收集用戶做出的響應,並描述應用程序控制的流程。用戶和應用系統用會話輪流進行交互。有兩種類型的會話:表格和菜單。表格負責執行會話定義中描述的所有操作,用於封裝用戶的輸入和輸出相關的命令。在表格中,可以包含一些域,可以從表格中得到這些域的值。而每個域可以規定允許用戶輸入的語法定義。菜單允許用戶進行選擇,而進入到所選的對話中。一個子會話類似一個函數調用,它引起一個新的交互作用並且返回給上一層的表單。
例如,子會話可以用於創建一個在資料庫查詢時需要的確認序列;創建在單一請求中的多個文檔共享的一批組件;或創建一個在多個請求中共享的可重用的會話庫。
會話(session):
會話期從用戶與VoiceXML解釋程序語境交互開始,持續進行文檔的裝載和處理,直到由用戶、文檔或解釋程序環境發出終止請求才結束。
請求:
一個請求就是一組共享同一個請求根文檔的文檔。在一個請求中,無論何時用戶與文檔交互,請求根文檔總是被載入。請求根文檔被載入後,它的變數作為請求變數被其它文檔使用,而且它的文法在請求的持續時間一直起作用。當用戶在同一個請求中的不同文檔間轉換時,請求根文檔總是被載入,只有用戶轉換到別的請求中的文檔時,請求根文檔才被卸載。
文法(grammar):
每一個會話有一個或多個語音和(或)DTMF文法。在定向對話應用中,一個會話的文法只有在使用者與此會話交互時才起作用。在混合主動式對話中,計算機和用戶交替控制下一步的操作,一些會話被標記以使它們的文法(如偵聽呼叫)即使當用戶在同一文檔的其它會話時也起作用。在這種情況下,如果用戶進行的操作與另一個會話的有效文法匹配,執行就會轉移到另一個會話。
事件(Event):
VoiceXML提供一種表單填充機制以處理"正常"的用戶輸入。另外,VoiceXML也定義了處理異常事件的機制。如用戶在一定時間內沒有作出應答,請求系統幫助等情況下平台會產生事件。如果解釋程序在VoiceXML文檔中發現語義性錯誤也會產生事件。
鏈接(Links):
鏈接支持混合主動式對話,當用戶在鏈接的作用范圍時它指定的文法就起作用。如果用戶的輸入與鏈接的文法匹配,控制就轉移到鏈接的目的URI。<link>可以用來產生一個事件跳轉到目的URI。
應用(Applications):
一個應用是由許多有共同應用根的文檔組成。應用根在其中一個文檔激活時就被裝入,同時,在同一個應用的不同文檔之間跳轉時,根文檔仍然駐留在內存,只有當用戶在不同的應用之間跳轉時,才會被棄。應用根文檔的變數和語法定義都可以被其中的文檔訪問。
3 基於VoiceXML的語音與數據集成
3.1 總體結構模型
一個VoiceXML應用模型,如圖2所示。主要由以下幾個部分組成:VoiceXML網關,WEB伺服器,資料庫伺服器。各部分的功能介紹如下。
圖2 VoiceXML應用模型
3.2 文檔結構及其執行過程
VoiceXML以應用、會話期、文檔為單位建立應用結構,以會話為交互單位,逐個完成對話確定流程導向。<vxml>可以看作一個包含會話的容器,所有的VoiceXML文檔都是由一系列會話構成的。一組VoiceXML文檔之間可以互相跳轉,並且構成一個會話的有限狀態機。用戶總是處於某一會話中,每一個會話決定要轉移到的下一個會話。轉移由URIs指定,URIs定義下一個要使用的文檔和會話。
根文檔是一個VoiceXML程序的開始,其中可以包括form、script、var、grammars等元素。VoiceXML程序總是從元素form開始執行,當程序需要跳轉時,也是從一個form跳轉到另一個form。一般採用多文檔的應用結構,在一個應用中有一個根文檔,其他文檔中用<vxml>來引用。
一個應用的例子,如下:
Application root document (app-root.vxml)
<?xml version="1.0"?>
<vxml version="2.0">
<var name="test" expr="'Man'"/>
<link next="operator_xfer.vxml">
<grammar>
<rule id="root" scope="public">operator</rule>
</grammar>
</link>
</vxml>
Leaf document (leaf.vxml)
<?xml version="1.0"?>
<vxml version="2.0" application="app-root.vxml">
<form id="say_hello">
<field name="answer" type="boolean">
<prompt>Shall we say <value expr="application.test"/>?</prompt>
<filled>
<if cond="answer">
<exit/>
</if>
<clear namelist="answer"/>
</filled>
</field>
</form>
</vxml>
一個VoiceXML的應用是一系列VoiceXML文檔的集合。而且每一個應用都包含一個「根文檔」,這有點像一個動態網站的default.asp或是index.asp。在VoiceXML應用調用的時候,「根文檔」始終被調用。
3.3 VoiceXML網關
3.3.1 語音識別
語音識別使計算機能理解用戶的語音命令,產生相應的文字結果,送回VoiceXML解析程序做處理。在VoiceXML網關中,語音識別引擎為命令式的識別引擎,其根據有限的文法)來識別用戶的語音信號,並產生對應語法定義的識別結果。在VoiceXML語音瀏覽器中,文法決定了用戶能說什麼以及如何說。好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率。
VoiceXML網關中,語音識別不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機制被處理和傳遞。
一個典型的語音識別流程[3]如圖3所示。
圖3 典型的語音識別流程
可以針對軟體結構做一些調整[4],進行數據壓縮傳輸。如圖4是一個基於client/server方式的改進方法。
圖4 基於client/server方式得語音識別
⑹ 語音腳本
我記得在哪裡見過類似的腳本
點「記事本」新建一個記事本文件。在裡面輸入 CreateObject("SAPI.SpVoice").Speak "I love YOU" 保存擴展名為 .VBS 文件 如:我愛你.vbs 然後 點擊這個文件 就會聽到一句I LOVE U
中文也是可以的,你再稍加變化估計就是你想要的!
⑺ VBS 語音腳本怎麼變成男聲
樓主用的什麼操作系統?
如果是XP 開始---運行,輸入如下內容:
C:\Program Files\Common Files\Microsoft Shared\Speech\sapi.cpl
將預設語音改一下
或者開始---運行,輸入如下內容:
rundll32.exe shell32.dll,Control_RunDLL
打開 語音 然後 將預設語音改一下
⑻ 黑貓引流工作室軟語音引流腳本如何
看你自己需要怎麼樣的 粉絲吧,不同的app引流腳本,引流的流量是不一樣的
⑼ iPad怎麼裝praat
可以試試腳本安裝
praat腳本安裝方法praat腳本安裝方法1.打開PRAAT,錄制一個聲音文件,方法如下:點擊,選擇下拉菜單第一個RecordMonoSound,點擊隨便錄音,然後點旁邊的stop停止,再點右下部的savetolist進行保存,則出現。點擊右邊中間部位的Periodicity,選to pitch 點 ok,點右邊的edit進行編輯。
點左上角file選項卡,打開open editor script,選擇傳給您的FO文件(下載到那個路徑需自行尋找)。選擇左上角file,選擇add to menu,在打開的窗口中command—
欄後填寫FO,點ok.
重啟PRAAT即可在音高編輯界面file使用該腳本。
Praat語音學軟體,原名Praat: doing phonetics by computer,通常簡稱Praat,是一款跨平台的多功能語音學專業軟體,主要用於對數字化的語音信號進行分析、標注、處理及合成等實驗,同時生成各種語圖和文字報表。