信息時代,科學技術的飛速發展帶動人工智能化技術的更新進步。機器人的應用領域和範圍也越來越廣泛,在生產、建築、旅遊等各個行業都能夠看到人工智能機器人的身影。 旅遊產業與互聯網的結合,要隨著信息技術的發展與時俱進。物聯網、人工智能、虛擬現實等新興的互聯網技術讓旅遊產業的未來充滿了挑戰與機遇,導遊等依賴大數據的職業完全可能被人工智能機器人取代。
本文主要介紹語音識別技術在智能語音機器人中的應用,一般語音機器人的設計開發主要著眼於“能聽會說”,力(li)圖(tu)利(li)用(yong)語(yu)音(yin)識(shi)別(bie)和(he)語(yu)音(yin)合(he)成(cheng)等(deng)技(ji)術(shu),將(jiang)模(mo)擬(ni)的(de)聽(ting)說(shuo)能(neng)力(li)賦(fu)予(yu)機(ji)器(qi)人(ren)並(bing)生(sheng)動(dong)地(di)展(zhan)示(shi)給(gei)觀(guan)眾(zhong),主(zhu)要(yao)應(ying)用(yong)於(yu)展(zhan)廳(ting)博(bo)物(wu)館(guan)等(deng)場(chang)景(jing),需(xu)考(kao)慮(lv)到(dao)機(ji)器(qi)人(ren)所(suo)處(chu)環(huan)境(jing)非(fei)常(chang)嘈(cao)雜(za),因(yin)此(ci)對(dui)係(xi)統(tong)的(de)穩(wen)定(ding)性(xing)和(he)抗(kang)噪(zao)性(xing)能(neng)都(dou)提(ti)出(chu)了(le)較(jiao)高(gao)的(de)要(yao)求(qiu)。此(ci)外(wai),由(you)於(yu)參(can)與(yu)的(de)觀(guan)眾(zhong)來(lai)自(zi)全(quan)國(guo)各(ge)地(di),涉(she)及(ji)不(bu)同(tong)性(xing)別(bie)、年齡、地域口音,所以係統聲學模型的分類設計、調練和自動切換也是一個重要的設計要素。
智能語音機器人的總體設計
智zhi能neng機ji器qi人ren與yu觀guan眾zhong采cai用yong相xiang互hu問wen答da的de小xiao型xing對dui話hua形xing式shi進jin行xing交jiao流liu。為wei實shi現xian上shang方fang便bian,可ke把ba問wen答da對dui話hua的de領ling域yu進jin行xing合he理li的de限xian製zhi。除chu迎ying賓bin和he問wen候hou語yu外wai,可ke以yi設she計ji4個問題域:有關時間、日期和星期的問答,有關全世界各大城市所在時區和當地時間的問答,100以內的數學四則運算題目的問答,沒有關係機器人的身世、本領等自身情況的問答。對於每個限定的問題域,相應詞彙表的大小是有限的。在限定領域、有限詞彙的條件下,機器人基本可以與觀眾進行自由問答,並可以在不同的問題與之間相互切換。係統工作流程圖如下。

係統啟動並初始化後處於等待狀態,如果沒有觀眾靠近,機器人就定時反複播放自我介紹。如果有觀眾參觀(由紅外探測配合),係統檢測到語音信號,便會從等待狀態進入問答狀態。在觀眾預先選定的問題域內,機器人將和觀眾進行“自由”問答,在回答觀眾提問的同時,機器人會有協調的動作加以配合:針zhen對dui不bu同tong觀guan眾zhong對dui機ji器qi人ren所suo提ti問wen題ti的de不bu同tong回hui答da,機ji器qi人ren會hui有you不bu同tong的de相xiang應ying,並bing以yi此ci決jue定ding下xia一yi步bu的de動dong作zuo。在zai某mou些xie問wen題ti域yu內nei,機ji器qi人ren在zai對dui文wen檔dang話hua過guo程cheng中zhong還hai會hui向xiang觀guan眾zhong提ti出chu一yi些xie問wen題ti,並bing等deng待dai觀guan眾zhong回hui答da。如ru果guo觀guan眾zhong回hui答da正zheng確que,機ji器qi人ren將jiang表biao示shi祝zhu賀he,否fou則ze機ji器qi人ren將jiang給gei出chu合he理li的de提ti示shi(如噪聲太大,講話聲音要大點,沒有聽清楚或者你的答案不正確等)。多次回答不正確時,機器人將給出正確答案,機器人與觀眾對話結束後,向觀眾道別,再次轉入等待狀態。
核心語音模塊及關鍵技術
語音模塊是智能機器人的核心構件,它完成的功能包括:機ji器qi人ren從cong外wai界jie接jie收shou觀guan眾zhong的de語yu街jie,送song入ru語yu音yin識shi別bie器qi進jin行xing識shi別bie,再zai從cong識shi別bie結jie果guo中zhong提ti取qu若ruo幹gan關guan鍵jian詞ci,而er後hou通tong過guo對dui這zhe些xie關guan詞ci的de分fen析xi,將jiang其qi映ying射she為wei某mou個ge問wen題ti:jiqirenzaizhenduiciwentishengchenghuida,zuihoujiangwenbenxingshidedaanhechengweiyuyin,shuchugeiguanzhong。ruguoguanzhongdewentichaochuxiandingdeduihuafanweihuozheshibiejieguokexindubugao,zezaidaanshengchengjieduangeichucuowutishi,bingyouyuyinhechengqishuchu。ruguojiqirenxiangxiangguanzhongtichuwenti,yeyaoyouyuyinhechengqihechenghoushuchu,mokuaidezhengtikuangjiaruxiatusuoshi。

1.問題域相關的數據組織
機器人與觀眾的問答將限定在某個問題域內進行,針對每個問題域,我們確定了有限大小的“詞彙表”,並通過大量的語料訓練出相應的基於詞類的統計“語言模型”“關鍵詞表”可以從“詞彙表”中提煉得到,它記錄的是對於理解問題有實質作用的詞彙及其相關信息,此外還要在“關鍵詞表”的基礎上形成“關鍵詞類型組合模板庫”,其中每個模板代表問題域內的一類具體問題。

2.識別結果的可信度度量及拒識
從以上框圖可以看到,語音識別器的識別結果作為“關鍵詞提取”和“問題理解等後續各個步驟的原始輸入,它的正確與否直接影響到整個係的性能。
在限定領域限定詞彙量的條件下,如果觀眾的提問或回答不超出限定的詞彙,識別結果的正確率可以達到95%yishang。danshi,yidanwentichaochuxiandingdelingyuhuozhechuxianlejiwaici,shibieqidexingnengjiuhuiyanzhongxiajiang。yinciduishibieqishibiejieguodekexindujinxingduliangjiuxiandefeichangzhongyao,takeyijiangdijiwaici(OOV)帶來的不利影響。
我(wo)們(men)采(cai)取(qu)的(de)方(fang)法(fa)是(shi)利(li)用(yong)統(tong)計(ji)語(yu)言(yan)模(mo)型(xing)衡(heng)量(liang)識(shi)別(bie)所(suo)得(de)到(dao)的(de)整(zheng)個(ge)句(ju)子(zi)的(de)可(ke)信(xin)度(du)。如(ru)果(guo)一(yi)個(ge)句(ju)子(zi)的(de)詞(ci)誤(wu)識(shi)率(lv)比(bi)較(jiao)低(di),構(gou)成(cheng)這(zhe)個(ge)句(ju)子(zi)的(de)眾(zhong)多(duo)三(san)元(yuan)短(duan)語(yu)(w1w2,w3),會比較多的出現在統計語言模型Trigram中;反之如果出現較多的識別錯誤,那麼句子中大部分的詞w1和元短語(wl,w2)將出現在Unigram或Bigram中,很少有三元短語命中Trigram對於一個由若幹詞W,W2,,Wi,…Wn構成的句子,我們根據各個詞及它所構成的知語在統計語言模型中出現的情況對其中每個詞打分。出現在Trigram中的可信度高,因而得分較高,出現在Bigram或Unigramzhongdekexindudi,yinerdefenjiaodi。zaizaigegecidefendejichushangdedaozhenggejuzidekexindudefen。ruodefendiyumougemenxian,zerenweijuzizhongbaohanjiaoduodeshibiecuowuhuozhejiwaici,kexindujiaodi,yingdangbeijushi。
3.關鍵詞檢測
congshibieqidedaodeshibiejieguo,shiyouyigegecigouchengdecixulie,qizhongmouxieciduiyulijiezhenggejuziyouzhefeichangzhongyaodezuoyong,zhejiushiwomensuoshuodeguanjianci。zaizhebuyaozuodejiushitiquchuzhexieguanjianci,xingchengyigeguanjiancichuan,zuoweixiayibuwentilijie”的輸入,這種處理同時也是為了降低“問題理解”時shi的de難nan度du。針zhen對dui上shang麵mian提ti到dao的de四si個ge問wen題ti域yu,我wo們men分fen別bie設she計ji了le關guan鍵jian詞ci表biao,預yu先xian規gui定ding了le在zai這zhe一yi問wen題ti域yu內nei的de關guan鍵jian詞ci。這zhe個ge關guan鍵jian表biao是shi語yu音yin識shi別bie係xi統tong中zhong相xiang應ying問wen題ti域yu下xia的de詞ci彙hui表biao的de子zi集ji,記ji錄lu了le每mei個ge關guan鍵jian詞ci的de漢han字zi串chuan,類lei標biao識shi和he詞ci序xu號hao等deng信xin息xi。在zai提ti取qu關guan鍵jian詞ci時shi,隻zhi需xu要yao在zai句ju子zi中zhong進jin行xing搜sou索suo,檢jian測ce到dao出chu現xian在zai關guan鍵jian間jian表biao的de關guan鍵jian詞ci,記ji錄lu它ta們men出chu現xian的de位wei置zhi和he次ci序xu。比bi如ru一yi個ge句ju子zi“請問現在紐約的當地時間是幾點鍾?”我們可以提取出關鍵漢字串“現在紐約當地時間幾點鍾”以及對應的關鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對於不包含關鍵詞的句子我們把它視作無效或者錯誤的輸入,給出相應的提示。
4.問題理解和答案生成
“關鍵詞提取”得到的關鍵詞漢字串以及類型串將用於問題理解和答案生成。
在“問題理解”時,主要用到關鍵詞類型串,通過與模板組合庫中的模板對照,可以把它映射到某一類具體問題上。比如上麵例子中的“NOW+CITY+LOCALTIME+OCLOCK”,就可以映射為“xunwenmouchengshidedangdishijianzheleiwenti。zaixitongzhongzhenduimeigebutongdewentiyu,shejilexuduoguanjianzileixingzuhedemoban,meigemobanduiyingyileiwenti。ruguoguanjianzileixingchuanchenggongyingsheweimouleiwenti,jikezhuanru“答案生成”,否則我們認為問題無效和錯誤在“答案生成”時,已經明確了問題的類型,相應回答的基本句式就已經確定,所需要的就是給句式賦予具體的內容。利用“關鍵詞提取”得到的關鍵字漢字串和詞序號等信息,可以唯一地確定問題的具體內容,並由此得到問題的最終答案。
以上介紹的是係統的總體結構和流程設計,針對機器人將要長期展出的要求,以及其展出環境比較嘈雜觀眾類型複雜、年齡跨度大等特點,還有許多實際問題需要解決。比如,針對現場環境噪聲和不同的觀眾類型需要現場采集數據,進行聲學模型訓練;根據說話人的不同聲學特性,要對說話人進行聚類,設計分類的聲學模型,並在線選擇、切換;另外還要設計不同的問題域,並組織數據和訓練相應的語言模型。












