語音識別技術在智能語音機器人中的應用_北京分形科技有限公司_ AI人工智能,語音識別

請輸入關鍵字

您需要AI互聯網
顧問提供專業谘詢

殘忍拒絕立即谘詢

AI人工智能 · VR · AR · 智慧博物館 · 智慧公園 · 景區 · 文創 · 動畫 · 遊戲 · 年度運營
大模型定製 · WEB3 · 元宇宙 · 區塊鏈 · 高端網站建設 · 小程序 · APP · 微信 · H5 · 電商

AI互聯網服務

AI解決方案

百科

案例

我們

智慧博物館

想得到的智慧博物館新玩法，可能都在這裏

智慧公園、景區

聽說，在智能公園中漫步才是最愜意的事

AI技術加持，社區係統真正互聯互通

增強診前服務、輔助診中流程、優化診後交流

AI互聯網服務

品牌官網建設
政府、集團網站群建設
行業門戶網站建設
電商網站建設
社區網站建設
短視頻社交平台建設
業務係統定製開發

移動端、融媒體

智慧公園解決方案
智慧博物館解決方案
智慧景區解決方案
雲展廳解決方案
智慧票務解決方案

智慧社區解決方案

智慧醫院解決方案

智慧學校解決方案

龍蝦/流程自動化

定製大模型解決方案

網絡安全解決方案

NFT數字藏品

高校、教育

語音識別技術在智能語音機器人中的應用

標簽： AI人工智能語音識別理解與交互技術智能機器人自然語言理解

2018.06.05

信息時代，科學技術的飛速發展帶動人工智能化技術的更新進步。機器人的應用領域和範圍也越來越廣泛，在生產、建築、旅遊等各個行業都能夠看到人工智能機器人的身影。旅遊產業與互聯網的結合，要隨著信息技術的發展與時俱進。物聯網、人工智能、虛擬現實等新興的互聯網技術讓旅遊產業的未來充滿了挑戰與機遇，導遊等依賴大數據的職業完全可能被人工智能機器人取代。

本文主要介紹語音識別技術在智能語音機器人中的應用，一般語音機器人的設計開發主要著眼於“能聽會說”，力(li)圖(tu)利(li)用(yong)語(yu)音(yin)識(shi)別(bie)和(he)語(yu)音(yin)合(he)成(cheng)等(deng)技(ji)術(shu)，將(jiang)模(mo)擬(ni)的(de)聽(ting)說(shuo)能(neng)力(li)賦(fu)予(yu)機(ji)器(qi)人(ren)並(bing)生(sheng)動(dong)地(di)展(zhan)示(shi)給(gei)觀(guan)眾(zhong)，主(zhu)要(yao)應(ying)用(yong)於(yu)展(zhan)廳(ting)博(bo)物(wu)館(guan)等(deng)場(chang)景(jing)，需(xu)考(kao)慮(lv)到(dao)機(ji)器(qi)人(ren)所(suo)處(chu)環(huan)境(jing)非(fei)常(chang)嘈(cao)雜(za)，因(yin)此(ci)對(dui)係(xi)統(tong)的(de)穩(wen)定(ding)性(xing)和(he)抗(kang)噪(zao)性(xing)能(neng)都(dou)提(ti)出(chu)了(le)較(jiao)高(gao)的(de)要(yao)求(qiu)。此(ci)外(wai)，由(you)於(yu)參(can)與(yu)的(de)觀(guan)眾(zhong)來(lai)自(zi)全(quan)國(guo)各(ge)地(di)，涉(she)及(ji)不(bu)同(tong)性(xing)別(bie)、年齡、地域口音，所以係統聲學模型的分類設計、調練和自動切換也是一個重要的設計要素。

智能語音機器人的總體設計

智zhi能neng機ji器qi人ren與yu觀guan眾zhong采cai用yong相xiang互hu問wen答da的de小xiao型xing對dui話hua形xing式shi進jin行xing交jiao流liu。為wei實shi現xian上shang方fang便bian，可ke把ba問wen答da對dui話hua的de領ling域yu進jin行xing合he理li的de限xian製zhi。除chu迎ying賓bin和he問wen候hou語yu外wai，可ke以yi設she計ji4個問題域：有關時間、日期和星期的問答，有關全世界各大城市所在時區和當地時間的問答，100以內的數學四則運算題目的問答，沒有關係機器人的身世、本領等自身情況的問答。對於每個限定的問題域，相應詞彙表的大小是有限的。在限定領域、有限詞彙的條件下，機器人基本可以與觀眾進行自由問答，並可以在不同的問題與之間相互切換。係統工作流程圖如下。

from clipboard

係統啟動並初始化後處於等待狀態，如果沒有觀眾靠近，機器人就定時反複播放自我介紹。如果有觀眾參觀（由紅外探測配合），係統檢測到語音信號，便會從等待狀態進入問答狀態。在觀眾預先選定的問題域內，機器人將和觀眾進行“自由”問答，在回答觀眾提問的同時，機器人會有協調的動作加以配合：針zhen對dui不bu同tong觀guan眾zhong對dui機ji器qi人ren所suo提ti問wen題ti的de不bu同tong回hui答da，機ji器qi人ren會hui有you不bu同tong的de相xiang應ying，並bing以yi此ci決jue定ding下xia一yi步bu的de動dong作zuo。在zai某mou些xie問wen題ti域yu內nei，機ji器qi人ren在zai對dui文wen檔dang話hua過guo程cheng中zhong還hai會hui向xiang觀guan眾zhong提ti出chu一yi些xie問wen題ti，並bing等deng待dai觀guan眾zhong回hui答da。如ru果guo觀guan眾zhong回hui答da正zheng確que，機ji器qi人ren將jiang表biao示shi祝zhu賀he，否fou則ze機ji器qi人ren將jiang給gei出chu合he理li的de提ti示shi(如噪聲太大，講話聲音要大點，沒有聽清楚或者你的答案不正確等)。多次回答不正確時，機器人將給出正確答案，機器人與觀眾對話結束後，向觀眾道別，再次轉入等待狀態。

核心語音模塊及關鍵技術

語音模塊是智能機器人的核心構件，它完成的功能包括:機ji器qi人ren從cong外wai界jie接jie收shou觀guan眾zhong的de語yu街jie，送song入ru語yu音yin識shi別bie器qi進jin行xing識shi別bie，再zai從cong識shi別bie結jie果guo中zhong提ti取qu若ruo幹gan關guan鍵jian詞ci，而er後hou通tong過guo對dui這zhe些xie關guan詞ci的de分fen析xi，將jiang其qi映ying射she為wei某mou個ge問wen題ti:jiqirenzaizhenduiciwentishengchenghuida，zuihoujiangwenbenxingshidedaanhechengweiyuyin，shuchugeiguanzhong。ruguoguanzhongdewentichaochuxiandingdeduihuafanweihuozheshibiejieguokexindubugao，zezaidaanshengchengjieduangeichucuowutishi，bingyouyuyinhechengqishuchu。ruguojiqirenxiangxiangguanzhongtichuwenti，yeyaoyouyuyinhechengqihechenghoushuchu，mokuaidezhengtikuangjiaruxiatusuoshi。

from clipboard

1.問題域相關的數據組織

機器人與觀眾的問答將限定在某個問題域內進行，針對每個問題域，我們確定了有限大小的“詞彙表”，並通過大量的語料訓練出相應的基於詞類的統計“語言模型”“關鍵詞表”可以從“詞彙表”中提煉得到，它記錄的是對於理解問題有實質作用的詞彙及其相關信息，此外還要在“關鍵詞表”的基礎上形成“關鍵詞類型組合模板庫”，其中每個模板代表問題域內的一類具體問題。

from clipboard

2.識別結果的可信度度量及拒識

從以上框圖可以看到，語音識別器的識別結果作為“關鍵詞提取”和“問題理解等後續各個步驟的原始輸入，它的正確與否直接影響到整個係的性能。

在限定領域限定詞彙量的條件下，如果觀眾的提問或回答不超出限定的詞彙，識別結果的正確率可以達到95%yishang。danshi，yidanwentichaochuxiandingdelingyuhuozhechuxianlejiwaici，shibieqidexingnengjiuhuiyanzhongxiajiang。yinciduishibieqishibiejieguodekexindujinxingduliangjiuxiandefeichangzhongyao，takeyijiangdijiwaici(OOV)帶來的不利影響。

我(wo)們(men)采(cai)取(qu)的(de)方(fang)法(fa)是(shi)利(li)用(yong)統(tong)計(ji)語(yu)言(yan)模(mo)型(xing)衡(heng)量(liang)識(shi)別(bie)所(suo)得(de)到(dao)的(de)整(zheng)個(ge)句(ju)子(zi)的(de)可(ke)信(xin)度(du)。如(ru)果(guo)一(yi)個(ge)句(ju)子(zi)的(de)詞(ci)誤(wu)識(shi)率(lv)比(bi)較(jiao)低(di)，構(gou)成(cheng)這(zhe)個(ge)句(ju)子(zi)的(de)眾(zhong)多(duo)三(san)元(yuan)短(duan)語(yu)(w1w2，w3)，會比較多的出現在統計語言模型Trigram中;反之如果出現較多的識別錯誤，那麼句子中大部分的詞w1和元短語(wl，w2)將出現在Unigram或Bigram中，很少有三元短語命中Trigram對於一個由若幹詞W，W2，，Wi，…Wn構成的句子，我們根據各個詞及它所構成的知語在統計語言模型中出現的情況對其中每個詞打分。出現在Trigram中的可信度高，因而得分較高，出現在Bigram或Unigramzhongdekexindudi，yinerdefenjiaodi。zaizaigegecidefendejichushangdedaozhenggejuzidekexindudefen。ruodefendiyumougemenxian，zerenweijuzizhongbaohanjiaoduodeshibiecuowuhuozhejiwaici，kexindujiaodi，yingdangbeijushi。

3.關鍵詞檢測

congshibieqidedaodeshibiejieguo，shiyouyigegecigouchengdecixulie，qizhongmouxieciduiyulijiezhenggejuziyouzhefeichangzhongyaodezuoyong，zhejiushiwomensuoshuodeguanjianci。zaizhebuyaozuodejiushitiquchuzhexieguanjianci，xingchengyigeguanjiancichuan，zuoweixiayibuwentilijie”的輸入，這種處理同時也是為了降低“問題理解”時shi的de難nan度du。針zhen對dui上shang麵mian提ti到dao的de四si個ge問wen題ti域yu，我wo們men分fen別bie設she計ji了le關guan鍵jian詞ci表biao，預yu先xian規gui定ding了le在zai這zhe一yi問wen題ti域yu內nei的de關guan鍵jian詞ci。這zhe個ge關guan鍵jian表biao是shi語yu音yin識shi別bie係xi統tong中zhong相xiang應ying問wen題ti域yu下xia的de詞ci彙hui表biao的de子zi集ji，記ji錄lu了le每mei個ge關guan鍵jian詞ci的de漢han字zi串chuan，類lei標biao識shi和he詞ci序xu號hao等deng信xin息xi。在zai提ti取qu關guan鍵jian詞ci時shi，隻zhi需xu要yao在zai句ju子zi中zhong進jin行xing搜sou索suo，檢jian測ce到dao出chu現xian在zai關guan鍵jian間jian表biao的de關guan鍵jian詞ci，記ji錄lu它ta們men出chu現xian的de位wei置zhi和he次ci序xu。比bi如ru一yi個ge句ju子zi“請問現在紐約的當地時間是幾點鍾?”我們可以提取出關鍵漢字串“現在紐約當地時間幾點鍾”以及對應的關鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對於不包含關鍵詞的句子我們把它視作無效或者錯誤的輸入，給出相應的提示。

4.問題理解和答案生成

“關鍵詞提取”得到的關鍵詞漢字串以及類型串將用於問題理解和答案生成。

在“問題理解”時，主要用到關鍵詞類型串，通過與模板組合庫中的模板對照，可以把它映射到某一類具體問題上。比如上麵例子中的“NOW+CITY+LOCALTIME+OCLOCK”，就可以映射為“xunwenmouchengshidedangdishijianzheleiwenti。zaixitongzhongzhenduimeigebutongdewentiyu，shejilexuduoguanjianzileixingzuhedemoban，meigemobanduiyingyileiwenti。ruguoguanjianzileixingchuanchenggongyingsheweimouleiwenti，jikezhuanru“答案生成”，否則我們認為問題無效和錯誤在“答案生成”時，已經明確了問題的類型，相應回答的基本句式就已經確定，所需要的就是給句式賦予具體的內容。利用“關鍵詞提取”得到的關鍵字漢字串和詞序號等信息，可以唯一地確定問題的具體內容，並由此得到問題的最終答案。

以上介紹的是係統的總體結構和流程設計，針對機器人將要長期展出的要求，以及其展出環境比較嘈雜觀眾類型複雜、年齡跨度大等特點，還有許多實際問題需要解決。比如，針對現場環境噪聲和不同的觀眾類型需要現場采集數據，進行聲學模型訓練;根據說話人的不同聲學特性，要對說話人進行聚類，設計分類的聲學模型，並在線選擇、切換;另外還要設計不同的問題域，並組織數據和訓練相應的語言模型。

/ 我想要個更針對我需求的方案

上一篇文章：基於人體特征的運動檢測與跟蹤下一篇文章：一分鍾了解以圖搜圖

看過此文章的人也看過

內容審核 AI人工智能理解與交互技術視頻內容分析機器視覺語音識別人體分析人臉識別 AI控煙係統圖像搜索深度學習自然語言理解

奧體森林公園

旅遊休閑公園 AI人工智能智慧公園智慧體育公園智能步道智能大數據平台

旅遊休閑公園 AI人工智能智慧公園智能步道智能大數據平台 AR太極智能語音亭

飛鳳山奧體公園

旅遊休閑公園 AI人工智能智慧公園智慧體育公園智能步道智能大數據平台 AR太極智能體測

常德柳葉湖

旅遊休閑公園 AI人工智能智慧公園智能步道智能大數據平台

城東區三河六岸黨建綠道

旅遊休閑公園 AI人工智能智慧公園智能步道 AR太極智能大數據平台

雄安郊野公園

旅遊休閑公園 AI人工智能智慧公園智能燈杆智能照明係統智能垃圾桶

更多解決方案

更多網站案例

讓決策變的簡單

好的開始是成功的一半

太麻煩了？找顧問要個方案吧

友情鏈接：

北京網頁設計公司

成都網站建設

廣州網站建設

上海網站建設

北京網站建設

也許您需要專業的服務，歡迎來電谘詢

您的需求，是我們前進最大的動力

AI互聯網服務

移動端、融媒體

智慧景區解決方案

智慧社區解決方案

智慧博物館解決方案

智慧醫院解決方案

智慧校園解決方案

智慧票務解決方案

雲展廳解決方案

NFT數字藏品

博物館專題

智慧公園專題

醫療行業專題

金融行業專題

地產行業專題

教育行業專題

關於我們

北京分形科技有限公司成立於2003年，是一家以AI為核心驅動力，提供網絡品牌策劃、AI互聯網服務、WEB3服務、AI人工智能解決方案的綜合服務商

我們一直秉承的經營理念：責任、熱情、品質、包容

主要業務範圍：AI互聯網服務（網站建設,網站群,短視頻社交平台,APP,小程序）AI人工智能行業解決方案（智慧博物館,智慧公園,智慧景區,智慧社區,智慧醫療,智慧校園,）IoT智能物聯產品（智能步道,AR太極,AI健身,AI導覽,AI單車,智慧樹）WEB3（區塊鏈,元宇宙,NFT數字藏品）

朝陽區東方東路9號東方國際大廈7層

靜安區新疆路518號

珞瑜路阜華大廈

南崗區愛達尊禦

江東區門前仲町1-7

武侯區國學巷37號

荔灣區陳家祠道48號

北京市海澱區農大南路88號1號樓一層161

版權所有：北京分形科技有限公司 Copyright 2003-2023 qing-hei.com.cn All Rights Reserved. 北京分形科技有限公司京ICP備05007162號-1