新聞動(dòng)態(tài)
您現(xiàn)在的位置:首頁(yè) / 新聞動(dòng)態(tài) / 行業(yè)資訊
東芝開發(fā)出語(yǔ)音區(qū)分技術(shù),可快速區(qū)分10余人的聲
點(diǎn)擊次數(shù):10159??更新時(shí)間:2014-09-03??【打印此頁(yè)】??【關(guān)閉
    東芝開發(fā)出了可用于會(huì)議記錄等的語(yǔ)音區(qū)分軟件技術(shù)。該軟件技術(shù)應(yīng)用于開會(huì)等場(chǎng)合時(shí),可以準(zhǔn)確區(qū)分出10余人的聲音。軟件可在筆記本電腦及平板終端等移動(dòng)產(chǎn)品上運(yùn)行,只要有普通的立體聲麥克風(fēng)就可以使用。該技術(shù)將在2014年9月3~5日于日本札幌市舉行的日本音響學(xué)會(huì)2014年秋季研究發(fā)布會(huì)上發(fā)布。
 


       此次開發(fā)的新技術(shù)結(jié)合“輸入聲音的特點(diǎn)”和“說(shuō)話人的方位信息”來(lái)區(qū)分聲音。利用聲音特點(diǎn)區(qū)分聲音時(shí),如果說(shuō)話的人數(shù)增多,聲音的特點(diǎn)會(huì)隨之增多,難以區(qū)別。東芝為解決該問(wèn)題設(shè)計(jì)的方法是結(jié)合說(shuō)話人的方位信息。就是根據(jù)多個(gè)麥克風(fēng)所錄音的相位差來(lái)推斷說(shuō)話人所在的方位。根據(jù)這一信息來(lái)提高分辨的準(zhǔn)確度。

       對(duì)此,存在的問(wèn)題是需要特殊指向性的麥克風(fēng);推斷方位的處理量大、計(jì)算成本高等。另外,由于難以區(qū)分位于同一方位的不同說(shuō)話人,有時(shí)也會(huì)影響分辨性能。

       為此,東芝此次開發(fā)出了使用普通立體聲麥克風(fēng)的快速且準(zhǔn)確的方位推斷算法和不影響分辨性能的組合算法。比如,使用配備Core i7(最大工作頻率為2.7GHz)CPU和4GB主存的個(gè)人電腦,普通會(huì)議(參與者為10人左右)在錄音結(jié)束后5秒左右就能完成分辨處理。分辨成功率(能否準(zhǔn)確區(qū)分說(shuō)話人聲音)方面,原方法為50%左右,而新技術(shù)達(dá)到了70%以上。

       新技術(shù)計(jì)劃在2014年度內(nèi)完成。將嵌入到會(huì)議記錄輔助軟件等產(chǎn)品中。新技術(shù)不含語(yǔ)音轉(zhuǎn)換(如將內(nèi)容做成文字?jǐn)?shù)據(jù))功能,所以有可能與該公司的語(yǔ)音識(shí)別技術(shù)配套提供。
(元器件交易網(wǎng))
上一篇:谷歌語(yǔ)音搜索更新:支持同時(shí)使用五種語(yǔ)言
下一篇:2017年大事件
Copyright © 2018 江蘇南大電子信息技術(shù)股份有限公司 版權(quán)所有 備案號(hào):蘇ICP備13016868號(hào)   制作維護(hù):南京雨澤網(wǎng)絡(luò)