語音識別作為人工智能最廣泛應(yīng)用于民用領(lǐng)域的成熟技術(shù),已經(jīng)引起各類語音識別技術(shù)廠家的競爭,科大訊飛語音識別、谷歌語音識別等公司都在市場進(jìn)行一系列的推廣計劃,不過谷歌在語音識別最近祭出大招,計劃開放語音識別IPA(應(yīng)用程序編程接口)。
語音識別API
據(jù)科技博客TechCrunch報道,谷歌計劃向第三方開發(fā)者開放其語音識別API,與Nuance及其它的語音識別公司競爭。為了吸引開發(fā)者,該API一開始將免費提供。
有關(guān)該服務(wù)的消息已經(jīng)傳了好幾周。該公司今天在NEXT云用戶大會上正式公布了該項服務(wù)。
谷歌表示,谷歌云語音API(GoogleCloudSpeechAPI)將覆蓋超過80種語言,兼容任何實時串流或者批處理模式的應(yīng)用,它將為應(yīng)用程序提供一整套API,給它們帶來“看、聽與翻譯”方面的功能。它基于目前驅(qū)動谷歌應(yīng)用的語音搜索和谷歌鍵盤的語音輸入的神經(jīng)網(wǎng)絡(luò)技術(shù)。它還有一些其它有趣的功能,如可在嘈雜的環(huán)境運行,支持實時運行。
谷歌的這一舉措將會對整個行業(yè)產(chǎn)生不小的影響——尤其是對Nuance。長期以來,Nuance一直被認(rèn)為是業(yè)界最好的語音識別技術(shù)提供商,它也是該領(lǐng)域最大的一家公司。鑒于谷歌提供的體驗比現(xiàn)有提供商要好,而且定價較低,包括創(chuàng)業(yè)公司在內(nèi)的眾多Nuance客戶有可能會轉(zhuǎn)投谷歌技術(shù)的懷抱。
為了引起開發(fā)者的興趣,谷歌的語音識別API一開始將完全免費提供。未來它將要收費,但價格很可能會比較低。谷歌可能會在成為該行業(yè)的主導(dǎo)者之后再上調(diào)服務(wù)價格。
截至目前為止,谷歌在其產(chǎn)品中提供的語音技術(shù)訪問權(quán)限十分有限。該公司在去年的I/O大會上發(fā)布了一款語音交互API,讓Android開發(fā)者可以為他們的應(yīng)用加入語音交互功能。不過,谷歌尚未直接開放它的語音識別API。
而語音識別API的推出,將不僅僅影響到Nuance和其它的語音識別技術(shù)提供商,也將會對蘋果造成沖擊。蘋果虛擬助手Siri的語音識別功能并不如谷歌的。蘋果目前也沒有通過提供API讓開發(fā)者在他們的應(yīng)用中使用Siri技術(shù)。
種種跡象顯示,谷歌似乎變得更加注重語音技術(shù)和眾多的使用案例。例如,該公司在2月宣布將允許GoogleDocs用戶通過語音來編輯和設(shè)計文檔。