幾周前,Google 剛剛對(duì)“云端文本轉(zhuǎn)語(yǔ)音”API 實(shí)施了大改版。現(xiàn)在,該公司又升級(jí)了自家的 Speech-to-Text 語(yǔ)音識(shí)別服務(wù)。改進(jìn)后的 STT API 承諾顯著提升了語(yǔ)音識(shí)別的性能,在內(nèi)部所有測(cè)試中,單詞錯(cuò)誤率減少了 54% 左右。不過(guò)在某些領(lǐng)域,實(shí)際表現(xiàn)要好得多?;谟美掳?API 現(xiàn)允許開(kāi)發(fā)者在四種不同的機(jī)器學(xué)習(xí)模型間進(jìn)行選擇。
其中有面向短查詢和語(yǔ)音命令的,以及一個(gè)理解通話語(yǔ)音和處理 視頻 中音頻的。第四個(gè)模型屬于新增默認(rèn),谷歌推薦在所有其它場(chǎng)景中使用。
此外,谷歌還帶來(lái)了一項(xiàng)新的標(biāo)點(diǎn)符號(hào)模型。團(tuán)隊(duì)承認(rèn),其錄音文本長(zhǎng)期飽受標(biāo)點(diǎn)符號(hào)不太正常的吐槽。用標(biāo)點(diǎn)符號(hào)來(lái)表達(dá)自己的觀點(diǎn),算是出了名的困難。
谷歌承諾新模型可帶來(lái)更多可讀的轉(zhuǎn)錄文本,包括更少的斷句、更多的逗號(hào)、句號(hào)、以及問(wèn)號(hào)。
本次更新后,谷歌還允許開(kāi)發(fā)者借助一些基本的元數(shù)據(jù)標(biāo)記他們的轉(zhuǎn)錄音視頻。盡管一時(shí)發(fā)揮不了直接的益處,但谷歌表示,它將使用來(lái)自所有用戶的聚合信息,來(lái)決定下一步要優(yōu)先考慮哪些新功能。
最后,谷歌還試圖對(duì)這項(xiàng)服務(wù)的收費(fèi)方式做出小小的改動(dòng)。此前,音頻轉(zhuǎn)錄的收費(fèi)標(biāo)準(zhǔn)為 0.006 美元 / 每 15 秒;視頻模型的收費(fèi)翻倍(0.012 美元 / 每 15 秒)。
不過(guò) 5 月 31 號(hào)之后,使用新模型也需要支付 0.006 美元 / 每 15 秒。