據(jù)站長(zhǎng)之家 1 月 8 日?qǐng)?bào)道,開(kāi)源對(duì)話 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列,這是一系列最先進(jìn)的自動(dòng)語(yǔ)音識(shí)別(ASR)模型,能夠以出色的準(zhǔn)確性轉(zhuǎn)錄英語(yǔ)口語(yǔ)。
英偉達(dá)宣布推出了四個(gè) Parakeet 模型,這些模型基于 RNN Transducer/Connectionist Temporal Classification 解碼器,并且具有 0.6-1.1 億參數(shù)。它們能夠應(yīng)對(duì)各種音頻環(huán)境,并且在僅使用了 64000 小時(shí)的數(shù)據(jù)集進(jìn)行訓(xùn)練后,在基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了出色的詞錯(cuò)誤率(WER)表現(xiàn),優(yōu)于以往的模型。
根據(jù)開(kāi)發(fā)人員的說(shuō)法,這些模型對(duì)音樂(lè)和靜音等非語(yǔ)音片段具有魯棒性,并且在基準(zhǔn)測(cè)試中優(yōu)于 OpenAI 的 Whisper v3。它們還通過(guò)預(yù)先訓(xùn)練的控制點(diǎn)提供用戶友好的集成到項(xiàng)目中。
原文鏈接