
米斯特拉爾 宣布發(fā)布一種名為 Voxtral 的新型音頻 AI 模型。 這家法國人工智能公司表示,該模型面向企業(yè),被認(rèn)為是第一個專注于音頻人工智能的大型語言模型(LLM)系列。
據(jù)這家法國人工智能公司稱,Voxtral 旨在在實際應(yīng)用中提供實用的語音智能。該 AI 音頻模型的性能優(yōu)于頂級開源音頻轉(zhuǎn)錄模型之一 Whisper large-v3。
Voxtral 由 Mistral Small 3.1 提供支持
Voxtral 由大型語言模型 (LLM) Mistral Small 3.1 提供支持。該音頻 AI 模型可以理解多種語言,例如英語、法語、西班牙語、葡萄牙語、意大利語、德語、荷蘭語、印地語等。
該音頻模型能夠轉(zhuǎn)錄長達(dá) 30 分鐘的音頻。此外,Voxtral 還能理解長達(dá) 40 分鐘的音頻,方便用戶輕松交談并提出相關(guān)問題。用戶還可以要求其生成音頻文件的文本摘要,或提供分析和詳細(xì)見解。此外,他們還可以執(zhí)行其他操作,例如通過 API 調(diào)用運行函數(shù)。
MistralVoxtral 提供兩種版本的“語音理解模型”,分別為 Voxtral Small 和 Voxtral Mini。兩種模型均能夠與基于語音的提示或基于音頻和文本的提示組合進(jìn)行交互。
兩種模型中,功能更強大的 Voxtral Small 具有 240 億個參數(shù),非常適合生產(chǎn)規(guī)模部署。Mistral寫道“Voxtral Small 在所有任務(wù)上都與 GPT-4o-mini 和 Gemini 2.5 Flash 具有競爭力?!?/p>
Voxtral Mini 是一款輕量級的方案,擁有 3B 參數(shù),是本地和邊緣部署的理想之選。其 API 版本 Voxtral Mini Transcribe 不僅經(jīng)濟高效,而且性能優(yōu)于 OpenAI 的 Whisper,價格不到后者的一半。
Voxtral Small (24B) 和 Voxtral Mini (3B) 均可從 Hugging Face 下載并本地托管。開發(fā)者還可以通過單個 API 調(diào)用將音頻模型集成到任何應(yīng)用程序中。起價為每分鐘 0.001 美元,這使得轉(zhuǎn)錄可擴展。Mistral 表示,Voxtral 將在勒查特未來幾周內(nèi)將在網(wǎng)絡(luò)應(yīng)用程序或移動應(yīng)用程序中推出。
Mistral 是歐洲領(lǐng)先的人工智能公司之一。據(jù)報道,該公司成立于 2023 年,已從 Andreessen Horowitz、Nvidia、三星和 Salesforce 等知名公司籌集了超過 10 億歐元(約 12 億美元)的資金。
KEY 差異線:加密貨幣項目用來獲得媒體報道的秘密工具






.png)





















