【太平洋汽車 】汽車消費歷來是國民消費經(jīng)濟的重要組成部分,配備了智能技術的新能源汽車更是在近年來快速崛起,成為汽車消費的主流。在日益成熟的智能汽車科技中,車載語音交互與應用隨之步入市場爆發(fā)期,進而成為繼智能手機和智能音箱之后的第三大智能語音場景。在車載語音交互新勢力中,火山引擎憑借長期以來對汽車行業(yè)的深刻洞察與豐富經(jīng)驗,依托一直以來為字節(jié)跳動內部各業(yè)務線提供優(yōu)質語音AI技術能力以及全棧語音產(chǎn)品解決方案的火山語音團隊,為車企帶來了耳目一新的交互體驗。
日前,火山語音團隊正式為哪吒汽車旗下重磅車型哪吒S推出“哪吒音色”新功能,以更低成本和更高效率為車企打造專屬“音色”,成為哪吒汽車遙遙領先2022年新能源車新勢力銷量榜單的關鍵技術競爭力之一。據(jù)了解,“哪吒音色”不但可以生動表達高興、失落、嬌蠻、冷靜四種情緒,還支持河南話、廣東話、川渝話等特色方言以及以小蘿莉、活潑女聲等為代表的趣味音色。更重要的一點,憑借超99%的準確率和在線、離線環(huán)境下穩(wěn)定流暢的語音表現(xiàn),火山語音成功讓汽車繪聲繪色,再造品牌新勢力。
智能語音合成引領車載語音交互市場
據(jù)中國汽車工業(yè)協(xié)會數(shù)據(jù),2022年1月到11月中國新能源汽車產(chǎn)銷超過600萬輛,同比均增長1倍,市場占有率達25%,該市場的強勢拉升已成定局,隨之而來車載語音交互市場迎來了發(fā)展的黃金期。
目前,車載語音交互功能已成為中國乘用汽車座艙內的標配功能,滲透率高達86%,其中以主機廠商、造車新勢力、智能語音處理引擎及應用供應商、云服務商、平臺整體商等為代表的“多元競爭”逐步走入白熱化階段,可以預見智能語音合成技術或將成為各方勢力的下一個殺手锏。
此外伴隨新能源汽車銷量的快速拉升,也促成了新消費群體和需求的規(guī)?;楷F(xiàn)。以Z世代和女性消費群體為代表的新消費群體,對于消費個性化和差異化需求顯著,迫使汽車消費正從出行剛需轉向個性消費。社交需求、自我塑造、悅己需求等,讓智能音色成為新消費群體選擇汽車品牌的新因素。總體而言,通過語音合成技術形成的個性化、情感化、可定制化的智能音色,或成為突圍車載語音交互同質化競爭的關鍵突破口。
眾多周知,當前新能源汽車的車載語音通常為標準音色,主要由于可定制化音色通常需要不同的語料包進行訓練,但優(yōu)質音頻數(shù)據(jù)和發(fā)音人較為稀缺,部分小語種音頻數(shù)據(jù)標注員更為稀缺等原因,所以訓練多趣味、多方言、多語種的音色模型消耗成本較高,因此能夠既好又快推出車載智能音色的汽車品牌,或將率先占領市場,而在這一方面,我們不可忽視哪吒汽車的異軍突起。
全新的智能音色,背后是強大的技術實力
放眼廝殺激烈的中國新能源車市場,哪吒汽車交出的成績單可謂亮眼:2022年11月,月交付同比增長51%;1-11月累計交付同比增長142%……而在出色的銷售數(shù)據(jù)之下,實力強大的智能技術體系不可小覷,其中就包括全雙工連續(xù)對話、可見即可說等流暢精準的智能語音體驗,而近日“哪吒音色”的正式上線,則為用戶帶來了“你的情緒我都懂”的全新感受。
作為一款活力動感、富有“人情味兒”的車載語音助手音色,哪吒汽車S聯(lián)合火山語音為用戶提供了多樣與個性兼具的音色選擇,無論是趣味音色、還是多方言、多語種的嘗試,都可隨心切換。例如,“哪吒音色”提供了高興、失落、嬌蠻、冷靜四大情感交互場景,比方說無法完成車主要求時的歉意表達音色、車主違規(guī)超速時提醒的嬌蠻可愛音色等。關于此,火山語音團隊采用了半監(jiān)督情感模塊,僅憑借1小時的情感數(shù)據(jù)作為參考,智能分析出其余全量錄制語句的情感類型和情感強度,進而讓所有錄制數(shù)據(jù)都參與合成語音情感能力的建模,實現(xiàn)更顯著、更自然和更細膩的情感表現(xiàn)力。值得提及的一點,在“哪吒音色”個性化的聽感下,是極速響應靈敏加成。火山語音團隊表示,“哪吒音色”運用了業(yè)界領先的基于無監(jiān)督表征的并行對抗深度神經(jīng)網(wǎng)絡,語音請求延時低于150毫秒,全鏈路句準確率達到98.1%。在語音質量MOS評分中達到4.6分(滿分5分),以行業(yè)領先水平做到“更懂你心”!
自2022年10月試上線以來,“哪吒音色”引起了用戶和眾多汽車品牌的強大興趣,其背后正是火山語音強大的語音合成能力。一直以來團隊針對數(shù)據(jù)獲取難、專業(yè)要求高、訓練難度大、消耗成本高等業(yè)界疑難問題開展多音色模型訓練,提出了低成本、高效率、批量生產(chǎn)的方案,為企業(yè)用戶提供了許多“聽得懂”、“說的好”、“會的多”的音色。尤其是不久之前上新發(fā)布的超自然對話語音合成技術,相較傳統(tǒng)TTS更加真實自然,語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節(jié)都被精準復現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù),就可極大還原真人說話細微的韻律特點、發(fā)音口癖,讓合成效果更加真實,給人帶來沉浸式的聽感體驗。其對外推出的“音色復刻技術”,作為一套全自動高效化的輕量級音色定制方案,不同于傳統(tǒng)語音合成技術對數(shù)據(jù)的高門檻要求,對數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%,普通人在相對安靜的開放環(huán)境錄制2分鐘以上,即可達到音色空間建模的標準,生成專屬音色的AI模型,便捷又高效。
在“哪吒音色”的背后是火山語音團隊。作為火山引擎語音合成產(chǎn)品的技術能力提供方,火山語音團隊即字節(jié)跳動AI Lab Speech & Audio智能語音與音頻團隊,自2017年成立以來就專注研發(fā)行業(yè)領先的AI智能語音技術,截止2022年上半年,團隊已有17篇論文入選AI頂級會議,其中音頻生成方向接受了8篇論文。火山語音團隊攻克了很多語音合成技術的前沿挑戰(zhàn),例如在在韻律建模方面,不同的語言、方言、風格都具備自身的韻律特點,有不同的語速、語調、重音模式等語音變化信息,這種細粒度的韻律特征顯著地影響著發(fā)音準確性和地道性,而傳統(tǒng)的端到端神經(jīng)網(wǎng)絡框架很難隱式建模和控制這種細粒度的韻律特征變化。對此,火山語音團隊提出了音素級別細粒度韻律建模的AM架構,通過引入音調、短語重音等音素級別的韻律特征以及音素級變量適配器,可以分別實現(xiàn)音節(jié)、短語和句子級別語調、重音模式變化,實現(xiàn)“聽得懂”、“說的好”。
在火山語音團隊強大科研力量的支持下,火山引擎語音合成產(chǎn)品于2022年11月獲得國家語音及圖像識別產(chǎn)品質量檢驗檢測中心頒發(fā)的語音合成增強級檢驗檢測證書,在語音合成的基本要求以及擴展要求上已達最高等級標準。經(jīng)評測,火山引擎提供的音色MOS評分最高可達4.64分,處行業(yè)領先水平。目前,火山語音將打磨多年的語音技術能力面向市場,通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應用場景。
展望2023:在火山語音團隊的持續(xù)創(chuàng)新與快速創(chuàng)新成果轉換的推動下,火山引擎已經(jīng)成為了車載語音交互行業(yè)的新勢力,越來越多的車企品牌將在火山引擎平臺上快速發(fā)展,抓住2023年即將爆發(fā)的市場機會;而在更廣泛的智能語音市場,火山語音團隊也將帶來源源不斷的新技術、新產(chǎn)品,以更低門檻、更高品質、更快交付等,助力更多行業(yè)大步邁入智能時代!
(太平洋汽車)