中国电信人工智能研究院发布了首个能够听懂30多种方言的大模型——星辰语音大模型。在2024智算云生态大会上,这一强大的工具被正式发布并开源。由AI领域Fellow大满贯科学家李学龙带队,这款大模型不仅能识别被称为“魔鬼的语言”的温州话,还具备超自然的语音生成能力。

多方言识别的突破

星辰语音大模型能够打破单一模型只能识别特定方言的局限,同时支持粤语、上海话、四川话、温州话等30多种方言的识别和理解。这一创新已经获得国际权威赛事的认可,并在多个实际应用场景中落地。

在国际语音顶会INTERSPEECH 2024的离散语音单元建模挑战赛上,星辰语音大模型斩获语音识别赛道冠军。同时,在美国国家标准与技术研究院(NIST)举办的低资源粤语电话Babel语音识别任务中,取得业内最佳结果。

中国电信攻克最难方言

实际应用与广泛覆盖

星辰语音大模型已经在北京、福建、江西、广西等地的智能客服系统中试点应用,日均处理约200万通电话。它能秒懂方言,服务用户。智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。

传统语音识别模型需要针对一种方言单独训练一个模型,这对运营维护提出了不小的挑战。而星辰语音大模型的多方言联合建模技术,显著降低了对新方言标注数据的需求,实验显示需求量降低到仅1%。

技术创新与挑战

星辰语音大模型的成功背后是多项技术创新。首先是超大规模语音预训练,团队提出了“蒸馏+膨胀”联合训练算法,成功实现80层模型的稳定训练。其次是多方言联合建模,通过离散语音表征,语音识别大模型将推理时的语音传输比特率降低数十倍。

在数据准备上,中国电信AI研究院构建了超过30种、30万小时的高质量方言数据库。算力基础设施方面,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和调度的核心技术。

为何专注方言?

中国电信选择方言作为突破口,背后有着深厚的技术和业务需求。我国是语言资源丰富的国家之一,但很多方言正面临濒危或消亡。保护方言、传承文化显得尤为重要。同时,当前全国仍有约20%的人口尚未普及普通话,尤其是老年人群体,他们面对信息化服务时常常面临困难。

星辰语音大模型能够有效应对这些挑战,通过高效的方言识别技术,帮助更多人群享受到信息化服务的便利。电信选择开源,也是希望联合开发者共建覆盖更多方言的大模型,共同推动AI技术普惠。

业务需求与战略布局

作为头部运营商,中国电信的核心业务场景之一是智能客服。每天处理的几百万通电话中,大比例是方言或带方言口音的普通话。星辰语音大模型已经在这一场景中创造了实际价值,并逐步覆盖更多地区。

此外,星辰语音大模型还应用于12345市民热线、防范校园霸凌等多个场景,展现了其强大的实际应用能力。

中国电信的AI战略

中国电信早在2022年12月就启动了语义大模型的研发,并相继开源7B、12B、52B大模型。如今,随着语音大模型的发布,中国电信已经形成了语义、语音、视觉以及多模态一整套完备的大模型布局。

中国电信的最终目标是成为领先的通用人工智能服务提供商。通过大规模的技术投入和资源积累,他们在大模型领域的布局进展迅速,影响深远。

记者观点

中国电信在AI领域的创新与努力,特别是对方言的重视,展示了其技术和业务能力的结合。通过星辰语音大模型的成功,中国电信不仅展示了其在AI技术上的突破,也为保护和传承方言文化提供了有力支持。这一创新将推动更多人享受到信息化服务的便利,也为未来的AI技术应用提供了新的方向。

Leave a Reply

Your email address will not be published. Required fields are marked *