新聞 | iThome ( ) • 2024-06-28 21:27
图片来源: 

Google

Google本周宣布,Google翻译已利用PaLM 2大型语言模型新增对110种新语言的支援,包括香港地区所使用的粤语、巴基斯坦最常用的Punjabi,以及已失去最后一位母语人士的Manx等,让现在的Google翻译所支援的语言达到243种。

此次Google所支援的新语言代表全球超过6.14亿的使用者,约占全球人口的8%,有些是使用人数超过1亿的主要语言,但大多数是土著的小社群在使用,也有少数几乎没有母语人士。整体而言,约有1/4的新语言来自非洲。

其中,粤语长期以来一直是Google翻译最需要的语言之一,但因为粤语在写作上经常跟普通话重叠,因此很难找到资料并训练模型。Manx则是英国曼岛(Isle of Man)的传统语言,为凯尔特(Celtic)语族的语言,其最后一位母语者已在1974年去世,现在仅有数千人使用Manx。另一个有趣的语言则是NKo,它是西非曼丁(Manding)语系的一种标准化形式,将所有方言统一为一种通用语言,还拥有一个专门替它开发资源与技术的活跃社群,NKo的字母是在1949年才发明。

Google说明,在增添翻译服务的新语言时,Google考虑了各种变种与拼法,因为不同的地区及方言,都有不同的拼写标准,且有很多语言缺乏标准形式,很难出现所谓的正确变种,因此Google优先考虑每种语言最常用的变种,并利用PaLM 2模型来学习相近的各种语言,随著技术的进步再加上与专业语言学家及母语人士的合作,未来的Google翻译可望支援更多的语言变体及拼法惯例。

对新语言的支援将直接出现在网页、Android及iOS的Google翻译服务上。