温州网讯 近日,一场规模空前的“温州方言系统化采集工程”落下帷幕。1.5万名市民踊跃参与,6526名市民通过测试,拿起手机,对着屏幕一句一句地教AI说家乡话——累计6399小时录音,为温州话建立起永久数字档案。然而,亮眼数据之下,20岁以下年轻群体的方言断层问题也颇为明显。
各年龄层数据差距明显,
年轻人方言发音地道度严重不足
本次“温州方言系统化采集工程”用前沿科技定格温州话,建立永久“数字声音档案”,训练AI听得懂、说得出地道温州话。本次征集由浙大城市学院承办,浙江大学文学院指导,阿里巴巴AIdata团队与国家语言文字推广基地(温州大学)联合支持。
“市民参与热情非常高,报名总人数已经超过1.5万,远超杭州话征集时的报名人数。”浙大城市学院外国语学院教授、博士后合作导师姜淑珍作为首席专家,相继负责杭州话、温州话征集工程。
项目启动前,团队定下的目标是2000小时。“没想到温州这边报名人数直接冲破了1.5万,最后录了6399小时,是预期的三倍多了。这个数据,在方言采集史上是绝无仅有的。”姜淑珍语气郑重。经过严格筛选,最终有6526人正式参与,累计提交音频时长约6399小时,目前尚在质检阶段,送审的批次合格率均在95%以上,非常优质。
如果只看总量,这无疑是一次成功的方言抢救行动。而目光投向参与人年龄分布,参与者的代际差异颇令人心惊:20岁以下群体不仅参与人数最少,人均通过时长也最低——只有0.29小时,而71-80岁老人的平均时长是它的8倍还多。年龄越大,方言越“纯”。数据显示,71-80岁年龄组人均通过时长高达2.39小时,是所有年龄段中最高的,甚至还有5位80岁以上的老人参与了录制。
更严峻的是“过关率”。姜淑珍透露:“20岁以下群体发音通过率不足30%。该群体报名参与人数逾千人,最终通过测试仅 360人。绝大多数语料因发音不地道、受普通话声调同化,且频繁使用普通话词汇与句式替代方言表达,加之未严格按文本逐字朗读,均未通过审核被筛除。”
与此形成鲜明对比的是41-50岁女性群体。在时长排名中,鹿城区41-50岁女性以894.93小时高居榜首;第二位是鹿城区31-40岁女性(404.94小时);第三位是鹿城区51-60岁女性(402.59小时)。她们是这次采集真正的“主力军”,也是地道温州话最忠实的守护者。
“其实,20-30岁这个年龄段的人讲得还不错,有1703人通过了测试。”姜淑珍话锋一转,“但20岁以下,真的很不理想。”
八声调+生僻本字难掌握,
温州话数字化采集难题重重
作为被称作“古汉语活化石”的方言,温州话的难度在全国方言中名列前茅,与潮汕话、客家话齐名,同属国内最难习得的方言之列,语音体系复杂、特色鲜明。
“温州话的难度首先体现在它的古老性,它保留了中古汉语的声韵系统,拥有八个声调,而普通话只有四个声调,声调的差异直接导致发音难度大幅提升。普通话问‘你吃饭了吗’,温州话要说‘你饭吃爻罢未’——宾语前置、时体标记‘爻’‘罢’的使用,都与现代汉语规范不同。”姜淑珍用最简单的对比,解释了温州话的“天生难度”。
更让采集工作面临挑战的是,温州话的书面表达难度极大。“很多温州话的本字,现代汉语日常生活中已很少使用,尤其是年轻人,对这些生僻字毫无概念,看到后不知道如何发音,发音时还常常夹杂普通话,这正是方言传承断层的直接体现。”为此,项目组在准备语料时不得不提前标音,这是其他方言收录过程中没有的工作。
“另外,为杭州话做语料时,AI能够辅助生成部分语料。我们给出种子语料,AI能够自动扩充,经过人工微调,基本可用。但是温州话因复杂度高,AI 生成效果差、与自然口语差距大,基本只能依靠人工编写语料。”姜淑珍说。项目组为温州话采集精心准备了近十万条语料——日常交际、民俗文化、生活场景、俚语谚语、地名典故等全领域内容,全面覆盖温州话核心使用场景。每一条都要经过反复推敲,确保既符合鹿城、瓯海、龙湾、瑞安、永嘉五地的口音习惯,又能被普通市民读懂。
每一段录音都要经过“人工初筛+算法审核+人工质检”三步。算法会剔除异常值——比如某一句发音与其他多数人明显不同,就会被标记甚至删除。最后的人工质检由语言学专业团队完成,确保每一秒音频都“地道”。“光是人工复听,我们就投入了巨大精力。”姜淑珍说,“但这是必须的。我们要给AI提供的是‘标准教材’,不能有杂音。”
声音档案留住城市记忆,
系统化举措延续瓯越方言文脉
“6000多个小时的方言语料,这是以前从未有过,以后也很难复刻的。”姜淑珍说,“现在我们有了方言大数据,今后的研究中更可以窥探温州话的全貌了。”
此次温州方言系统化采集工程收集的有效音频,不仅为AI训练提供了宝贵素材,更成为温州方言保护与传承的“宝藏资源”。
在规定的文本朗读之外,项目组还特意设计了一个“自由话题”环节——给出110个话题,让参与者想说什么就说什么。“参与者在群里特别开心,‘终于可以想讲什么就讲什么了!’有人讲小时候的故事,有人介绍温州美食,有人回忆父母教自己说第一句温州话的场景。这些带着温度的声音,将和那些标准发音一起,成为温州话永久的‘数字声音档案’。”姜淑珍说。
“温州人的语言习惯怎么样?温州人对温州话的态度如何?温州话的代际传承情况如何?”姜淑珍说,“有了如此丰富的语料素材,我们今后能研究温州话的代际差异,如不同年龄段温州人温州话的语音、词汇、语法变化;还能对温州话的语法特点,如特有的处置式、被动式、体标记系统进行量化分析等等。”
为了保护温州话、传承温州话,近年来,温州也做了诸多努力。温州建设了浙江省首座方言馆——“叮叮当童谣馆”,内设温州方言、童谣、录音室等六大板块;出版《温州话辞典》及其有声版,累计收录9000余个字头、3400条温州话词汇,涵盖温州话语音系统、温州俗谚语、温州话生僻字等内容;利用市图书馆资源,启用多媒体线上温州方言数据库,支持打造全国首个方言学术资料专题馆……
为了让更多温州儿童从小打下方言基础,温州每年安排《话说温州》地方课程教材,着力在全市中小学推广乡土教材;制定《温州市中小学素质教育质量提升项目经费管理办法》,因地制宜支持开展温州方言文化展演等活动;选树一批乡村书香校园、乡村社区幸福学堂(未来学堂),保护和传承方言吟诵、民歌、童谣、戏曲、曲艺等方言文化,让更多的儿童感受家乡方言的魅力和价值。
来 源:温州晚报
记者 张嫣彬
本文转自:温州新闻网 66wz.com
暂无评论,快来抢沙发吧!首评可提升互动曝光。