当前位置:手机版亚博首页 行家谈专业
语言数据是信息时代的生产要素
作者: 来源:法学院招生就业 浏览量:220 发布时间:2021-06-16
如同土地之于农民,机器之于工人,计算机通过对语言数据的加工学习可以获得知识与智能,从而去创造人类的新生活——
语言数据是信息时代的生产要素
作者:李宇明(北京语言大学语言资源高精尖创新中心主任兼首席科学家)
随着5g、语言智能和物联网的快速发展,人类社会正在发生划时代的变化。人类的认识也应随着时代进步而不断更新,重新审视已然,及时预判将然。语言究竟是一种什么现象?语言学究竟如何发展?就是需要审视、需要预判的。
1. 语言数据是生产要素
生产要素与生产力发展水平和经济制度密切相关。数据具有生产要素性质,只有信息化发展到一定阶段才能成为现实,才能被人认识。
早在2017年12月8日,习近平总书记就提出“要构建以数据为关键要素的数字经济”。之后,在2018年4月“首届数字中国建设峰会”(福州)、2018年5月中国国际大数据产业博览会、2018年9月江苏互联网大会,以及2019年12月第六届中国国际大数据大会上,都突出了“数据是数字经济关键要素”的话题。特别是在2018江苏互联网大会上,工业和信息化部总经济师王新哲强调,“以数据作为关键生产要素的数字经济正在成为继农业经济、工业经济之后的新型经济形态”。至此,人们获得了两个基本认识:1.数字经济是继农业经济、工业经济之后的新型经济形态;2.数字经济的关键生产要素是数据。
党的十九届四中全会提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”这是对数据具有生产要素性质这一认识的总结,把数据与劳动、资本、土地、知识、技术、管理并列为第七大生产要素,可以通过市场按贡献取酬。这是重大的理论创新,体现着对信息化社会的本质认识,是在数字经济快速发展背景下经济制度的与时俱进。
一般认为,数据是信息的表现形式和载体。随着科技与社会的进步,数据的内涵和外延都可能会发生变化。但有一点现在是可以肯定的,那就是多数数据都是“语言数据”。其一,语言(包括文字)是人类信息最为重要的载体,大约80%的信息是用语言负载的。没有用语言负载的信息,也常常需要语言来帮助阐释,比如图画、雕塑、音乐、服装、建筑等艺术。其二,语言资源本身也是语言数据。语言数据是最为重要的数据,应当属于“生产要素”范畴。
语言数据是信息时代的生产要素,如同土地之于农民,机器之于工人,计算机通过对语言数据的加工学习可以获得知识与智能,从而去创造人类的新生活。随着语言智能的发展,语言数据的生产要素属性定会越来越清晰。
6月16日,世界智能大会期间,智能机器人指挥乐团演奏曲目。新华社发
2.语言数据纳入数字经济视野
20世纪50年代,人类就开始进行机器翻译的尝试,训练机器进行语言信息处理的进程由此开始。中文信息处理经过字处理、词处理阶段的艰难行进,已顺利步入话语处理阶段,努力让计算机具有语言智能。信息检索、自动翻译、机器写作、人机对话等领域的快速进展,得益于语言大数据的集聚与应用。
语言是人类独有的符号系统,这是语言学的经典认识。但是随着语言智能的发展,语言将为人类和机器这两个“物种”共同享有。如今重要的语言交际,多数都是“人-机-机-人”的交际,是“人-机”“机-机”“机-人”的合成,疫情期间的云端会议、线上课程、网络购物、网上就医等,都属于这种交际模式。如果与“人形机器人”对话,机器拥有语言这一现象,就会看得更为明显。随着物联网的发展,只要在需要驱动的目的物上植入“语言感应器”,人就可以通过具有语言智能的机器与万物关联,与万物对话,使万物具有“语言智能”。
2018年12月召开的中央经济工作会议重新定义了基础设施建设,把5g、人工智能、工业互联网、物联网定义为“新型基础设施建设”,简称“新基建”。一年多来,新基建的内容不断丰富,面貌逐渐清晰。新基建不仅是信息网络等的基础设施建设,还让基建物具有“智能”,特别是语言智能,以便实现人与万物的关联对话。
与信息相关的产业,有许多是语言产业。在较高的工业化时代,据瑞士语言经济学家的研究,语言产业为社会gdp的贡献接近10%。信息化时代,数据可以成为生产要素的时代,语言产业的经济能量会大幅提升,可以预测,没有语言产业的繁荣,发展不出繁荣的数字经济。
未来,也许是不久的未来,语言数据将成为重要的生产要素,语言将进入重要的生产力范畴。集聚、管理语言数据并使其发挥最大作用,将成为发展生产的重要任务,语言产业、语言职业将成为数字经济的一方重要支柱。
3. 语言与物理、社会、信息“三元空间”
人类形成之前,世界就是自然界,只是一个“物理空间”。人类的形成与发展,便在物理空间中生长出一个“社会空间”。语言与社会空间一起成长,大约距今3到5万年前的旧石器时代,人类已有较成熟的口头语言,口语的载体是声波。大约距今5000至5500年前,文字在两河流域产生,语言有了新载体光波。20世纪20年代,广播、电视相继出现,有声媒体使语言有了第三大载体电波。20世纪末,互联网商业化,语言信息处理也快速进步,人类开始建构一个新空间——“信息空间”,也就是常说的“虚拟空间”“网络空间”。潘云鹤院士2019年在题为《人工智能2.0与数字经济》的报告中,敏锐指出人类正由传统的“物理空间”“人类社会”二元空间,逐步进入了“物理空间”“人类社会”“信息空间”所构成的三元空间。
信息空间是一个正在发展的空间,其结构和运行机理还在被逐步认识、逐渐完善中。但有一点相对明确,那就是信息空间主要是被数字化了的语言空间。语言过去是在社会空间中使用,如今是在社会空间、信息空间这两个空间中使用。随着物联网、语言智能的发展和智能化新基建的实施,语言将跨入物理空间,在人类的三元空间中运用。语言在人类生产活动的作用将更为显著。
语言已经不仅仅是人文现象,它是“具有声光电三大媒介、为人类与机器两个‘物种’共享、将应用在社会、信息、物理三元空间中”的事物。语言学作为“研究语言及其相关问题”的科学,也不能局限于“语言文学”,而应当是横跨文理工的综合学科。
2017年10月,美国希拉姆学院提出“新文科”的教育理念,对其29个专业重组,把新技术融入哲学、文学、语言等课程中。这反映了学科交叉融合的时代大趋势。我国也在积极推进“新工科、新医科、新农科、新文科”建设。根据语言的性质,就应当依照“新文科”的思路发展语言学。综合、交叉、融入新技术的语言学,才能够适应“数据是数字经济的关键生产要素”的时代命题和经济制度,促进知识经济的发展,推进智能化新基建的发展。当然,新基建和知识经济的谋划者,也应当充分重视语言和语言学,获取语言学的科学红利。