自然语言处理
自然语言与人工(或人造)语言不同,前者是人类社会中自然形成的语言,人们借助其进行各种交际活动,如汉语、英语、俄语等;后者是通过人工设计创造出来的语言,如国际辅助语和计算机语言。自然语言是人类历史长期发展而约定俗成的产物,比人工语言要复杂得多。 自然语言与人工语言有以下不同:①自然语言中充满着歧义,而人工语言中的歧义则是可以控制的。②自然语言的结构复杂多样,而人工语言的结构则相对简单。③自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义。④自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和语义之间有着整齐的一一对应的同构关系。
由于自然语言的这些独特性质,使得自然语言处理成为人工智能的一大难题。自然语言处理一般应经过四个方面的过程:①把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来,这个过程可以叫作“形式化”。②把这种严密而规整的数学形式表示为算法,这个过程可以叫作“算法化”。③根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统,这个过程可以叫作“程序化”。④对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求,这个过程可以叫作“实用化”。
为了研究自然语言处理,不仅要有语言学方面的知识,而且还要有数学和计算机科学方面的知识,因此自然语言处理就成了一门界乎语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及文科、理科和工科三大领域。 自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、信息自动检索系统、信息自动抽取系统、文本信息挖掘系统、术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。 自然语言理解是自然语言处理的核心,其中包括语音和语符的自动识别以及语音的自动合成。语言之间的自动翻译是一种高级的人工智能,涉及两种或多种自然语言的理解和处理问题。上述项目都还处于研究实验或初步应用的阶段。自然语言处理中智能较低的工作,如语料的统计、分类、检索等,早已付诸应用。
在自然语言处理的领域内,计算语言学工作者所研究的只是它的一般理论和方法,以及与语文信息加工有关的基础性工作。随着计算机科学和语言学的发展,自然语言处理的条件将逐步改善,它的技术将逐步提高,同时,它所起的作用也会越来越大。 2018年后,自然语言处理进入了大语言模型(large language model,简称LLM)阶段,基本形成了一套近乎完备的技术体系,包括词嵌入、编码器-解码器的端对端语言模型、注意力机制、Transformer模型以及BERT预训练模型等。这一套技术体系有力地促进了自然语言处理在信息搜索、阅读理解、机器翻译、文本分类、智能问答、智能对话、网络聊天、信息抽取、自动文摘、文本生成等重要领域的应用,预示着自然语言处理将要开启大规模工业化实施的时代。