统计语言学
传统的统计语言学研究领域主要包括几个方面:①统计语言单位的出现频率,如对词汇和音位、语素出现的频率进行统计研究。②统计作家的用词频率、词长分布和句长分布,以了解作家运用语言的风格;用这种方法还可判定匿名文章的作者。③计算语言存在的绝对年代以及亲属语言从共同原始语分化出来的年代,这方面的研究称语言年代学,又称词源统计分析法。此外,还可对亲属语言的语法、语音体系进行统计、比较。④采用信息论方法研究语言的熵和羡余度。语言的熵指在交际过程中语言符号出现的不定度,其大小与语言的熵的高低一致。当语言的接收者收到语言符号后,不定度被消除,熵等于零,因而在交际过程中,语言接收者所得到的信息量等于被消除的熵。语言羡余度是指语言中超过传递最少需要量的信息量的比例,在一般情况下,为了保证对方能够理解,会提供比实际需要更多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。⑤探讨语言的一般统计规律。例如,在按频率递减顺序排列的频率词典中,词的序号越大,词的频率越小,序号与频率之间的关系可以用数学公式描述为一定的统计规律——齐夫定律。⑥运用随机过程论研究语言,把语言看成彼此联系的字母序列,前一个字母决定后一个字母的出现,于是形成一条字母链,称为“马尔可夫链”。⑦研究文章中两个词之间、两个语法范畴之间、两个语义类型之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。⑧研究语言的词汇与文章长度的关系,以揭示文章中词汇的丰富程度和差异程度。
统计语言学在数理语言学中有比较悠久的历史。古印度语法学家在研究《吠陀》时进行过单词和音节数目的统计。1851年,英国数学家A.de摩根(A. de Morgen)曾把词长作为文章风格的一个特征而加以统计研究。英国的L.坎贝尔(L. Campbell)于1867年、德国的W.迪丁贝尔格(W. Ditingberg)于1881年都曾采用统计方法确定柏拉图著作的写作时期。1887年,美国的T.C.门登霍尔(T. C. Mendenhauer)对英国文学作品、特别是莎士比亚的作品进行过统计分析。1913年,俄罗斯的A.A.马尔可夫(A. A. Markov)研究了俄语中字母序列的生成问题,提出了马尔可夫随机过程论。1935年,美国G.K.齐夫发表了齐夫定律。1944年,英国数学家G.U.尤勒(G. U. Yule)在《文学词语的统计分析》一书中广泛使用概率和统计方法研究语言。1950年,美国的M.斯瓦迪士(M. Swadesh)进行了语言年代学的研究。1951年,美国数学家C.E.香农(Claude Elwood Shannon,1916~2001)采用信息论的方法研究书面英语中的熵和羡余度,美国的V.英格维(V. Yngve)对句法现象进行了间距分析。1954年,法国的P.基罗(P. Guiraud)根据文章中词的频率分布提出了词汇丰富度的概念。1956年,英国的G.赫丹(G. Herdan)出版了《语言是选择和机遇》一书,系统总结了统计语言学的研究成果。几十年来,在语言统计中日益广泛地使用计算机,逐渐改变了传统的手工查频的统计办法,提高了统计的效率和精度。
统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学,分别研究语言的语音、词汇、语法和语义的统计特征。从描写的角度出发,词汇统计学又可以分为年代统计学、风格统计学和分类统计学三个分支,分别根据时代的变化、作者写作风格的不同和语言的类属或起源对词汇特征进行统计分析。 语料库语言学的发展使统计语言学得到了的重视。学者们采用统计方法从大规模真实文本语料库中获取语言知识,使用隐马尔可夫模型、噪声信道理论等从统计的角度研究语言,统计语言学得到进一步的发展和应用。 早在1947年,美国的W.韦弗在他的以《翻译》为题的备忘录中,提出了使用解读密码的方法来进行机器翻译,这种所谓“解读密码”的方法实质上就是一种统计的方法,他是想用基于统计的方法来解决机器翻译问题。但是,由于当时缺乏高性能的计算机和联机语料(corpus on line),采用基于统计的机器翻译在技术上还不成熟,韦弗的这种方法在当时是难以付诸实现的。直到20世纪90年代现随着计算机在速度和容量等方面大幅度的提高,再加上出现了大量的联机语料可供统计使用,因此,基于统计的机器翻译又兴盛起来。
在韦弗思想的基础上,IBM公司的P.布朗(Peter Brown,美国)等人提出了统计机器翻译的数学模型。越来越多的互联网和软件公司都推出了基于统计的在线的机器翻译系统。例如,谷歌的多语言在线机器翻译系统Google Translate、百度的在线英汉机器翻译系统。在线统计机器翻译系统不仅直接推动了机器翻译研究的发展,而且方便了人们的生活与学习,人类的语言障碍正在逐渐得到克服。这是信息时代自然语言处理研究的重大成果。 机器翻译研究的大量事实证明,在机器翻译中,对语言的分析并非越精确越好。目前,人们更加倾向于通过扩大语言模型训练数据规模进行机器深度学习的方法,从大规模真实的语料中获取对于机器翻译有用的语言知识,并适当地进行一些浅层的语言分析,把基于统计的机器翻译与基于规则的机器翻译结合起来,争取得到最好的机器翻译结果,而这种最好的机器翻译结果,可以是全自动的,但却不一定是高质量的,而只是具有较高参考性的译文。 除了统计机器翻译之外,统计语言学的许多研究成果,对于通信技术、语言教学和自然语言处理也很有价值。在统计语言学的基础之上,对于语言现象进行计量研究,探讨语言本体的自组织、自适应的统计规律性,产生了一门新的学科,称为计量语言学。