NLP模型笔记2022-02:关于规则与语料对语言模型的理解
自然语言处理大概可以分为两个学派:理性主义学派和经验主义学派。
理性主义学派认为语言是由一些表层或深层的规律构成的,所以试图利用规则描述语言规律;而经验主义学派认为,人们的语言能力是学习得到的,所以试图利用大量的语料对语言规律进行学习,很显然,两个学派都有其长处和短板。
利用规则描述语言规律直观、灵活,还可以表述复杂的语言知识,具有良好的描述能力和生成能力,但是这种方法对语言知识的覆盖率低,成本高,对语言冲突缺乏解决能力,而且自然语言处于不断的变化之中,而规则法对这种变化的适应能力很弱。
利用语料对语言进行学习从本质上讲是一种统计模型,这提供了语言知识的冲突解决机制,提高了语言的覆盖率,同时也可以应对自然语言的变化,但是这一切的长处都建立在拥有大规模语料的情况下,对于数据稀缺的小语种,没有较好的解决办法,而且这种学习无法表述深层次的、复杂的语言知识。
20世纪20年代到20世纪50年代,以马尔可夫、图灵、香农、韦弗、乔姆斯基为代表的科学家利用概率法进行了自然语言处理领域的研究;20世纪60年代到20世纪80年代中期,理性主义(规则法)是自然语言处理领域的主要方法;而在20世纪80年代之后,经验主义成为了自然语言处理领域的潮流,特别是2010年以后,深度学习技术的发展使得自然语言处理进入了蓬勃发展的时期。
引用链接:https://blog.csdn.net/echoKangYL/article/details/86562502
NLP攻略:https://zhuanlan.zhihu.com/p/101109775