当前位置:   article > 正文

自然语言处理:基于预训练模型的方法(一)

基于预训练

1.2 自然语言处理的难点

1.2.1 抽象性
语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂
概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属
性,有轮子、能载人或物等。
1.2.2 组合性
每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB
2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单
词,英文和中文也不过各几十万个。然而,这些有限的符号却可以组合成无限的语
义,即使是相同的词汇,由于顺序不同,组合的语义也是不相同的,因此无法使用穷
举的方法实现对自然语言的理解。
1.2.3 歧义性
歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的,如:
“苹果”一词,既可以指水果,也可以指一家公司或手机、电脑等电子设备,这就是
典型的一词多义现象。另外,对于两个句子,如“曹雪芹写了红楼梦”和“红楼梦的
作者是曹雪芹”,虽然它们的形式不同,但是语义是相同的。
1.2.4 进化性
任何一种“活着”的语言都是在不断发展变化的,即语言具有明显的进化性,也<

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/349874
推荐阅读
相关标签
  

闽ICP备14008679号