赞
踩
语料库(corpus)一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。
共时语料库与历时语料库。
通用语料库与专用语料库。一般把抽样时仔细从各个方面考虑了平衡问题的平衡语料库称为通用语料库。
垃圾格式问题,大小写,标记化,句点、单撇号、连字符,词干化,句子边界。
用频率方法识别固定搭配,用均值和方差方法识别灵活的搭配。
改进:删除高频干扰词,引入词性处理间接共现(无效),迭代,引入词典
问题的形式化描述如下:
利用贝叶斯公式进行转换。假设对齐句对中源于言和目标语的句子长度服从正态分布,则可以估计出第一项概率。
那么第二项p(match)如何计算呢?由于不同的对齐模式有不同的概率,查找已对齐的双语语料库可以进行估计,最后利用动态规划求解最优路径。
费尔迪南·德·索绪尔,现代语言学之父,把语言学塑造成为一门影响巨大的独立学科。
N元文法是自然语言处理领域赫赫有名的一个模型。
假定一暗室中有N个口袋,每个口袋中有M种不同颜色的球。一个实验员根据某一概率分布随机地选取一个初始口袋,从中根据不同颜色的球的概率分布,随机地取出一个球,并向室外的人报告该球的颜色。再根据口袋的概率分布选择另一个口袋,根据不同颜色的球的概率分布从中随机选择另外一个球。重复进行这个过程。
估值问题:给定一个观察序列 O 和模型μ=(A,B,π),如何快速地计算出给定模型μ情况下,观察序列O的概率,即
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/349997
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。