赞
踩
(1)词法分析:词性标注与词义标注
(2)句法分析:判断句子的句法结构和成分,明确各成分的相互关系,包括:完全句法分析、浅层句法分析
(3)语义分析:根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示
(4)语用分析:人对语言的具体运用,是对自然语言的深层理解
(5)篇章分析:对段落和整篇文章进行理解和分析
机器翻译,信息检索,情感分析,信息抽取等等
(1)预训练语言模型:BERT,GPT-3
(2)大语言模型(LLM)
正则表达式,就是用一串字符串去描述一组(一类)字符串。比如,找一个字符串,去表示the、The、THE。
(1)disjunctions(析取):
析取符: [ ] ,表示括号里多选一,例如:[wW]ood 匹配 wood 和 Wood.
另一个表析取的管道符:| ,例如 a|b 表示 [ab]
(2)范围表示:
[A-Z] 表示任意大写字母,[0-9] 表示任意数字
(3)negation(否定):
[^Ss] 匹配既不是 S 也不是 s 的单词
[^A-Z]匹配非大写字母
[e^]匹配 e 或者 ^,注意 ^ 写前面表否定
(4)? : 表示前一个字符可有可无,例如 colou?r
(5)* :表示前一个字符有零个或更多,例如 oo*h!
(6)+:表示前一个字符有一个或更多,例如 o+h!
(7). :表示任意字母,如 beg.n 代表begin,began,begun
(8)anchors锚点
用于锚定一句话中符合条件的单词:
^[A-Z] 表示一句话中以大写字母开头的单词,例如 Who are you?
\.$ 表示以 . 结尾,例如 The end.
而 .$ 表示以任意字符结尾,因为上面讲过 . 代表任意字符
(9)写一个正则表达式找出所有单词the:
[^a-zA-Z][tT]he[^a-zA-Z]
(1)两类错误:
False positives:不该匹配的匹配了
False negatives:该匹配的没匹配
(2)precision(准确率):减少false positive
recall(召回率):减少false negative
羊的叫声,正则表达式: baa+!
FSA图:
FSA图也可以是:
因此一个正则表达式可对应多个FSA
(1)The set of states (状态集): Q
(2)A finite alphabet (有限字母表): Σ
(3)A start state (初始状态)
(4)A set of accept/final states (终极状态)
(5)A transition function (转移函数) that maps QxΣ to Q
(1)步骤:
• Simply a process of starting in the start state
• Examining the current input
• Consulting the table
• Going to a new state and updating the tape pointer.
• Until you run out of tape
该步骤是通用的,针对不同问题只需要更换状态转移表即可
(2)确定性FSA与非确定性FSA(non-determinism)
非确定性FSA可以转换为确定性FSA
(1)lemma(词元):相同词干,相同词性,近似词义。如cat与cats
(2)wordform(词形):cat与cats是不同词形
(3)type(词型):vocabulary的一个元素
(4)token(词例):一个type出现的次数
例如下面一句话:they lay back on the San Francisco grass and looked at the stars and their
这句话有15 tokens,13 types。
N = number of tokens, V = vocabulary = set of types,|V| = size of vocabulary
了解即可:https://www.cnblogs.com/oberon-zjt0806/p/12409536.html
对英语作用一般,但对中文效果不错
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。