赞
踩
《自然语言处理》课程笔记
授课老师 常宝宝
助教 周昆
课程较基础,专业性强
上课、作业!无考试。2个大作业(自己的数据集 模型 深入体会,不是简单训练)
涉及深度学习,不是重点(自然语言处理比深度学习历史悠久很多) 浅层处理?
规则方法-少
计算语言学概论 俞士
会议比较重要
ACL年会 自然语言处理领域最重要会议A类
EMNLP (Empirical Methods)经验方法(now 主流) (vs 规则方法)
Computational Linguistics (ACL) 最重要期刊
2 3比较新
自然语言 交流、思维
自然演化,不是预先设计,会不断变化
人造语言
规划设计 e.g. programming 机器与人交流
人类具有理解和生成语言的能力
动机:让计算机也具有理解和生成语言的能力
强调 形式化计算模型
理解 NLU
生成 NLG 进展较少,在特定环境下
OCR 语音识别-预处理,还没有开始理解
与人工智能其实相对独立,比人工智能早
人工智能中很困难的部分
交叉学科:处理的建模工具-数学,将其转化为数学问题 计算机科学-研究工具 语言学-工具、处理对象
图灵测试:人工智能的测试
用键盘输入方式提问(不知道人/机器)若无法判别,则该机器=智能
回避了语言的机器理解??具有缺陷
分层分析处理,推进理解
end-to-end model 端到端处理 回避了理解
不要预处理和特征提取,直接把原始数据扔进去得到最终结果
缩减人工预处理和后续处理
e.g. 人机对话?能回答可视为理解了?
句法结构-一般为树结构
=符号主义 / 理性主义
机器具有语言学的知识-通过人类专家以规则的形式总结和形式化(规则形态的知识库)注入计算机
e.g. 动词短语VP / 名词短语NP + 介词短语PP →更大的*词短语
容易引起歧义
telescope是谁的?
语法有例外/漏洞 - 规则方法无法精准建立
=机器学习方法 / 经验主义 目前主流
机器从语言样本中自动学习
建立语料库
大量样本
词袋模型:扔骰子-选词(选定一个词后应该考虑相关性,改变后面词选出的概率)
马尔科夫过程:
需要分布参数
模型只是现实世界的简化,并不能精确表示语言
需要大量语言样本,样本的代表性需求高,标注代价高
数据稀疏 大量低频的用法
前面讲的各种类型 - 引起歧义
NLP 核心 解决歧义
多学科交叉,且计算机需要注入世界知识(常识)
广阔应用领域
FAHQMT fully advanced high quality machine translation
文本数据结构化:信息散落在文章中
垃圾邮件过滤
计算机 最早用于计算 现在主要用于符号处理
Warren Weaver 1949 提出用于翻译
Chomsky 57年提出放弃统计方法,当时数据少,算力低
仅仅增加规则,不能极大优化,且效率大幅下降
ALPAC会议 1966 否认了机器翻译,认为语义障碍难以跨越
SYSTRAN 翻译后再编辑
70年代,AI繁荣,自然语言处理也复苏
90年代,统计方法复苏
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。