计算机视觉与自然语言处理（Open AI）_open ai 技术架构

作者：花生_TL007 | 2024-05-05 22:30:30

踩

open ai 技术架构

1.语音识别技术

语音识别是将语音转换为文本的技术，是自然语言处理的一个分支。通过特征的提取、模式的匹配将语音信号变为文本或命令，以实现机器识别和理解语音。

按照应用场景的不同，可以大致分为三类；
• 电信级系统应用：以自动语音服务的形式用在各行业的企业自动语音服务中心，具体的场景包括电话银行、股票交易、金融产品客服、电子商务、旅游服务等；
• 嵌入式应用：以基础应用的形式集成在各类终端产品中，如机器人、手机、车载系统等；
• 特殊应用：主要为安全部门提供声纹识别应用方案，用于自动身份辨认。

主要瓶颈：
• 语音交互受背景噪音、语速等多重因素影响，不同场景识别率差别较大，实际应用仅限近距离使用；
• 语音交互成为下一个搜索引擎方式的主要阻碍是消费者习惯，多数消费者尚未形成语音使用习惯。

2.语义识别

语音识别解决的是计算机“听得见”的问题，而语义识别解决的是“听的懂”的问题，自然语言处理（NLP）表示语言能力，语言应用的模型通过建立计算机框架来实现语言模型，并根据语言模型来设计各种实用系统。

技术成熟度较低，主要瓶颈在于深度学习并非语义识别最佳解决方案。NLP现在实际的技术困难还是语义的复杂性，包含因果关系和逻辑推理的上下文等，现在解决这些问题的思路主要还是深度学习。深度学习拓展了神经网络的层次，而且大数据的积累和并行计算的增强则给这种方法奠定了基础，这也是最近机器学习非常火热的原因。因此基于大数据、并行计算的深度学习将会给NLP带来长足的进步，但是若想达到人类的这种理解层次，恐怕仅靠这种方法也很难实现。

3.计算机视觉

指用计算机来模拟人的视觉系统，实现人的视觉功能，以适应、理解外界环境和控制自身的运动。总的来讲，主要是视觉系统解决的是物体识别、物体形状和方位确认以及物体运动判断这三个问题，而计算机视觉的研究，则是专注于让机器代替人眼，解决这些问题。从技术的角度来说主要是三个过程：目标检测、目标识别、行为识别，分别解决了“去背景”、“是什么”、“干什么”的问题。

技术成熟度：计算机视觉各细分领域的成熟度相差较大。在生物特征识别领域，如人脸识别、指纹识别、瞳孔识别，技术成熟度高，工业化程度高，广泛应用于安防和考勤。在物体和场景识别方面，由于识别的物体种类繁杂，表现形态多样，技术成熟度较低。现阶段多数公司着力数据标注。静态物体的识别技术较为成熟，动态图像的图像识别难度较大。
主要瓶颈：受图片质量、光照环境的影响，现有图像识别技术较难解决图像残缺、光线过爆、过暗的图像。此外，受制于被标记数据的体量和数量，若无大量、优质的细分应用场景数据，该特定应用场景的算法迭代很难实现突破。

语音识别：整体较为成熟，但背景噪音仍难解决。
语义识别：由于牵扯到到背景知识的表达，上下文环境等，识别准确率并不高。目前知识图谱、迁移学习等能够发挥一部分的作用，但存在依赖人工构建等缺点，技术理论的发展仍待突破

计算机视觉：该领域的发展在深度学习理论出现后得到了大的突破，但目前仅人脸识别、OCR识别较为成熟，物体识别、场景识别仍在技术攻关中。对动态视频影像、光线遮挡问题较严重的情况下，技术仍存在瓶颈。这个领域的创业公司最多，也是创投资金最充裕的一个领域。

在线教程

麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中，你将会学习到让机器人执行一系列动作所需要的基本算法。
机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法，包括：概率推算，计划和搜索，本地化，跟踪和控制，全部都是围绕有关机器人设计。
机器学习 – 有指导和无指导情况下的基本机器学习算法
机器学习中的神经网络 – 智能神经网络上的算法和实践经验
斯坦福统计学习

有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/541121