赞
踩
一个产业的蓬勃发展离不开基础知识点的整理与沉淀。
我们相信这一份「208个关于大数据和人工智能的专用名词术语」中英文对照版 ;会成为大家以后日常工作中常用的工具,无论是你在翻译、写产品文档、写论文、又或者尝试国外新技术的时候都会用得上。所以,我们很高兴可以把它整合并且分享出来,并且按照字母进行了排序。
由于文字太多,今天先放出从A-I部分,明天会放出J-Z部分。
感谢大家长期以来的关注和支持。
A
Apache Kafka:命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
Apache Mahout:Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
Apache Oozie:在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。
应用程序开发(APP DEV):应用程序开发是根据用户要求建造出软件系统或者系统中的软件部分的过程,包括需求捕捉、需求分析、设计、实现和测试的系统工程。一般是用某种程序设计语言来实现的。通常采用应用程序开发工具可以进行开发。
Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。
Apache Hive:知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Apache Pig:Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?
Apache Sqoop:一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。
Apache Storm:一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。
人工智能(Artificial Intelligence):研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习
聚合(Aggregation) – 搜索、合并、显示数据的过程
算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。
异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息
匿名化(Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据
应用(Application) – 实现某种特定功能的计算机软件
分析法(Analytics):用于发现数据的内在涵义。让我们试想一个很可能发生的情况,你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件,如果这个时候你拿着这张单子,开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作,你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么,如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下,我们就可以称之为大数据分析。所谓大数据分析,就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法,现在我们来对它们分别进行梳理。
B
批处理(Batch processing):尽管批量数据处理从大型机(mainframe)时代就已经存在了,但是在处理大量数据的大数据时代面前,批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop),后面会讨论,就是一种专门处理批量数据的方法。
行为分析(Behavio
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。