赞
踩
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的 所有动作流数据。有如下特性:
- 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常 数时间复杂度的访问性能。
- 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的 传输。
- 支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内的消息 顺序传输。
- 同时支持离线数据处理和实时数据处理。
- Scale out:支持在线水平扩展。
O(1):时间复杂度的算法
在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息系统在处理 过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接 口。这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约 束。
有些情况下,处理数据的过程会失败。除非数据被持久化,否则将造成丢失。消息 队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风 险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除 之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被 安全的保存直到你使用完毕。
因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的, 只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电
力按钮一样简单。
在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常 见;如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。 使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请 求而完全崩溃。
系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合 度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后 被处理。
在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的, 并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有 序性。
在任何重要的系统中,都会有需要不同的处理时间的元素。例如,加载一张图片比 应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行 ———写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统 的速度。
很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许 用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多 少,然后在需要的时候再去处理它们。
RabbitMQ是使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非 常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均 衡或者数据持久化都有很好的支持。
Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。虽然它是一个Key-Value数据库存储系统,但它本身支持MQ功 能,所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作,各执行100万次,每10万次记录 一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明:入队时,当数据比较小时Redis的 性能要高于RabbitMQ,而如果数据大小超过了10K,Redis则慢的无法忍受;出队时,无论数据大小,Redis都表现出非常好的性 能,而RabbitMQ的出队性能则远低于Redis。
-ZeroMQ号称最快的消息队列系统,尤其针对大吞吐量的需求场景。ZeroMQ能够实现RabbitMQ不擅长的高级/复杂的队列,但是开发人员需要自己组合多种技术框架,技术上的复杂度是对这MQ能够应用成功的挑战。ZeroMQ具有一个独特的非中间件的模 式,你不需要安装和运行一个消息服务器或中间件,因为你的应用程序将扮演这个服务器角色。你只需要简单的引用ZeroMQ程序 库,可以使用NuGet安装,然后你就可以愉快的在应用程序之间发送消息了。但是ZeroMQ仅提供非持久性的队列,也就是说如果 宕机,数据将会丢失。其中,Twitter的Storm 0.9.0以前的版本中默认使用ZeroMQ作为数据流的传输(Storm从0.9版本开始同时 支持ZeroMQ和Netty作为传输模块)。
ActiveMQ是Apache下的一个子项目。类似于ZeroMQ,它能够以代理人和点对点的技术实现队列。同时类似于RabbitMQ,它 少量代码就可以高效地实现高级应用场景。
Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,而Jafka是在Kafka之上孵化而来的,即 Kafka的一个升级版。具有以下特性:快速持久化,可以在O(1)的系统开销下进行消息持久化;高吞吐,在一台普通的服务器上既 可以达到10W/s的吞吐速率;完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,自动实现负载均衡;支 持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方 案。Kafka通过Hadoop的并行加载机制统一了在线和离线的消息处理。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息 系统,除了性能非常好之外,还是一个工作良好的分布式系统。
如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的 Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支 持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以 及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置,选举leader,以及在 Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到 broker,Consumer使用pull模式从broker订阅并消费消息。
Kafka集群包含一个或多个服务器,这种服务器被称为broker(硬件)
每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不 同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但 用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)
Partition是物理上的概念,每个Topic包含一个或多个Partition.
负责发布消息到Kafka broker
消息消费者,向Kafka broker读取消息的客户端。
每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定 group name,若不指定group name则属于默认的group)。
- kafka使用zookeeper来实现动态的集群扩展,不需要更改客户端(producer和 consumer)的配置。broker会在zookeeper注册并保持相关的元数据 (topic,partition信息等)更新。
- 而客户端会在zookeeper上注册相关的watcher。一旦zookeeper发生变化,客户 端能及时感知并作出相应调整。这样就保证了添加或去除broker时,各broker间仍能 自动实现负载均衡。
- 解压kafka安装包
- 编辑文件config/server.properties
- 找到并编辑log.dirs=D:\Java\Tool\kafka_2.11-0.10.0.1\kafka-log,这里 的目录自己修改成自己喜欢的
log.dirs=../tmp/kafka-logs
- 找到并编辑zookeeper.connect=localhost:2181。默认表示本地运行(不用 改)
- Kafka会按照默认,在9092端口上运行,并连接zookeeper的默认端口:2181。
- dos命令进入kafka/bin/windows/这个路径,
执行命令:kafka-server-start.bat …\config\server.properties
假如报如下错误:
错误: 找不到或无法加载主类 Files\Java\jdk1.7.0_80\lib;C:\Program
修改前
:
set COMMAND=%JAVA% %KAFKA_HEAP_OPTS% %KAFKA_JVM_PERFORMANCE_OPTS% %KAFKA_JMX_OPTS% %KAFKA_LOG4J_OPTS% -cp %CLASSPATH% %KAFKA_OPTS% %*
修改后
:
set COMMAND=%JAVA% %KAFKA_HEAP_OPTS% %KAFKA_JVM_PERFORMANCE_OPTS% %KAFKA_JMX_OPTS% %KAFKA_LOG4J_OPTS% -cp “%CLASSPATH%” %KAFKA_OPTS% %*- 创建topic(频道)
打开新的dos命令框,进入kafka/bin/windows/这个路径
执行命令: kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic chenjh
创建一个chenjh频道- 打开新的dos命令框,进入kafka/bin/windows/这个路径,
执行命令:kafka-console-producer.bat --broker-list localhost:9 092 --topic chenjh
创建一个关注chenjh频道的生产者- 客户端(消费者)连接频道
打开新的dos命令框,进入kafka/bin/windows/这个路径
执行命令:kafka-console-consumer.bat --zookeeper localhost:218 1 --topic chenjh
创建一个关注chenjh频道的消费者- 测试
在生产者命令窗口输入一句话进行测试,如: 天王盖地虎,然后回车。可以看到消 费之窗口获取到了这一条消息。
.\bin\windows\kafka-topics.bat --zookeeper localhost:2181 --list
.\bin\windows\kafka-topics.bat --zookeeper localhost:2181 --describe
从上面的安装测试也大概可以看出kafka的结构。下图为kafka的结构图,摘自网络
参考
kafka的Java客户端示例代码(kafka_2.11-0.8.2.2)
kafka 0.9.0.0 部分配置详解
kafka学习(四)–java开发(基于kafka0.9、1.0版本)
Kafka入门-windows安装测试
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。