1.Kafka基本术语
Producer :消息生产者,就是向kafka broker发消息的客户端
Consumer :消息消费者,向kafka broker取消息的客户端
Topic :话题,可以理解为一个队列
Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个topic可以有多个CG。topic的消息会复制(不是真的复制,是概念上的)到所有的CG,但每个CG只会把消息发给该CG中的一个consumer。如果需要实现广播,只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic。
Broker :一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列。 partition中的每条消息都会被分配一个有序的id(offset)。 kafka只保证按一个partition中的顺序将消息发给consumer,不保证一个topic的整体(多个partition间)的顺序。
Offset:kafka的存储文件都是按照offset.kafka来命名,用offset做名字的好处是方便查找。例如你想找位于2049的位置,只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka
2.安装Kafka
## 下载
[grid@hadoop4 ~]$ wget http://mirrors.cnnic.cn/apache/kafka/0.8.2.1/kafka_2.11-0.8.2.1.tgz
[grid@hadoop4 ~]$ tar -zxf kafka_2.11-0.8.2.1.tgz
## 修改$KAFKA_HOME/config/server.properties
[grid@hadoop4 ~]$ cd kafka_2.11-0.8.2.1
[grid@hadoop4 kafka_2.11-0.8.2.1]$ vim config/server.properties
## 主要是修改以下几项配置:broker.id、port、host.name、log.dirs、zookeeper.connect
## zookeeper集群的安装请参考http://my.oschina.net/zc741520/blog/399233
3.Kafka基本命令
启动kafka bin/kafka-server-start.sh ./config/server.properties
创建topic bin/kafka-topics.sh --topic kafkaToptic --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partition 1
查看consumer bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --topic kafkaToptic --from-beginning
查看topic bin/kafka-topics.sh --list --zookeeper 127.0.0.1:2181
生产消息 bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic kafkaToptic
4.启动Kafka(需要先启动Zookeeper)
[grid@hadoop4 kafka_2.11-0.8.2.1]$ bin/kafka-server-start.sh ./config/server.properties &
5.创建名为apache_log的topic
[grid@hadoop4 kafka_2.11-0.8.2.1]$ bin/kafka-topics.sh --topic apache_log --create --zookeeper hadoop4:2181 --replication-factor 1 --partition 1 &
[grid@hadoop4 kafka_2.11-0.8.2.1]$ bin/kafka-topics.sh --list --zookeeper hadoop4:2181
apache_log