hadoop 配置 Kafka

在Hadoop集群上配置Apache Kafka涉及多个步骤，包括安装依赖项、配置Kafka环境变量、修改Kafka配置文件以及启动Kafka服务。以下是详细的步骤和需要修改的配置文件。

1. 安装依赖项

确保你已经安装了以下依赖项：

Java
Hadoop
ZooKeeper

安装Java和Hadoop

确保Java和Hadoop已经正确安装并配置好。你可以参考前面的Hadoop配置部分。

安装ZooKeeper

Kafka依赖于ZooKeeper进行协调。确保ZooKeeper已经正确安装并配置好。

wget https://downloads.apache.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz
tar -xzvf apache-zookeeper-3.7.0-bin.tar.gz
mv apache-zookeeper-3.7.0-bin /usr/local/zookeeper

编辑 $ZOOKEEPER_HOME/conf/zoo.cfg文件，添加以下内容：

tickTime=2000
dataDir=/var/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=zookeeper1:2888:3888
server.2=zookeeper2:2888:3888
server.3=zookeeper3:2888:3888

在每个ZooKeeper节点上创建 myid文件，并写入对应的ID（1、2、3）：

echo "1" > /var/zookeeper/myid

启动ZooKeeper服务：

$ZOOKEEPER_HOME/bin/zkServer.sh start

2. 下载和解压Kafka

从Apache Kafka官网下载Kafka的二进制包，并解压到你选择的目录下。

wget https://downloads.apache.org/kafka/2.8.1/kafka_2.13-2.8.1.tgz
tar -xzvf kafka_2.13-2.8.1.tgz
mv kafka_2.13-2.8.1 /usr/local/kafka

3. 配置环境变量

编辑 ~/.bashrc或 ~/.profile文件，添加Kafka的环境变量：

export KAFKA_HOME=/usr/local/kafka
export PATH=$PATH:$KAFKA_HOME/bin

然后使环境变量生效：

source ~/.bashrc

4. 修改Kafka配置文件

Kafka的主要配置文件位于 $KAFKA_HOME/config/目录下。你需要根据你的环境来调整这些配置文件。

`server.properties`

这是Kafka的主要配置文件。你需要配置Broker ID、监听地址、ZooKeeper连接等。以下是一个示例配置：

# Broker ID
broker.id=0

# 监听地址
listeners=PLAINTEXT://:9092

# 日志目录
log.dirs=/tmp/kafka-logs

# ZooKeeper连接
zookeeper.connect=zookeeper1:2181,zookeeper2:2181,zookeeper3:2181

# 其他配置
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0

5. 启动Kafka

在Kafka主节点上启动Kafka服务：

$KAFKA_HOME/bin/kafka-server-start.sh $KAFKA_HOME/config/server.properties

6. 创建Kafka主题

使用以下命令创建一个Kafka主题：

$KAFKA_HOME/bin/kafka-topics.sh --create --topic my-topic --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1

7. 验证配置

使用Kafka生产者和消费者工具验证Kafka是否正常工作：

生产者

$KAFKA_HOME/bin/kafka-console-producer.sh --topic my-topic --bootstrap-server localhost:9092

在生产者终端中输入一些消息，例如：

Hello, Kafka!
This is a test message.

消费者

在另一个终端中启动Kafka消费者：

$KAFKA_HOME/bin/kafka-console-consumer.sh --topic my-topic --bootstrap-server localhost:9092 --from-beginning

你应该能够在消费者终端中看到生产者发送的消息。

8. 配置Hadoop和Spark与Kafka集成

如果你打算使用Hadoop或Spark与Kafka进行交互，需要配置Hadoop和Spark以支持Kafka连接。

配置Spark

安装Kafka连接器

下载Kafka的Spark连接器并将其添加到Spark的类路径中：

wget https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.12/3.1.2/spark-sql-kafka-0-10_2.12-3.1.2.jar
cp spark-sql-kafka-0-10_2.12-3.1.2.jar $SPARK_HOME/jars/

编写Spark代码

以下是一个示例Spark代码，用于从Kafka读取数据：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Kafka Example") \
    .getOrCreate()

df = spark.readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "my-topic") \
    .load()

query = df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)") \
    .writeStream \
    .outputMode("append") \
    .format("console") \
    .start()

query.awaitTermination()

总结

以上步骤应该可以帮助你在Hadoop集群上成功安装和配置Kafka，并通过Spark与Kafka进行交互。如果有任何特定的问题或错误信息，请提供详细信息，我可以进一步帮助你解决问题。

菜单

分享

1. 安装依赖项

安装Java和Hadoop

安装ZooKeeper

2. 下载和解压Kafka

3. 配置环境变量

4. 修改Kafka配置文件

`server.properties`

5. 启动Kafka

6. 创建Kafka主题

7. 验证配置

生产者

消费者

8. 配置Hadoop和Spark与Kafka集成

配置Spark

总结

评论

arpl编译下载速度过慢？修改两个文件拯救你的下载速度（转载）

用.bat批处理文件运行conda环境下的Python程序

nat打洞(p2p)

PHP 命名空间(namespace)详解

PHP|Python 循环与条件语句内变量作用域及global、nonlocal关键字解析

Linux 使用 ‘useradd’ 命令的 ‘-g’ 选项指定组时，新用户为何不在 /etc/group 中作为组成员显示？

MySQL 外键约束

Linux输入输出(错误)重定向，分界符，解释，实例，综合实例，实际应用 cat命令解释

mysql设置约束|删除约束

MySQL 索引详解