hadoop 配置 flink

在Hadoop集群上配置Apache Flink涉及多个步骤，包括安装依赖项、配置Flink环境变量、修改Flink配置文件以及启动Flink服务。以下是详细的步骤和需要修改的配置文件。

1. 安装依赖项

确保你已经安装了以下依赖项：

Java
Hadoop

安装Java和Hadoop

确保Java和Hadoop已经正确安装并配置好。你可以参考前面的Hadoop配置部分。

2. 下载和解压Flink

从Apache Flink官网下载Flink的二进制包，并解压到你选择的目录下。

wget https://downloads.apache.org/flink/flink-1.14.4/flink-1.14.4-bin-scala_2.11.tgz
tar -xzvf flink-1.14.4-bin-scala_2.11.tgz
mv flink-1.14.4 /usr/local/flink

3. 配置环境变量

编辑 ~/.bashrc或 ~/.profile文件，添加Flink的环境变量：

export FLINK_HOME=/usr/local/flink
export PATH=$PATH:$FLINK_HOME/bin

然后使环境变量生效：

source ~/.bashrc

4. 修改Flink配置文件

Flink的主要配置文件位于 $FLINK_HOME/conf/目录下。你需要根据你的环境来调整这些配置文件。

`flink-conf.yaml`

这是Flink的主要配置文件。你需要配置Flink的运行模式、内存设置、Hadoop路径等。以下是一个示例配置：

# Flink配置文件

# JobManager的地址和端口
jobmanager.rpc.address: jobmanager
jobmanager.rpc.port: 6123

# TaskManager的数量和内存设置
taskmanager.numberOfTaskSlots: 4
taskmanager.memory.process.size: 4096m

# Hadoop配置目录
env.java.opts: -Dhadoop.conf.dir=/path/to/hadoop/etc/hadoop

# Web界面的地址和端口
rest.address: jobmanager
rest.port: 8081

# 高可用性配置（可选）
high-availability: zookeeper
high-availability.zookeeper.quorum: zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
high-availability.cluster-id: /flink
high-availability.storageDir: hdfs://namenode:8020/flink/ha

# 检查点配置（可选）
state.backend: filesystem
state.checkpoints.dir: hdfs://namenode:8020/flink/checkpoints
state.savepoints.dir: hdfs://namenode:8020/flink/savepoints

`log4j.properties`

编辑 $FLINK_HOME/conf/log4j.properties文件，配置日志级别和日志文件路径：

# 设置日志级别
log4j.rootLogger=INFO, console, file

# 控制台日志
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# 文件日志
log4j.appender.file=org.apache.log4j.RollingFileAppender
log4j.appender.file.File=${log.file}
log4j.appender.file.MaxFileSize=10MB
log4j.appender.file.MaxBackupIndex=10
log4j.appender.file.layout=org.apache.log4j.PatternLayout
log4j.appender.file.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

5. 配置Hadoop

确保Hadoop的配置文件已经正确设置，特别是 core-site.xml和 hdfs-site.xml。Flink需要能够访问HDFS。

`core-site.xml`

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:8020</value>
    </property>
</configuration>

`hdfs-site.xml`

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

6. 启动Flink

在Flink主节点上启动Flink服务：

$FLINK_HOME/bin/start-cluster.sh

7. 验证安装

打开浏览器，访问Flink的Web界面，默认地址为 http://jobmanager:8081，确保Flink集群已经成功启动。

8. 提交Flink任务

你可以使用以下命令提交一个Flink任务：

$FLINK_HOME/bin/flink run -c com.example.YourJob /path/to/your-job.jar

总结

以上步骤应该可以帮助你在Hadoop集群上成功安装和配置Flink。如果有任何特定的问题或错误信息，请提供详细信息，我可以进一步帮助你解决问题。

菜单

分享

1. 安装依赖项

安装Java和Hadoop

2. 下载和解压Flink

3. 配置环境变量

4. 修改Flink配置文件

`flink-conf.yaml`

`log4j.properties`

5. 配置Hadoop

`core-site.xml`

`hdfs-site.xml`

6. 启动Flink

7. 验证安装

8. 提交Flink任务

总结

评论

arpl编译下载速度过慢？修改两个文件拯救你的下载速度（转载）

用.bat批处理文件运行conda环境下的Python程序

nat打洞(p2p)

PHP 命名空间(namespace)详解

PHP|Python 循环与条件语句内变量作用域及global、nonlocal关键字解析

Linux 使用 ‘useradd’ 命令的 ‘-g’ 选项指定组时，新用户为何不在 /etc/group 中作为组成员显示？

MySQL 外键约束

Linux输入输出(错误)重定向，分界符，解释，实例，综合实例，实际应用 cat命令解释

mysql设置约束|删除约束

MySQL 索引详解