现象

hadoop集群报错:

Connection reset by peer

java.io.IOException: Connection reset by peer

datanode重置链接   The client is stuck in an RPC to NameNode. Currently RPCs can be wait for a long time if the server is busy.  

产生原因

1 namenode用于处理RPC请求线程过小
2 网络不稳定

解决方案

dfs.namenode.handler.count(加大) NN的服务线程数。用于处理RPC请求

dfs.namenode.replication.interval(减小) NN周期性计算DN的副本情况的频率,秒

dfs.client.failover.connection.retries(建议加大) 专家设置。IPC客户端失败重试次数。在网络不稳定时建议加大此值

dfs.client.failover.connection.retries.on.timeouts(网络不稳定建议加大)专家设置。IPC客户端失败重试次数,此失败仅指超时失败。在网络不稳定时建议加大此值