pulsar阻塞导致logstash无法接入日志

pulsar阻塞导致logstash无法接入日志

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

在logstash中,tcp和udp接入的日志无法发送到pulsar,经过抓包和检查发现服务端未消费日志,导致日志在队列中阻塞。最终确认是pulsar的bug,更新pulsar-client版本后问题解决。

🎯

关键要点

  • 在logstash中,tcp和udp接入的日志无法发送到pulsar,导致日志在队列中阻塞。
  • 通过抓包检查发现数据包正常进入容器,但服务端未消费日志。
  • 使用netstat查看tcp和udp缓存队列,发现服务端卡住,Recv-Q有堆积。
  • 检查logstash管道信息,发现tcp插件的out数量不变,说明没有接收新数据。
  • output管道的pulsar插件显示in比out多150条日志,说明日志阻塞在队列中。
  • pulsar服务状态正常,手动生产日志没有问题,排除pulsar本身故障。
  • 通过查看logstash线程堆栈信息,发现是pulsar的官方bug,开启压缩时容易触发。
  • 复现该问题的方法是修改pulsar-client的memory_limit参数并开启压缩。
  • 通过更新pulsar-client版本解决了阻塞问题。
  • 总结经验,利用工具分析原因并通过搜索找到解决方案。

延伸问答

为什么logstash无法将日志发送到pulsar?

因为服务端未消费日志,导致日志在队列中阻塞。

如何确认logstash中的日志接入问题?

通过抓包检查数据包是否正常进入容器,并使用netstat查看tcp和udp缓存队列。

pulsar的bug是什么导致了日志阻塞?

在开启压缩时,pulsar-client的内存限制过小会触发该bug,导致阻塞。

如何解决logstash与pulsar之间的日志阻塞问题?

通过更新pulsar-client版本解决了阻塞问题。

如何复现pulsar的阻塞问题?

修改pulsar-client的memory_limit参数并开启压缩,可以稳定快速复现该问题。

在排查日志阻塞时,如何查看logstash的管道信息?

可以通过curl命令获取logstash对应管道的信息,查看input和output的日志数量。

🏷️

标签

➡️

继续阅读