无需wal,进一步减少磁盘IO操作
2.direct方式生的rdd是KafkaRDD,它的分区数与kafka分区数保持一致一样多的rdd分区来消费,更方便我们对并行度进行控制
注意:在shuffle或者repartition操作后生成的rdd,这种对应关系会失效
3.可以手动维护offset,实现exactly once语义
4.数据本地性问题 。在KafkaRDD在compute函数中,使用SimpleConsumer根据指定的topic、分区、offset去读取kafka数据 。
但在010版本后,又存在假如kafka和spark处于同一集群存在数据本地性的问题
5.限制消费者消费的最大速率
spark.streaming.kafka.maxRatePerPartition:从每个kafka分区读取数据的最大速率(每秒记录数) 。这是针对每个分区进行限速,需要事先知道kafka分区数,来评估系统的吞吐量 。
- 医学史上有没有采用中医调治的方法医治好糖尿病的事例 中医可以调理糖尿病吗
- 怎样有效解酒:解白酒最全最快方法
- 今日消息 复盘沪指史上6次失守3000点,A股休整后何时归来?
- 古代四大美女分别的称号 中国历史上四大美女指的是谁
- 历史上有直接文字记载的王朝 迄今为止我国历史上第一个有直接文字记载的王朝是
- 燕国都城蓟城是现在哪 北京在我国历史上是几朝古都
- 我国历史上第一个有文字出土证实的朝代是 我国历史上首个有文字出土证实朝代是
- 历史上第一位真正的老师是 中国最早的老师是哪一个
- 古代中国的三国指的是哪三国 历史上的三国都有哪三国
- 世界上时间最长的电影