端到端一致性策略

Setting up End-to-End Data-consistency Strategy

在任务运行过程中,可以开启端到端一致性策略来保证数据从源端到目的地端的一致性。 为了保证数据一致性,系统在数据源与数据目的地建立了完整的程序逻辑。

关于此功能

数据源

系统从数据源读取数据后,会定期记录读取的进度,数据对应的进度被成功记录了,才会被允许写入到目的地。

数据目的地

系统在每次成功执行写入操作后会记录已写入数据的进度。

如果是 RDBMS 目的地,将会在目的地建立一张表进行记录;

如果是 FTP/HDFS 目的地,将会采取内部的二阶段提交协议,假如数据写入完成,进度记录失败,将会回滚(删除)已写入的目的地的数据;

如果是 Hive 目的地,将会记录进度 WAL 到 HDFS,如果进度提交失败,将会回滚已写入目的地的数据;

如果是 Kafka 目的地,将会使用 Kafka 的事务功能,在进度被提交成功前,Kafka 内的数据无 法消费,以此保证写入数据的数据一致性。

circle-exclamation

最后更新于

这有帮助吗?