数据加载策略
Data Loading Policy
数据加载策略是将数据写入目的地时,系统执行的写入方式与冲突解决方法的策略配置。
关于此功能
◎ 增量处理模式
在DataPipeline系统中,为了提升写入效率,我们将数据写入分成小的批次少量多次执行写入,为了提升写入效率,我们提供两种增量处理模式可供选择。
全增量模式
即将数据源的全部增量数据依次写入数据目的地,可以保证数据全局一致性。
精简增量模式
即在一个写入批次内,将同一主键的增量数据的最后一次变化同步至目的地,可以保证数据最终一致性。该模式需要数据源增量数据获取开启日志补全。
◎ 数据加载方式
在将数据写入数据目的地的过程中,可以通过配置数据加载方式来变更数据目的地写入时提交的SQL语句类型,以变更数据加载方式。
当前版本支持的数据加载方式有:Insert、Update、Delete、Ignore(忽略)、Merge(Upsert)。
◎ 主键冲突策略
当数据加载方式选择了insert,在向目的地数据写入过程中,可能会出现待写入数据主键与目的地已有数据主键相同的情况,insert语句将执行失败。遇到上述情况时,通过配置主键冲突策略,可以暂停数据任务或将数据写入错误队列后续处理来应对。
操作步骤
在数据链路详情页-策略配置tab中找到数据加载策略。
选择增量处理模式。
为数据源的每种数据操作标识选择数据加载方式。
选择主键冲突策略
保存配置
◎ 场景说明:数据目的地拉链表配置
在配置数据目的地过程中,可以在数据目的地添加一列,将该列标识为联合主键,通过清洗脚本赋值,其中可以存储数据源DML标识数据。
在数据加载方式中配置中,选择insert,即可实现目的地拉链表数据写入。
当数据加载方式配置为update或delete时,执行更新或删除依赖数据目的地中存在带有和待写入数据主键相同的数据;如目的地不存在该条数据,update或delete操作将被提交至数据目的地节点,根据各个节点处理特性不同,部分目的地可以正常同步,部分目的地将报错暂停。
精简增量可以提升数据写入效率,但在对数据一致性要求高的场景中,请使用全增量模式。
根据数据任务所选数据映射不同,在数据任务执行过程中,部分数据加载方式不支持,如Kafka数据目的地仅支持“insert”。
当数据任务选择数据链路时,数据任务将读取链路的数据加载策略,并作为默认设置,任务可以自行修改数据加载策略;在数据任务选择数据链路后,链路修改数据加载策略,任务将不会执行链路的修改。
最后更新于
这有帮助吗?