配置Kafka数据节点字段映射
Setting up field mapping—Kafka
配置Kafka字段映射是在界面中建立数据源表层级结构中字段与数据目的地表层级结构中的字段或数据的映射关系,建立字段或数据的映射关系后,数据才能被准确的从数据源同步至数据目的地。
关于此功能
Kafka数据节点作为数据源或数据目的地时,数据往往是半结构化的,存储数据格式通常包含JSON、Avro、XML等
DataPipeline数据采集组件读取半结构化数据后,需要对数据进行解析,提取数据元素;数据加载组件写入半结构化数据时,需要指定写入数据结构
Kafka数据节点中,存储的数据是经序列化后的数据,读取该部分数据时,需要对数据进行反序列化,反序列化过程将使用您在数据节点配置中选择的序列化/反序列化器;同样的,在写入Kafka数据节点时,需要对数据进行序列化,序列化过程将使用您在节点配置中选择的序列化/反序列化器。
通常情况下,Kafka Topic 中Key与Value都可以写入数据,配置序列化器/反序列化器也是根据每个Topic的Key、Value进行区分。
在向Kafka数据节点写入数据过程中,DataPipeline可以帮助您使用页面定义写入数据结构,您也可以使用清洗脚本功能,使用代码逻辑定义写入数据结构。
操作步骤
Kafka数据源字段映射配置
点击数据映射-表映射-字段映射按钮,进入字段映射Tab。
当该Topic的Key、Value序列化器为String,源端字段列表默认为Key、Value两个实际字段。
字段映射与目的地字段的连线即代表该字段内容将被映射至目的地对应字段。
当该Topic的Key、Value序列化器中有任一为Avro。
DataPipeline将会对序列化器为Avro的Key或Value进行数据解析,程序会自行解析第一层半结构化数据并展示。
Kafka数据目的地字段映射配置
点击数据映射-表映射-字段映射按钮,进入字段映射Tab。
数据源字段信息将会自动映射至目的地端。
当目的地Topic的的Key、Value序列化器为String,您可通过清洗脚本的方式或通过页面结构定义的方式定义写入数据的数据结构。
通过结构定义方式定义数据结构。
点击结构定义按钮,进入结构定义弹窗。
根据左侧展示的数据目的地字段变量对数据结构进行定义。
使用恢复默认功能,系统将为您自动的按照左侧的数据目的地字段变量对数据结构进行拼接。
点击保存即完成配置。
通过清洗脚本的方式定义数据结构。
点击清洗脚本按钮,进入清洗脚本页面。
在系统脚本库中选择结构定义程序模板,并对其中内容进行自定义调整。
点击保存即完成配置。
完整准确的字段映射是准确进行数据同步的基础,您需要谨慎操作。
新增同步列表中内容不会影响已有数据映射,与使用已有数据映射的数据任务。
修改表映射关系会影响使用该映射的相关数据任务,修改后相关数据任务将被暂停,需要您手动启动任务。
当前版本Kafka目的地写入Avro数据需要使用清洗脚本对数据结构进行定义。
最后更新于
这有帮助吗?