Please enable JavaScript.
Coggle requires JavaScript to display documents.
TFX (数据分析 (1. StatisticsGen (输出 (数字特征 各特征的统计数值
总数量
没有这个特征的数据比率
…
TFX
数据分析
1. StatisticsGen
-
目的
- 能够快速的对数据进行大概的了解
- 通过可视化数据对数据进行可视化
- 为后面的数据分析和特征工程提供统计数值
输出
数字特征
- 各特征的统计数值
- 总数量
- 没有这个特征的数据比率
- 平均值
- 标准差
- 等于零的比率
- 最小值
- 中位值
- 最大值
- 数据分布图
分类特征
- 各特征的统计数值
- 总数量
- 没有这个特征的数据比率
- 有多少不同的类
- 最大分布的类
- 最多分布的类所占的数量
- 字符串的平均长度
- 数据分布图
2. SchemaGen
作用
使用StatisticsGen计算的结构,确定数据的架构,如期望边界、类型和特征的属性等
输出
- 特征的名字
- 特征的数据类型
- 特征是否必须
- 特征的取值范围
3. ExampleValidator
作用
- 通过将数据统计信息与用户定义的期望的数据结构进行比较来执行有效性检查
- 通过比较训练数据和预测数据来检测他们之间的训练-预测偏差
- 通过查看一系列舒俱来检测数据偏移
输入
- SchemaGen组件预测的结构和
- StatisticsGen生成的统计数据
Trainer
输出
Estimator
作用
包含模型定义代码,通过输入模型模式(train、eval、predict),得到相应的输出
输入
- model_fn:定义模型代码
- features:特征
- labels:标签
- config:运行模型的配置
- params:关于模型定义的参数
TrainSpec/EvalSpec
输入
input_fn
作用
定义原始数据输入到dataset的过程,并将前面的特征工程组合起来
输入
- tf_transform_output:特征工程的输出
- filsnames:原始数据文件
-
作用
定义输出和训练/验证的持续过程,已经迭代过程的callback
-
-
实现方式
顶一个一个train文件,其中包含train_fn,tfx会自动调用这个方法
Evaluator
-
输入
- ExampleGen的输出
- Trainer训练后的模型
- 数据的切片配置
数据转换
1. ExampleGen
作用
- 将原始数据分拆成训练集和验证集
- 把数据转成tf.Example格式,并复制数据到_tfx_root,供TensorFlow Data Validation 和 TensorflowTransform组件访问
特征工程
Transform
输入
ExampleGen的输出、SchemaGen的数据结构
作用
将原始数据按自定义代码转换成用于训练模型的数据
步骤
定义预处理方法
自定义处理内容
- 定义字段属于数字特征还是类型特征
- 补全空字段(离散型补什么,连续型补什么)
- 建立Vocabulary Embedding
- 定义离散字段的最大分类(用于one-hot转换)
-
输出
- transform_output:一个展示预处理操作的图
- transformed_metadata:处理后数据的数据结构
- transform_fn:实际预处理的图
- metadata:原始数据的数据结构
- transformed_examples:训练集和验证集经过处理后的结果
ModelValidator
作用
生产环境中,需要对比新旧模型以实现自动化迭代模型,所以需要自动化判断模型
-