preprocessing

classicML中的数据预处理模块.

PreProcessor

预处理器基类,预处理器将实现一系列预处理操作,部分预处理器还有对应的逆操作.

cml.data.preprocessing.PreProcessor(name='preprocessor')

参数

  • name: 字符串,预处理器名称.

_call_

预处理操作.

__call__(*args, **kwargs)

异常

  • NotImplementedError: __call__方法需要用户实现..

inverse

预处理逆操作.

inverse(*args, **kwargs)

异常

  • NotImplemented: inverse方法需要用户实现.

DummyEncoder

Dummy编码器.

cml.data.preprocessing.DummyEncoder(name='dummy_encoder', dtype='float32')

参数

  • name: 字符串,Dummy编码器名称.

  • dtype: 字符串,编码后的标签的数据类型.

_call_

进行Dummy编码.

__call__(labels)

参数

  • labels: 一个Numpy数组,原始的标签.

返回

Dummy编码后的标签.

Imputer

缺失值填充器,连续值将填充均值,离散值将填充众数.

cml.data.preprocessing.Imputer(name='imputer')

参数

  • name: 字符串,缺失值填充器名称.

_call_

进行缺失值填充.

__call__(data)

参数

  • data: 一个Numpy数组,输入的数据.

返回

填充后的数据.

MaxMarginEncoder

最大化间隔编码器, 对于支持向量机的标签编码需要将编码转换为关于超平面的.

cml.data.preprocessing.MaxMarginEncoder(name='max_margin_encoder', dtype='float32')

参数

  • name: 字符串,最大化间隔编码器名称.

  • dtype: 字符串,编码后的标签的数据类型.

_call_

进行最大化间隔编码.

__call__(labels)

参数

  • labels: 一个Numpy数组,原始的标签.

返回

最大化间隔编码后的标签,类标签和类索引的映射字典.

MinMaxScaler

归一化器.

cml.data.preprocessing.MinMaxScaler(name='minmax_scalar', dtype='float32', axis=-1)

参数

  • name: 字符串,归一化器的名称.

  • dtype: 字符串,编码后的标签的数据类型.

  • axis: 整数,归一化所沿轴.

_call_

进行归一化.

__call__(data)

参数

  • data: 一个Numpy数组,输入的数据.

返回

归一化后的数据.

inverse

进行反归一化.

inverse(preprocessed_data)

参数

  • preprocessed_data: 一个Numpy数组,输入的归一化后数据.

返回

归一化前的数据.

OneHotEncoder

独热编码器.

cml.data.preprocessing.OneHotEncoder(name='one-hot_encoder', dtype='float32')

参数

  • name: 字符串,独热编码器的名称.

  • dtype: 字符串,编码后的标签的数据类型.

_call_

进行独热编码.

__call__(labels)

参数

  • labels: 一个Numpy数组,原始的标签.

返回

独热编码后的标签,类标签和类索引的映射字典.

StandardScaler

标准化器.

cml.data.preprocessing.StandardScaler(name='standard_scalar', dtype='float32', axis=-1

参数

  • name: 字符串,标准化器的名称.

  • dtype: 字符串,标准化后数据元素的数据类型.

  • axis: 整数,标准化所沿轴.

_call_

进行标准化.

__call__(data)

参数

  • data: 一个Numpy数组,输入的数据.

返回

标准化后的数据.

inverse

进行反标准化.

inverse(preprocessed_data)

参数

  • preprocessed_data: 一个Numpy数组,输入的标准化后数据.

返回

标准化前的数据.