preprocessing

classicML中的数据预处理模块.

PreProcessor

预处理器基类，预处理器将实现一系列预处理操作，部分预处理器还有对应的逆操作.

cml.data.preprocessing.PreProcessor(name='preprocessor')

参数

name: 字符串，预处理器名称.

_call_

预处理操作.

__call__(*args, **kwargs)

异常

NotImplementedError: __call__方法需要用户实现..

inverse

预处理逆操作.

inverse(*args, **kwargs)

异常

NotImplemented: inverse方法需要用户实现.

DummyEncoder

Dummy编码器.

cml.data.preprocessing.DummyEncoder(name='dummy_encoder', dtype='float32')

参数

name: 字符串，Dummy编码器名称.
dtype: 字符串，编码后的标签的数据类型.

_call_

进行Dummy编码.

__call__(labels)

参数

labels: 一个Numpy数组，原始的标签.

返回

Dummy编码后的标签.

Imputer

缺失值填充器，连续值将填充均值，离散值将填充众数.

cml.data.preprocessing.Imputer(name='imputer')

参数

name: 字符串，缺失值填充器名称.

_call_

进行缺失值填充.

__call__(data)

参数

data: 一个Numpy数组，输入的数据.

返回

填充后的数据.

MaxMarginEncoder

最大化间隔编码器, 对于支持向量机的标签编码需要将编码转换为关于超平面的.

cml.data.preprocessing.MaxMarginEncoder(name='max_margin_encoder', dtype='float32')

参数

name: 字符串，最大化间隔编码器名称.
dtype: 字符串，编码后的标签的数据类型.

_call_

进行最大化间隔编码.

__call__(labels)

参数

labels: 一个Numpy数组，原始的标签.

返回

最大化间隔编码后的标签，类标签和类索引的映射字典.

MinMaxScaler

归一化器.

cml.data.preprocessing.MinMaxScaler(name='minmax_scalar', dtype='float32', axis=-1)

参数

name: 字符串，归一化器的名称.
dtype: 字符串，编码后的标签的数据类型.
axis: 整数，归一化所沿轴.

_call_

进行归一化.

__call__(data)

参数

data: 一个Numpy数组，输入的数据.

返回

归一化后的数据.

inverse

进行反归一化.

inverse(preprocessed_data)

参数

preprocessed_data: 一个Numpy数组，输入的归一化后数据.

返回

归一化前的数据.

OneHotEncoder

独热编码器.

cml.data.preprocessing.OneHotEncoder(name='one-hot_encoder', dtype='float32')

参数

name: 字符串，独热编码器的名称.
dtype: 字符串，编码后的标签的数据类型.

_call_

进行独热编码.

__call__(labels)

参数

labels: 一个Numpy数组，原始的标签.

返回

独热编码后的标签，类标签和类索引的映射字典.

StandardScaler

标准化器.

cml.data.preprocessing.StandardScaler(name='standard_scalar', dtype='float32', axis=-1

参数

name: 字符串，标准化器的名称.
dtype: 字符串，标准化后数据元素的数据类型.
axis: 整数，标准化所沿轴.

_call_

进行标准化.

__call__(data)

参数

data: 一个Numpy数组，输入的数据.

返回

标准化后的数据.

inverse

进行反标准化.

inverse(preprocessed_data)

参数

preprocessed_data: 一个Numpy数组，输入的标准化后数据.

返回

标准化前的数据.