dataset

classicML中的用来组织数据集模块.

Dataset

数据集, 数据集提供了对输入数据的预处理和封装的功能, 使之满足cml模型输入的需要.

cml.data.Dataset(dataset_type='train',
                 label_mode=None,
                 fillna=True,
                 digitization=False,
                 normalization=False,
                 standardization=False,
                 name=None)

参数

dataset_type: {’train’, ‘validation’, ‘test’}，数据集的类型，如果声明为测试集，将不会生成对应的标签.
label_mode: {’one-hot’, ‘max-margin’, ‘unsupervised’}，标签的编码格式.
fillna: 布尔值，是否填充缺失值.
digitization: 布尔值，是否使用数值化，将离散标签转化成数值.
normalization: 布尔值，是否使用归一化.
standardization: 布尔值，是否使用标准化.
name: 字符串，数据集的名称.

from_dataframe

from_dataframe(dataframe)

从DataFrame中加载数据集.

参数

dataframe: pandas的DataFrame，原始的数据.

返回

经过预处理的特征数据和标签.

from_csv

from_csv(filepath, sep=',')

从CSV文件中加载数据集, 也可以从其他的结构化文本读入数据, 例如TSV等.

参数

filepath: 字符串，CSV文件的路径.
sep: 字符串, 使用的文本分隔符.

返回

经过预处理的特征数据和标签.

from_tensor_slices

from_tensor_slices(x, y=None)

从张量流加载数据集.

参数

filepath: 字符串，CSV文件的路径.
x: 一个Numpy数组，处理后的特征数据.
y: 一个Numpy数组，处理后的标签.

返回

经过预处理的特征数据和标签.