dataset
classicML中的用来组织数据集模块.
Dataset
数据集, 数据集提供了对输入数据的预处理和封装的功能, 使之满足cml模型输入的需要.
cml.data.Dataset(dataset_type='train',
label_mode=None,
fillna=True,
digitization=False,
normalization=False,
standardization=False,
name=None)
参数
dataset_type: {’train’, ‘validation’, ‘test’},数据集的类型,如果声明为测试集,将不会生成对应的标签.
label_mode: {’one-hot’, ‘max-margin’, ‘unsupervised’},标签的编码格式.
fillna: 布尔值,是否填充缺失值.
digitization: 布尔值,是否使用数值化,将离散标签转化成数值.
normalization: 布尔值,是否使用归一化.
standardization: 布尔值,是否使用标准化.
name: 字符串,数据集的名称.
from_dataframe
from_dataframe(dataframe)
从DataFrame中加载数据集.
参数
dataframe: pandas的DataFrame,原始的数据.
返回
经过预处理的特征数据和标签.
from_csv
from_csv(filepath, sep=',')
从CSV文件中加载数据集, 也可以从其他的结构化文本读入数据, 例如TSV等.
参数
filepath: 字符串,CSV文件的路径.
sep: 字符串, 使用的文本分隔符.
返回
经过预处理的特征数据和标签.
from_tensor_slices
from_tensor_slices(x, y=None)
从张量流加载数据集.
参数
filepath: 字符串,CSV文件的路径.
x: 一个Numpy数组,处理后的特征数据.
y: 一个Numpy数组,处理后的标签.
返回
经过预处理的特征数据和标签.