criteria
classicML中决策树的划分标准.
Criterion
划分标准基类.
cml.backend.tree.criteria.Criterion(name=None)
参数
name: 字符串,划分标准的名称.
_call_
划分标准算法实现.
__call__(D)
参数
D: Pandas的Series,需要计算的数据集.
异常
NotImplementedError: 函数没有实现.
get_value
计算划分标准的值.
get_value(*args, **kwargs)
参数
D: Pandas的Series,需要计算的数据集.
y: Pandas的DataFrame,对应的标签.
continuous: 布尔值, 是否是连续属性.
optimal_division
最优的划分属性.
optimal_division(x, y)
参数
x: Pandas的DataFrame,特征数据.
y: Pandas的DataFrame,标签.
Entropy
信息熵.
cml.backend.tree.criteria.Entropy(name='entropy')
参数
name: 字符串,划分标准的名称.
_call_
计算信息熵.
__call__(D)
参数
D: Pandas的Series,需要计算的数据集.
Gain
信息增益.
cml.backend.tree.criteria.Gain(name='gain')
参数
name: 字符串,划分标准的名称.
get_value
计算信息增益.
get_value(D, y, D_entropy, continuous)
参数
D: Pandas的Series,需要计算的数据集.
y: Pandas的DataFrame,对应的标签.
D_entropy: 浮点数,整个数据集的信息熵.
continuous: 布尔值, 是否是连续属性.
optimal_division
最优的划分属性.
optimal_division(x, y)
参数
x: Pandas的DataFrame,特征数据.
y: Pandas的DataFrame,标签.
Gini
基尼指数.
cml.backend.tree.criteria.Gini(name='gini')
参数
name: 字符串,划分标准的名称.
_call_
计算基尼指数.
__call__(D)
参数
D: Pandas的Series,需要计算的数据集.
WeightedGini
带权重的基尼指数.
cml.backend.tree.criteria.Gini(name='weighted_gini')
参数
name: 字符串,划分标准的名称.
_call_
计算带权重的基尼指数.
__call__(D, sample_distribution)
参数
D: 一个 Numpy数组,需要计算的数据集.
sample_distribution: 一个 Numpy数组,样本分布.
get_value
计算基尼指数的值.
get_value(*args, **kwargs)
参数
D: 一个 Numpy数组,需要计算的数据集.
y: 一个 Numpy数组,对应的标签.
sample_distribution: 一个 Numpy数组,样本分布.