criteria

classicML中决策树的划分标准.

Criterion

划分标准基类.

cml.backend.tree.criteria.Criterion(name=None)

参数

name: 字符串，划分标准的名称.

_call_

划分标准算法实现.

__call__(D)

参数

D: Pandas的Series，需要计算的数据集.

异常

NotImplementedError: 函数没有实现.

get_value

计算划分标准的值.

get_value(*args, **kwargs)

参数

D: Pandas的Series，需要计算的数据集.
y: Pandas的DataFrame，对应的标签.
continuous: 布尔值, 是否是连续属性.

optimal_division

最优的划分属性.

optimal_division(x, y)

参数

x: Pandas的DataFrame，特征数据.
y: Pandas的DataFrame，标签.

Entropy

信息熵.

cml.backend.tree.criteria.Entropy(name='entropy')

参数

name: 字符串，划分标准的名称.

_call_

计算信息熵.

__call__(D)

参数

D: Pandas的Series，需要计算的数据集.

Gain

信息增益.

cml.backend.tree.criteria.Gain(name='gain')

参数

name: 字符串，划分标准的名称.

get_value

计算信息增益.

get_value(D, y, D_entropy, continuous)

参数

D: Pandas的Series，需要计算的数据集.
y: Pandas的DataFrame，对应的标签.
D_entropy: 浮点数，整个数据集的信息熵.
continuous: 布尔值, 是否是连续属性.

optimal_division

最优的划分属性.

optimal_division(x, y)

参数

x: Pandas的DataFrame，特征数据.
y: Pandas的DataFrame，标签.

Gini

基尼指数.

cml.backend.tree.criteria.Gini(name='gini')

参数

name: 字符串，划分标准的名称.

_call_

计算基尼指数.

__call__(D)

参数

D: Pandas的Series，需要计算的数据集.

WeightedGini

带权重的基尼指数.

cml.backend.tree.criteria.Gini(name='weighted_gini')

参数

name: 字符串，划分标准的名称.

_call_

计算带权重的基尼指数.

__call__(D, sample_distribution)

参数

D: 一个 Numpy数组，需要计算的数据集.
sample_distribution: 一个 Numpy数组，样本分布.

get_value

计算基尼指数的值.

get_value(*args, **kwargs)

参数

D: 一个 Numpy数组，需要计算的数据集.
y: 一个 Numpy数组，对应的标签.
sample_distribution: 一个 Numpy数组，样本分布.