criteria

classicML中决策树的划分标准.

Criterion

划分标准基类.

cml.backend.tree.criteria.Criterion(name=None)

参数

  • name: 字符串,划分标准的名称.

_call_

划分标准算法实现.

__call__(D)

参数

  • D: Pandas的Series,需要计算的数据集.

异常

  • NotImplementedError: 函数没有实现.

get_value

计算划分标准的值.

get_value(*args, **kwargs)

参数

  • D: Pandas的Series,需要计算的数据集.

  • y: Pandas的DataFrame,对应的标签.

  • continuous: 布尔值, 是否是连续属性.

optimal_division

最优的划分属性.

optimal_division(x, y)

参数

  • x: Pandas的DataFrame,特征数据.

  • y: Pandas的DataFrame,标签.

Entropy

信息熵.

cml.backend.tree.criteria.Entropy(name='entropy')

参数

  • name: 字符串,划分标准的名称.

_call_

计算信息熵.

__call__(D)

参数

  • D: Pandas的Series,需要计算的数据集.

Gain

信息增益.

cml.backend.tree.criteria.Gain(name='gain')

参数

  • name: 字符串,划分标准的名称.

get_value

计算信息增益.

get_value(D, y, D_entropy, continuous)

参数

  • D: Pandas的Series,需要计算的数据集.

  • y: Pandas的DataFrame,对应的标签.

  • D_entropy: 浮点数,整个数据集的信息熵.

  • continuous: 布尔值, 是否是连续属性.

optimal_division

最优的划分属性.

optimal_division(x, y)

参数

  • x: Pandas的DataFrame,特征数据.

  • y: Pandas的DataFrame,标签.

Gini

基尼指数.

cml.backend.tree.criteria.Gini(name='gini')

参数

  • name: 字符串,划分标准的名称.

_call_

计算基尼指数.

__call__(D)

参数

  • D: Pandas的Series,需要计算的数据集.

WeightedGini

带权重的基尼指数.

cml.backend.tree.criteria.Gini(name='weighted_gini')

参数

  • name: 字符串,划分标准的名称.

_call_

计算带权重的基尼指数.

__call__(D, sample_distribution)

参数

  • D: 一个 Numpy数组,需要计算的数据集.

  • sample_distribution: 一个 Numpy数组,样本分布.

get_value

计算基尼指数的值.

get_value(*args, **kwargs)

参数

  • D: 一个 Numpy数组,需要计算的数据集.

  • y: 一个 Numpy数组,对应的标签.

  • sample_distribution: 一个 Numpy数组,样本分布.