python如何实现信息增益和信息增益率
python中如何实现信息增益和信息增益率
一、信息增益与信息增益率
1、信息增益
以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
信息增益=entroy(前)-entroy(后)
注意:信息增益表示得知特征X的信息而使得类Y的信息熵减少的程度
2、信息增益率
增益率是用前面的信息增益Gain(D,a)和属性a对应的"固有值"(intrinsicvalue)[Quinlan,1993J的比值来共同定义的。
二、信息增益与信息增益率python代码实现
1、信息增益定义计算信息增益的函数:计算g(D|A)
defg(data,str1,str2):
e1=data.groupby(str1).apply(lambdax:infor(x[str2]))
p1=pd.value_counts(data[str1])/len(data[str1])
#计算Infor(D|A)
e2=sum(e1*p1)
returninfor(data[str2])-e2
print("学历信息增益:{}".format(g(data,"学历","类别")))
#输出结果为:学历信息增益:0.08300749985576883
2、信息增益率定义计算信息增益率的函数:计算gr(D,A)
defgr(data,str1,str2):
returng(data,str1,str2)/infor(data[str1])
print("学历信息增益率:",gr(data,"学历","类别"))
#输出结果为:学历信息增益率:0.05237190142858302
以上就是python中如何实现信息增益和信息增益率,希望能对大家有所帮助。更多Python学习教程请关注IT培训机构:千锋教育。
猜你喜欢LIKE
相关推荐HOT
更多>>python函数中使用for循环
python函数中使用for循环1、在for循环中使用函数需要更长的执行时间,因为每次迭代都会调用该函数。2、如果for循环是在函数内部实现的,那么该...详情>>
2023-11-14 13:53:34python3.1版本的特性有哪些
python3.1中的特性有哪些1、千位数格式化,可以在使用字符串格式化函数时直接完成。在格式化大数时,通常是每三位数放置逗号,使数字更易读(例...详情>>
2023-11-14 13:18:27python__new__()和__init__()有什么区别?
在python中,__new__()不是一定要有,只有继承自object的类才有,该方法可以return父类(通过super(当前类名,cls).__new__())出来的实例,或者直...详情>>
2023-11-14 12:38:55pythonwheel是什么
python的第一个主流打包格式是.egg文件,现在大家庭中又有了一个叫做Wheel(*.whl)的新成员。wheel“被设计成包含PEP376兼容安装(一种非常接近于...详情>>
2023-11-14 11:30:39热门推荐
pythonSymPy求极值
沸python归并排序和快速排序比较
热pythonpartition如何分割字符串
热pythonif-elif-else语句的使用注意
新python函数中使用for循环
python3.1版本的特性有哪些
python__new__()和__init__()有什么区别?
python作为小白该如何抉择python编辑器?
pythonwheel是什么
python如何定义一个函数
pythonpython是什么类型的语言
python怎么传参数
pythonshell是什么
python如何查看对象属性