SPSSAU-在线SPSS分析软件

(资料图片)

决策树模型DecisionTree SPSSAU

决策树模型

决策树(DecisionTree)常用于研究类别归属和预测关系的模型，比如是否抽烟、是否喝酒、年龄、体重等4项个人特征可能会影响到‘是否患癌症’，上述4项个人特征称作‘特征’，也即自变量（影响因素X），‘是否患癌症’称为‘标签’，也即因变量（被影响项Y）。决策树模型时，其可首先对年龄进行划分，比如以70岁为界，年龄大于70岁时，可能更容易归类为‘患癌症’，接着对体重进行划分，比如大于50公斤为界，大于50公斤时更可能划分为‘患癌症’，依次循环下去，特征之间的逻辑组合后（比如年龄大于70岁，体重大于50公斤），会对应到是否患癌症这一标签上。

决策树是一种预测模型，为让其有着良好的预测能力，因此通常需要将数据分为两组，分别是训练数据和测试数据。训练数据用于建立模型使用，即建立特征组合与标签之间的对应关系，得到这样的对应关系后（模型后），然后使用测试数据用来验证当前模型的优劣。通常情况下，训练数据和测试数据的比例通常为9:1,8:2,7:3,6:4或者5:5（比如9:1时指所有数据中90%作为训练模型使用，余下10%作为测试模型好坏使用）。具体比例情况似研究数据量而定无固定标准，如果研究数据较少，比如仅几百条数据，可考虑将70%或者60%，甚至50%的数据用于训练，余下数据用于测试。上述中包括模型构建和模型预测两项，如果训练数据得到的模型优秀，此时可考虑将其进行保存并且部署出去使用（此为计算机工程中应用，SPSSAU暂不提供）；除此之外，当决策树模型构建完成后可进行预测，比如新来一个病人，他是否会患癌症及患癌症的可能性有多高。

决策树模型可用于特征质量判断，比如上述是否抽烟、是否喝酒、年龄、体重等4项，该四项对于‘是否患癌症’的预测作用重要性大小可以进行排名用于筛选出最有用的特征项。

决策树模型的构建时，需要对参数进行设置，其目的在于构建良好的模型（良好模型的标准通常为：训练数据得到的模型评估结果良好，并且测试数据时评估结果良好）。需要特别注意一点是：训练数据模型评估结果可能很好（甚至准确率等各项指标为100%），但是在测试数据上评估结果确很糟糕，此种情况称为‘过拟合’。因而在实际研究数据中，需要特别注意此种情况。模型的构建时通常情况下参数设置越复杂，其会带来训练数据的模型评估结果越好，但测试效果却很糟糕，因而在决策树构建时，需要特别注意参数的相关设置，接下来会使用案例数据进行相关说明。

决策树模型案例

1背景2

2理论2

3操作3

4SPSSAU输出结果4

5文字分析4

6剖析7

1背景

使用经典的‘鸢尾花分类数据集’进行案例演示，其数据集为150个样本，包括4个特征属性（4个自变量X），分别是花萼长度，花萼宽度，花瓣长度，花瓣宽度，标签为鸢尾花卉类别，共包括3个类别分别是刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花（下称A、B、C三类）。

2理论

决策树模型的原理上，其第1步是找出最优的特征和其分割点，比如影响是否患癌症的特征最可能是年龄，并且分割点可能是70岁，小于70岁可能归为‘不患癌症’，70岁及以上可能归为‘患癌症’。此第1步时会涉及到2个专业名词，分别是‘节点分裂标准’和‘节点划分方式’。第2步是找出次优的特征和其分割点，继续进行拆分。一直循环下去。

关于决策树模型时，通常涉及到以下参数值，如下：

节点分裂标准：其指模型找到特征优先顺序的计算方式，共有两种，分别是gini系数和entropy系数，二者仅为计算标准的区别功能完全一致，一般情况下使用gini系数。

特别提示：

节点分裂标准的数学原理为：如果按某特征及其分割点后（比如年龄这个特征并且70岁这个分割点）后，分成两组时，一组为患癌症，一组不患癌症，如果‘分的特别开’，特别纯，混杂性特别小（比如一组为患癌症确实全部都患问卷，一组不患癌症确实都不患癌症），那么这个特征就是优秀的，节点分裂标准正是用于衡量特征的优劣。

节点划分方式：包括两种，一是best法即完全按照节点分裂标准进行计算，另一种是random随机法，随机法会减少过拟合现象，但通常默认使用best法。

节点分列最小样本：比如大于等于70岁划分为一组，如果发现70岁及以上时患癌症的样本量特别小，说明不能继续划分分组，一般情况下该值应该越大越好，过小的话容易带来过拟合现象。

叶节点最小样本量：比如大于等于70岁划分为一组，那么这个组别时最小的样本量需要多少，SPSSAU默认是2，一般情况下：该值越大越可能减少过拟合现象，该值越小越容易导致过拟合。

树最大深度：比如上述先按年龄划分，接着小于70岁时，再按次优特征比如体重进行划分，接着再按次次优特征比如是否吸烟进行划分，此处则出现划分的层次（即权最大深度），该值可以自行指定，当层次越多（树最大深度）时，此时模型越为复杂，拟合效果通常更好，但也可能带来过拟合现象，因而可结合特征数量及输出等，调整该参数值，确保模型相对简单但拟合效果良好时。

3操作

本例子操作如下：

训练集比例默认选择为:即80%（150*=120个样本）进行训练决策树模型，余下20%即30个样本(测试数据)用于模型的验证。需要注意的是，多数情况下，会首先对数据进行标准化处理，处理方式一般使用为正态标准化，此处理目的是让数据保持一致性量纲。当然也可使用其它的量纲方式，比如区间化，归一化等。

接着对参数设置如下：

节点分裂标准默认为gini系数（该参数值只是计算分裂标准的方式，不需要设置），节点划分方式为best法，即为结合特征的优劣顺序进行分类划分，如果为了设置参数对比需要考虑，建议可对该参数值进行切换为random即随机特征的优先顺序，用于对比模型训练效果。

节点分列最小样本量默认为2即可，叶节点最小样本量默认为1即可。需要注意的是：如果数据量较大时，建议将该2个参数值尽量大，以减少过拟合现象，但该2个参数值越大时通常训练模型的拟合效果越差。具体应该以测试数据的拟合效果为准，因为训练模型容易出现过拟合现象。树最大深度这个参数时，其代表决策树最多有几层的意思，该参数值设置越大时，训练模型拟合效果通常越好，但可能带来过拟合情况，本案例出于演示需求，先设置为4层。（另提示：树最大深度会受到节点分裂最小样本量、叶节点最小样本量的影响，并非设置为4它一定就会为4）。

4SPSSAU输出结果

SPSSAU共输出7项结果，依次为基本信息汇总，决策树结构图，特征模型图和特征权重图，训练集或测试集模型评估结果，测试集结果混淆矩阵，模型汇总表和模型代码，如下说明：

上述表格中，决策树结构图用于展示决策树构建的具体过程，通过决策树结构图可查看到模型构建的具体步骤；特征模型图和特征权重图可用于查看特征的相对重要性对比情况；模型评估结果（包括训练集或测试集），其用于对模型的拟合效果判断，尤其是测试集的拟合效果，非常重要，因而SPSSAU单独提供测试集结果混淆矩阵，用于进一步查看测试集数据的效果情况；模型汇总表格将各类参数值进行汇总，并且在最后，SPSSAU附录核心的决策树构建代码，需要提示的是：SPSSAU机器学习算法模块直接调用sklean包进行构建，因而研究者可使用核心代码进行复现使用等。

5文字分析

决策树结构图中：第1个矩阵称为‘根节点’，下面为子节点，不能再细分的为‘叶子节点’。树最大深度当前设置为4，上图中除‘根节点’外为4层。针对每个节点（根节点或叶子节点），其包括四项，分别是‘划分特征及分割点’，gini系数值，当前节点的样本量，不同类别的样本量。如下表格说明：

上述决策树结构图时，第1个点使用X[2]，接着使用X[3]，接着使用X[1]，X[4]，接着使用X[2]等，括号里面数字表示放入模型的第几个X。那么这几个X的综合重要性情况如何，可查看特征权重图，如下：

花萼宽的重要性度量值为，其对模型的作用力度最大，其次是花瓣长为。相对来看，花萼长和花瓣宽这两项的重要性相对较弱，如果是进行特征筛选，可考虑只留下最重要的两项即可。

解读完决策树结构图和特征重要性图后，已经理解决策树运行原理，其实质上是不断地对各个特征进行循环划分下去，根深度越深时，其划分出来后通常拟合效果越好。但训练数据拟合效果好，并不一定代表测试数据上也好，训练数据拟合效果很容易‘造假’，即过拟合现象。因而接下来对模型拟合效果进行说明。

上表格中分别针对训练集和测试集，提供四个评估指标，分别是精确率、召回率、f1-scrore、准确率，以及平均指标和样本量指标等，如下表格说明：

一般来说，f1-score指标值最适合，因为其综合精确率和召回率两个指标，并且可查看其平均值（综合）指标，本案例为，接近于1非常高，但训练数据指标拟合可以‘造假’即可能有过拟合现象，最准确的是查看‘测试集数据’时的指标情况，本案例时测试数据占比是20%即30个样本，其平均综合f1-score值为，可以简单理解为模型拟合优度为%，依旧比较高（即使小于训练数据的），整体说明当前模型拟合良好，即可用于特征筛选，数据进一步预测使用等。

另需要提示：当训练数据的拟合效果远好于测试数据时，通常则为‘过拟合现象’，但训练数据的拟合效果不好但测试数据拟合效果好时，此种情况也不能使用，可能仅仅是偶然现象。因而可使用的模型应该为“训练数据和测试数据上均有良好的拟合效果，并且差别应该较小”。

进一步地，可查看测试数据的‘混淆矩阵’，即模型预测和事实情况的交叉集合，如下图：

‘混淆矩阵’时，右下三角对角线的值越大越好，其表示预测值和真实值完全一致。上图中A类共11个，其中10个预测准确，还有1个被预测成C类；B类共13个，11个预测准确，但2个被预测为C类；C类时全部预测准确。另外还可通过‘混淆矩阵’自行计算精确率、召回率和准确率等指标。

最后针对模型汇总表，其展示构建决策树的各项参数设置，包括针对数据进行标准化正态处理，参数值为norm，训练集占比，节点分裂标准等指标值。并且将测试集合上的模型评估结果汇总在一个表格里面。最后，SPSSAU输出使用python中slearn包构建本次决策树模型的核心代码如下：

model= DecisionTreeClassifier(criterion=gini, max_depth=4,min_samples_leaf=1, min_samples_split=2, splitter=best)

(x_train,y_train)

6剖析

涉及以下几个关键点，分别如下：

决策树模型时是否需要标准化处理?

一般建议是进行标准化处理，通常使用正态标准化处理方式即可。

训练集比例应该选择多少?

如果数据量很大，比如1万，那么训练集比例可以较高比如，如果数据量较小，此时训练集比例选择较小预留出较多数据进行测试即可。

保存预测值

保存预测值时，SPSSAU会新生成一个标题用于存储模型预测的类别信息，其数字的意义与模型中标签项(因变量Y)的数字保持一致意义。

参数如何设置?

如果要进行参数设置，建议针对‘节点划分方式’切换best和random，节点分列最小样本量往上调，叶节点最小样本量往上调，树最大深度可考虑设置相对较小值。设置后，分别将训练拟合效果，测试拟合效果进行汇总和对比，调整参数，找出相对最优模型。另建议保障训练集和测试集数据的f1-score值在以上。

SPSSAU中决策树具体算法是什么?

决策树的具体算法通常包括ID3,, 和CART等，SPSSAU当前借助sklearn包进行决策树，其算法为CART优化版，具体可点击查看。

/stable/modules/#tree-algorithms-id3-c4-5-c5-0-and-cart

SPSSAU进行决策树模型构建时，自变量X（特征项）中包括定类数据如何处理?

决策树模型时本身并不单独针对定类数据处理，如果有定类数据，建议对其哑变量处理后放入，关于哑变量可点击查看。

/front/spssau/helps/otherdocuments/

SPSSAU中决策树剪枝优化方式是什么?

决策树剪枝主要有两种方式，分别是前置剪枝和后置剪枝，当前SPSSAU只提供前置剪枝方式。

SPSSAU中决策树模型合格的判断标准是什么?

机器学习模型中，通常均为先使用训练数据训练模型，然后使用测试数据测试模型效果。通常判断标准为训练模型具有良好的拟合效果，同时测试模型也有良好的拟合效果。机器学习模型中很容易出现‘过拟合’现象即假的好结果，因而一定需要重点关注测试数据的拟合效果。针对单一模型，可通过变换参数调优，与此同时，可使用多种机器学习模型，比如使用随机森林等，综合对比选择最优模型。

SPSSAU进行决策树时提示数据质量异常？

当前决策树模型支持分类任务，需要确保标签项（因变量Y）为定类数据，如果为定量连续数据，也或者样本量较少（或者非会员仅分析前100个样本）时可能出现无法计算因而提示数据质量异常。

Contents

1背景

2理论

3操作

4SPSSAU输出结果

5文字分析

6剖析

今日热议：决策树模型

华夏人寿风险处置新进展 “瑞众人寿”名称在市场监管总局公示_全球热点评

【天天速看料】湖南卫视在线直播电脑版_湖南卫视直播软件电脑版

全球通讯！lgg8手机参数配置_lgg8怎么看手机硬件信息

当前热点-昆明一日游最佳景点攻略大全（昆明一日游最佳景点一览表）

湖北省人民医院（武汉大学人民医院）公安县人民医院协作医院签约揭牌暨多学科专科联盟授牌仪式举行

全球快资讯：真爱无价国语版第22集_真爱无价国语版全集第二部29集

德尔未来(002631.SZ)：公司目前仍在不断探索石墨烯的商业化应用之路-天天视讯

xl是多少尺寸_xl

突发！美驻沙特领事馆附近爆发枪战：枪手被击毙 一名安保人员身亡

化学发光行业系列报告之二：以边际变化，窥发展变革-微头条

乡村振兴，可以向他们学什么？

航天工程（603698）6月28日主力资金净卖出857.13万元_当前关注

天天微资讯！通胀持续放缓 巴西央行或于8月降息

2023上海世界移动通信大会开幕-世界微资讯

青岛配资开户-重点聚焦

你的认知深度，暴露了你的人生高度

叛乱下场！揭秘普里戈任的俄罗斯商业帝国，千亿资产或面临重组-前沿热点

开放是最好的教育

爱情姓名配对测试 姓名配对测试爱情免费测试

英国央行行长贝利：需要直面通胀挑战 热头条

最新资讯：邵阳市新宁法院联合开展“以案说法促禁毒‘宁’心聚力护成长”青少年禁毒宣传活动

侍神令全员演员名单_侍神令全部票房

环球视点！隆戈：米兰将尝试引进普利西奇和楚克乌泽

世界热文：朗姿股份因定增收关注函：募投项目实施主体业务开展是否合法 是否存在虚假宣传

Achronix再次突破FPGA网络极限！为智能网卡（SmartNIC）提供400 GbE速度和PCIe Gen 5.0功能

修路人2022年年度权益分派实施方案为：每10股派现金2元

全球首台16兆瓦海上风机顺利安装完成 讯息

及时果断启动应急响应！国家防办、应急管理部部署重点地区防汛抗旱工作 世界聚看点

永州：江永县召开2023年卫生健康工作会议 世界速看

日本东京电力公司：核污染水排海无法延后

为防止商家“卷款跑路”，深圳率先在预付式经营领域推广数字人民币-全球热文

头孢类药物作用_头孢类药物 微头条

德科摩携DOD压差披覆装饰方案亮相国际新材料展|每日快讯

全球短讯！以数字孪生智慧，探索新型电力系统“最优解”

每日聚焦：山水家园 甜蜜屏边｜生态苗岭路，绿美云端游——屏边县“一体化”打造绿美公路雏形初现

暴雨蓝色预警 四川提前避险紧急转移25000余人|时讯

全球观点：俄单次成功发射43颗卫星创本国航天纪录

菲亚特动力科技：交付上海浦东机场，FPT再次为机场地面设备助力

番茄牛腩的做法_5步快速完成_快报

环球新消息丨墨尔本和悉尼在2023全球最宜居城市排名中位居前列

2023北京MDSK音乐节全阵容公布-环球资讯

第七届全国残疾人职业技能大赛开幕 新增9个项目-每日资讯

【维拉球迷必读】新赛季爱美丽治下的维拉人员结构和...-全球百事通

【新要闻】周思敏电视剧_周思敏

离心机转速分几种_一般用于什么场合

天天短讯！岳塘区上半年净增经营主体1392户

中兴努比亚AR眼镜Neovision Glass开售 仅售2999元

环球播报:AI板块高热后“大降温” 专家提醒投资者谨慎蹭热点

《狮子王》电影改动大？导演：唯有一个角色，我们将不会改变！ 天天微速讯

富国银行荐股两只 涨幅将达125%？

天天热点评！小学生优秀作文（关于小学生优秀作文介绍）

56岁高考27次，儿子美国读研

打耳洞的坏处和后遗症_打耳洞的坏处-世界快消息

环球滚动:四川乐山大佛经营权被拍卖？景区回应：拍卖部分并非乐山大佛本身

代刷科目三学时，中山一驾校培训记录弄虚作假，被罚！ 今日热搜

当前要闻：win10正在准备windos_win10正在准备windows

有利集团(00406.HK)公布年度业绩：营收66.86亿港元，手头合约达225.59亿港元

关注：航空物流谋创新 从干线运输转向一体化智能航空物流

中国股坛第一人坦言：2根均线确定买卖点，远比一万本股票书实用

手机相关知识：最近删除的软件怎么找

大宗交易：赛微微电成交203.04万元，折价0.60%（06-27） 微速讯

【焦点热闻】航行警告！南海海域进行军事训练

官方：中超、中甲、中乙夏窗注册期时间为7月1日至7月31日

曾敏杰（关于曾敏杰介绍）

实时：芯片巨头换帅！

光洋股份（002708）：该股换手率大于8%（06-27）

每日热点：河北阜平县：新农人种出“金果果”

汶川突发山洪泥石流 7人失联

假面骑士铠武剧场版1_假面骑士铠武剧场版有哪些

你喜欢触控还是按键？大众CEO：承认车内采用触控按键是个错误决定

世界聚焦：小聪仔嘉年华在南宁举办

常宝股份：6月26日融资净买入1272.14万元，连续3日累计净买入1561.31万元

突发！美驻沙特领事馆附近爆发枪战：枪手被击毙一名安保人员身亡

天天微资讯！通胀持续放缓巴西央行或于8月降息

爱情姓名配对测试姓名配对测试爱情免费测试

英国央行行长贝利：需要直面通胀挑战热头条

世界热文：朗姿股份因定增收关注函：募投项目实施主体业务开展是否合法是否存在虚假宣传

全球首台16兆瓦海上风机顺利安装完成讯息

及时果断启动应急响应！国家防办、应急管理部部署重点地区防汛抗旱工作世界聚看点

永州：江永县召开2023年卫生健康工作会议世界速看

头孢类药物作用_头孢类药物微头条

每日聚焦：山水家园甜蜜屏边｜生态苗岭路，绿美云端游——屏边县“一体化”打造绿美公路雏形初现

暴雨蓝色预警四川提前避险紧急转移25000余人|时讯

第七届全国残疾人职业技能大赛开幕新增9个项目-每日资讯

中兴努比亚AR眼镜Neovision Glass开售仅售2999元

《狮子王》电影改动大？导演：唯有一个角色，我们将不会改变！天天微速讯

富国银行荐股两只涨幅将达125%？

代刷科目三学时，中山一驾校培训记录弄虚作假，被罚！今日热搜

关注：航空物流谋创新从干线运输转向一体化智能航空物流

大宗交易：赛微微电成交203.04万元，折价0.60%（06-27）微速讯

焦点热议:李想公开承认错误事情来龙去脉明晰：理想L7车主事故后质疑安全

驻日美军基地灭火剂疑污染周边水源美方称如有必要将调查

港警国安处拘捕一名63岁男子，涉网上宣扬“港独”及侮辱国旗国歌全球快看

世界视点！2021年第一季度工作简报第一季度宣传工作总结

扩散！达州一学校严正声明全球报资讯

天天关注：精子畸形率正常范围_精子畸形率多少正常精子畸形率正常值是多少

北方稀土上榜福布斯2023年全球企业2000强信息

把“天敌工厂”建在麦田每日热门

主播盲盒事件被曝光世界热点