标签: weka数据挖掘
weka是一款功能强大的数据挖掘软件,这款软件具有、分类、回归、聚类、关联分析、数据预处理、评估等特色功能,是数据挖掘分析的必备工具,需要的朋友欢迎来绿色资源网免费下载使用。
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。
原理与实现
聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把 所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实 例来说,这个距离通常指欧氏距离。
模型应用
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。
在“Test Opion”中选择“Supplied test set”,并且“Set”成你要应用模型的数据集,这里是“bank-new.arff”文件。
现在,右键点击“Result list”中刚产生的那一项,选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值,那这些内容是无意义 的,我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的“Visualize classifier errors”,将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“Save”按钮,保存一个Arff文件。打开这个文件可以看到在倒 数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。
建模结果
OK,选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快,用文 本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“Classifier output”中。同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“Start”一次,则“Results list”又会多出一项。
目前,WEKA的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
我们打算对前面的“bank-data”数据作关联规则的分析。用“Explorer”打开“bank-data-final.arff”后,切 换到“Associate”选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法,但是点“Choose”右边的文本框修改默认的参数,弹 出的窗口中点“More”可以看到各参数的说明。
背景知识
首先我们来温习一下Apriori的有关知识。对于一条关联规则L->R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物栏中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。
有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是
Lift: P(L,R)/(P(L)P(R))
Lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物栏中不是偶然现象。
Leverage:P(L,R)-P(L)P(R)
它和Lift的含义差不多。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。
Conviction(更不知道译了):P(L)P(!R)/P(L,!R) (!R表示R没有发生)
Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。
值得注意的是,用Lift和Leverage作标准时,L和R是对称的,Confidence和Conviction则不然。
参数设置
现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把 “lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为 lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认即可。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。
下面是挖掘出来的lift排前5的规则。
Best rules found:
1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)
2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)
3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)
4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)
5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)
对于挖掘出的每条规则,WEKA列出了它们关联程度的四项指标。
命令行方式
我们也可以利用命令行来完成挖掘任务,在“Simlpe CLI”模块中输入如下格式的命令:
java weka.associations.Apriori options -t directory-path"bank-data-final.arff
即可完成Apriori算法。注意,“-t”参数后的文件路径中不能含有空格。
在前面我们使用的option为
-N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用这些参数得到的结果和前面利用GUI得到的一样。
我们还可以加上“- I”参数,得到不同项数的频繁项集。我用的命令如下:
java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:"weka"bank-data-final.arff
挖掘结果在上方显示,应是这个文件 的样子。
加载全部内容
FinalShell(SSH客户端Windows)v2018 免费版34.4M8人在玩finalshell是一款非常强大的网络服务管理器。finalshell不仅支持登录SSH和Windows远程桌面,还可以为开发、运维人员提供多种实用功能,让你轻松管理服务器,维护日常工作。
下载BBwebsocketv2018 绿色版1.3M5人在玩BBwebsocket是一款pc端websocket/ws/wss协议调试工具,可以帮助用户调试服务器,确保服务器的正常运行。BBwebsocket软件界面简洁,使用方便,用需要的用户欢迎下载体验!
下载吃鸡服务器状态查询V1.4 绿色版377KB5人在玩吃鸡服务器状态查询是一款针对吃鸡游戏服务器检测显示最新状态工具,通过这款工具可以帮助玩家检测游戏老是掉线的原因,使用起来真的十分方便,有需要的朋友可以下载体验一下。
下载SqlDbxv2018 中文版1M3人在玩sqldbx使用教程,sqldbx连接oracle。SqlDbx是一个多功能的SQL数据库管理,编辑,查询工具,SqlDbx支持多种数据源查询编辑,是一款功能强大的数据库编辑查询工具。
下载小鸟云管家v1.0.1.20 官方最新版87.4M2人在玩小鸟云管家,一款非常便捷的服务器管理工具。软件为用户提供服务器站点管理、资源监控、服务器优化、数据库管理、环境管理等多种功能,使用非常方便!
下载护卫神主机大师v4.1.0 官方版117.0M2人在玩护卫神主机大师让你的管理服务器更轻松,它支持用主机系统开设网站,支持开设的网站使用独立权限,支持多版本PHP等,为你的网站301重定向。
下载Aloof RDP Server远程共享服务器v8.8 官方版21.9M1人在玩AloofRDPServer软件是一款非常好用的远程共享服务器,这款软件功能非常强大,能够让多个用户同时登陆服务器,服务器上传文件速度快,安全性高,欢迎各位感兴趣的朋友们下载使用这款软件。
下载hfs网络文件服务器v2018 绿色版855KB1人在玩fs网络文件服务器是专为个人用户所设计的HTTP档案系统,如果您觉得架设FTPServer太麻烦,那么这个软件可以提供您更方便的网络文件传输系统,下载后无须安装,只要解压缩后执行即可。
下载AppServ正式版v8.0.0 最新版87.2M0人在玩AppServ一键包64位最新版是一款运行在windows系统上的Web服务器环境,包含最新版本的Apache、PHP、PHP7、MySQL、phpMyAdmin等组件。还支持TSL和SSL,十分强大!
下载iis6.0下载14.8M0人在玩微软WindowsServer2003中的IIS6.0下载为用户提供了集成的、可靠的、可扩展的、安全的及可管理的内联网、外联网和互联网Web服务器解决方案。IIS6.0经过改善的结构可以完全满足全球客户的需求。这篇文章介绍了WindowsServer2003中IIS下载6.0给用户带来的益处、
下载