您好,欢迎来到东饰资讯网。
搜索
您的当前位置:首页基于数据仓库决策支持系统(DSS)の研究

基于数据仓库决策支持系统(DSS)の研究

来源:东饰资讯网
山东大学硕士学位论文图表目录图2.1DSS三库逻辑结构图……………………………………………Il表格2.1典型的关键性能指标…………………………………………17图3.1数据仓库体系化环境……………………………………………21图3.2数据仓库的数据组织结构………………………………………23图6.1深度优先搜索……………………………………………………36图6.2规则存储结构……………………………………………………39图6.3决策树存储结构…………………………………………………39图6.4图6.3中每个节点的结构………………………………………40图7.1DSS构架图………………………………………………………43图7.2数据库设计………………………………………………………52图7.3系统界面…………………………………………………………53图7.4系统输入输出界面………………………………………………53图7.5商品目录…………………………………………………………54图7.6数据仓库平台…………………..………………………………54第3页山东大学硕士学位论文中文摘要本课题“基于数据仓库的决策支持系统(DSS)研究”利用数据仓库技术建立了一个实际的流通企业决策支持系统,并且在该系统设计中提出和应用了一种结合决策树和规则技术思想的效率更高的改进决策树技术模型。,l数据仓库、数据挖掘是现今新一代计算机技术发展的代表之一,它们与决策支持系统相结合,能够更好地支持人们的决策。数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合,人们可以利用OLAP等技术从数据仓库的大容量数据中得到所关心的数据,用以支持经营管理中的决策制定过程。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能从数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。但由于数据仓库的海量存储、OLAP处理的高复杂性以及数据挖掘中采用的复杂的算法和推理,使它们在推广应用中受到一定的,因此对相关技术的改进、优化一直是当前数据库系统应用研究的焦点问题。决策树作为当前数据挖掘的常用方法之一,是一种能看作一棵树的预测模型,在树的生长中每个分节点能够对当前数据集合空间进行,以找出人们感兴趣的问题空间,在生长过程中允许选择条件和修剪规则以其过度生长,但现有的生长方法有一定的局限性,因而剪枝效率不高;而另一种方法——关联规则,由于其计算量特别大,而且容易忽略有价值的数据,在使用中也有一定的缺陷J本文提出了一种结合规则技术思想的决策树的改进方法,利用数据挖掘所产生的规则对决策树每个分支节点的条件进行判断,既能决策树生长,又能帮助选择最优线路,从而使决策效率明显提高。通过对一个实际的流通企业决策支持系统的构建、实施,验证了使第4页山东大学硕士学位论文用这种改进决策树技术会使整个系统的决策效率得到明显的提高,对管理者的分析、判断和决策提供了强有力的支持,肯定会对加强企业在市场中的竞争力、提供全面的管理解决方案做出贡献。关键词:决策支持系统;数据仓库:数据挖掘;决策树;关联规则第5页山东大学硕士学位论文ABSTRACTThisthesis—AStudyofDecisionSupportSystemBased0nDataWarehouse—hasbuiltanactualdecisionsupportsystemforcirculationenterprisesbyusingthetechniqueofdatawarehouse.Inaddition.anefficientimprovedmodelofdecisiontree,whichcombinesthetheoryofdecisiontreeandtheideaofroletechnique,wasalsoproposedinthedesignofthissystem.Datawarehouseanddataminingbelongtooneoftherepresentativecomputertechnologiesofthemodemgeneration.Togetherwimdecision—makingsystem,theyexhibitbettersupporttopeople’Sdecision-making.Datawarehouseisasetofdatathataresubject·oriented,integrated,non·renewableandtime-dependent.WiththehelpofOLAPtechnology,peopleCanacquiretheirconcemeddatafromthelargestockindatawarehousetomeettheneedofdecision-makinginthemanagementofanenterprise.Dataminingisthenanothernewtechnology,wimwhichmancarldiscoverandextractinformationhiddeninlarge·scaledatabaseordatawarehouse.ItcallautomaticallyCaITyoutdataanalysisindatawarehouseandaccomplishtheinductivereasoning.Inthatway,itCanfindoutlatentpatternsorproducesomeassociationSOastosetupnewbusinessmodeandtherebyhelpdecision-makersadjusttheirmarketingpolicytocorrectdecision-making.Unfortunately,theyarerestricted,tosomeextent,intheapplicationandpopularizationduetogreatcapacityofdatawarehouse,thecomplicationofOLAPprocessing,aswellasperplexingalgorithmandreasoningadoptedindatamining.Therefore,theimprovementandoptimizationoftherelatedtechnologiesarealwaysthehotspotofthestudyofcurrentdatabasesystems.Asoneofthemostcommonlyusedmethodsinthedatamining,decisionisapredictingmodelthatcarlbeseenasatree.Inthegrowthofthetree,eachnodeCansplitthecurrentdatasetspaceinordertofindouttheproblemisusefultopeople.Atthesametime,thesplitconditionsandrulescallbechosentocontrolover—growth.However,thepresent第6页treespace,whichtrim山东大学硕士学位论文growth—restrictingmethodhasitslimitation,keepingalowpruningefficiencyAstothemethodofassociationrules.italsoshowsitsdrawbackintheapplicationduetothelargecomputationandtheneglectofvaluabledata.Byintegratingrulestechnology,thisthesisproposedanimprovedmethodofdecisiontree.Thesplitconditionateachnodeofdecisiontreewillbejudgedaccordingtotherulesproducedindatamining.Itcannotonlyrestricttheover—growthofdecisiontreebutalsodecidetheoptimalroute,therebyobviouslypromotingtheefficiencyofdecision-making.Bywayofestablishingandexecutinganactualdecisionsupportsystemforcirculationenterprises,itCallbeconcludedthatthisimprovedmethodofdecisiontreeCallnoticeablyimprovethedecision—makingefficiencyofthewholesystem.Itprovidesapowerfulsupporttothesupervisor’sanalysis,judgmentanddecision·making.Moreover,itwillcontributemuchtothestrengtheningofthecompetitivepowerofenterprisesaswellasathoroughsolutionofmanagement.Keywords:decisionsupportsystem;datawarehouse;datamining;decisiontree;associationrules第7页山东大学硕士学位论文1引言1.1技术发展现状决策支持系统(DSS,DecisionSupportingSystem),是以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确决策提供必要的支持…。20世纪90年代以来,计算机技术,尤其是数据库技术的发展为DSS提供了技术支持;激烈的市场竞争促进了高层次决策人员对DSS的实际需求。数据仓库技术DW、联机分析技术OLAP和数据挖掘DM是作为三种的信息处理技术出现的。数据仓库技术用于数据的存储和组织;联机分析技术集中于数据的分析:数据挖掘则致力于知识的自动发现。由于这三种技术内在的联系性和互补性,为了充分发挥它们各自的特长,可以将它们结合起来,设计出一种新的DSS构架,即以数据仓库为基础、以OLAP和DM工具为手段(DW+oLAP+DM=DSS)12J的一整套可操作、可实施的解决方案。目前,DSS正以前所未有的速度发展,并且不断扩大着用户群体,在未来越加激烈的市场竞争中,拥有DSS必将比别人获得更快速的反应,赢得更多的商业机会。1.2课题目的数据仓库、数据挖掘是近年来兴起的一种新的数据库应用,它们与决策支持系统相结合,能够更好地支持人们的决策。数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合‘31,人们可以利用OLAP等技术从数据仓库的大容量数据中得到所关心的数据,用以支持经营管理中的决策制定过程。数据挖掘是从大型数据库或数据仓第8页山东大学硕士学位论文库中发现并提取隐藏在其中的信息的一种新技术,它能从数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。但由于数据仓库的海量存储、OLAP处理的高复杂性以及数据挖掘中采用的复杂的算法和推理,使它们在推广应用中受到一定的,因此对相关技术的改进、优化一直是当前数据库系统应用研究的焦点问题。决策树作为当前数据挖掘的常用方法之一,是一种能看作一棵树的预测模型,在树的生长中每个分节点能够对当前数据集合空间进行,以找出人们感兴趣的问题空间,在生长过程中允许选择条件和修剪规则以其过度生长,但现有的生长方法有一定的局限性,因而剪枝效率不高;而另一种方法——关联规则,由于其计算量特别大,而且容易忽略有价值的数据,在使用中也有一定的缺陷。本课题“基于数据仓库的决策支持系统(DSS)研究”的目的就是试图探索一种新的方法,利用规则的思想,对决策树生长进行,来提高决策效率,并能找出最优线路,对数据挖掘技术、决策支持技术进行进一步的探索。1.3论文完成的主要工作与创新当前数据仓库研究正方兴未艾,预计在本世纪还会形成更大的高潮,但由于基于数据仓库的DSS应用涉及的数据量大,要求复杂,除了必须要求有高性能数据库服务器、并行数据库技术、数据库互操作技术的支持外,还应该研究性能更高、处理速度更快的决策模型。本课题“基于数据仓库的决策支持系统(DSS)研究”就是在这种背景下提出了一种结合决策树和规则技术思想的改进决策树技术模型,通过建立一个实际的应用系统,试图找出高效算法。在算法中,对决策树分支节点使用规则及决策条件的原始正确率和支持率作为判定依据,并且使用了不确定推理的主观Bayes方法作为判定的推理方法,利用不同领域的理论结合后得到了一种全新的高效算法。通过DSS系统的构建、实施,验证了使用改进决策树技术会使整个系统的决策效率得到明显的提高。第9页山东大学硕士学位论文决策树作为当前数据挖掘的常用方法之一,是一种能看作一棵树的预测模型,在树的生长中每个分节点能够对当前数据集合空间进行,以找出人们感兴趣的问题空间,在生长过程中允许选择条件和修剪规则以其过度生长,但现有的生长方法有一定的局限性,因而剪枝效率不高;而另一种方法——关联规则,由于其计算量特别大,而且容易忽略有价值的数据,在使用中也有一定的缺陷。本文提出了一种结合规则技术思想的决策树的改进方法,利用数据挖掘所产生的规则对决策树每个分支节点的条件进行判断,既能决策树生长,又能帮助选择最优线路,从而使决策效率明显提高。通过对一个实际的流通企业决策支持系统的构建、实施,验证了使用这种改进决策树技术会使整个系统的决策效率得到明显的提高。第10页山东大学硕士学位论文2决策支持系统现状2.1决策支持系统概述决策支持系统(DSS,DecisionSupportingSystem),是以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确决策提供必要的支持。DSS的概念是70年代提出的,并且在80年代获得发展。它的产生基于以下原因:传统的MIS没有给企业带来巨大的效益,人在管理中的积极作用要得到发挥;人们对信息处理规律认识提高,面对不断变化的环境需求,要求更高层次的系统来直接支持决策;计算机应用技术的发展为DSS提供了物质基础。2.1.1DSS的结构DSS的概念结构由会话系统、控制系统、运行及操作系统、数据库系统、模型库系统、规则库系统和用户共同构成。最简单和实用的三库DSS逻辑结构‘21(数据库、模型库、规则库)如图2.1所示。DSS运行过程可以简单描述为:用户通过会话系统输入要解决的决策问题,会话系统把输入的问题信息传递给问题处理系统,然后问题处第1l页山东大学硕士学位论文理系统开始收集数据信息,并根据知识机中已有的知识,来判断和识别问题,如果出现问题,系统通过会话系统与用户进行交互对话,直到问题得到明确;然后系统开始搜寻问题解决的模型,通过计算推理得出方案可行性的分析结果,最终将决策信息提供给用户。DSS的技术构成包括:·接口部分,也就是输入输出的界面,是人机进行交互的窗口。●模型管理部分,系统要根据用户提出的问题调出系统中已有的基本模型,模型管理部分应当具有存储、动态建模的功能。目前模型管理的实现是通过模型库系统来完成的。·知识管理部分,集中管理决策问题领域的知识(规则和事实),包知识的获取、表达、管理等功能。·数据库部分,管理和存储与决策问题领域有关的数据。●推理部分,识别并解答用户提出的问题,分为确定性推理和不确定性推理两大类。●分析比较部分,对方案、模型和运行结果进行综合分析比较,得出用户最满意的方案。·问题处理部分,根据交互式会话识别用户提出的问题,构造出求解问题的模型和方案,并匹配算法、变量和数据等,运行求解系统。●控制部分,连接协调系统各个部分,规定和控制各部分的运行程序,维护和保护系统。此外技术构成还包括咨询部分、模拟部分、优化部分等。2.1.2DSS的特点DSS的主要特点有如下几方面:·系统的使用面向决策者,在运用DSS的过程中,参与者都是决策者。●系统解决的问题是针对半结构化的决策问题,模型和方法的使用是确定的,但是决策者对问题的理解存在差异,系统的使用有特第12页山东大学硕士学位论文定的环境,问题的条件也不确定和唯一,这使得决策结果具有不确定性。●系统强调的是支持的概念,帮助加强决策者做出科学决策的能力。·系统的驱动力来自模型和用户,人是系统运行的发起者,模型是系统完成各环节转换的核心。●系统运行强调交互式的处理方式,一个问题的决策要经过反复的、大量的、经常的人机对话,人的因素如偏好、主观判断、能力、经验、价值观等对系统的决策结果有重要的影响。2.2企业管理软件应用现状我国中小型企业占国内企业总数的94%,它们在市场中最具活力。在大型企业对计算机的需求已经趋于平稳的时候,中小型企业用户就显得格外的突出。中小型企业由于企业自身的规模有限,没有能力自己开发内部管理软件,而并不十分健全的内部经营体系又急需系统化的管理,这就为企业管理软件的发展打下了坚实的基础。当前,建立竞争优势,提高市场竞争力已经成为企业管理的核心,而原有的管理软件已经越来越不能适应管理实践的要求,新的时代需要新一代的管理软件。我国企业管理软件的发展,在经历了单项管理系统、MRP/MRPII应用之后,正朝着更先进的ERP(企业资源计划)模式发展。ERP是管理信息系统在九十年代的最新发展,近年来被引入到中国后,受到国内的广泛关注。ERP不仅集成了企业运营和管理的各主要部分(财务、分销、制造、人力资源、决策支持),更代表了先进的管理思想和管理方式。我们可以预见,ERP将作为管理现代化的重要工具,在我国企业等组织得到越来越广泛的应用。但是,当前国内ERP系统的数据分析能力大都不够强大,而ERP系统启动运行之后,其数据分析能力是决定性能的重要指标。面向ERP软件的数据分析功能被称为“商业智能”,其主要功能是对ERP系统积累的数据进行分析处理,形象地说就是帮助用户发现ERP系统积累的数据的潜在价值。可以这么说,普通的ERP系统能够帮助用户规范企业的管第13页山东大学硕士学位论文理,而拥有强大数据分析功能的ERP系统则能够使用户从这种规范的管理中获得更大的效益。因此,如果企业要采用ERP系统,一般需要一个强大的数据分析部件。这个数据分析部件能够与ERP系统集成,在ERP系统运行过程中采集数据进行分析,并能将样本数据和分析结果存入数据仓库以便用户查询采用。2.3现代企业决策的挑战在过去许多年,管理者制定决策是一门纯粹的艺术,是通过很长一段时间的经验所获得的一项天赋。管理之所以被看成一门艺术,是因为许多个体风格被用于处理并成功地解决了同一类型的管理问题。这些风格源于创造力、判断力、直觉和经验,而不是建立在科学方法基础上的系统化的定量分析方法。但是,今天管理所面临的外部环境正在发生迅速变化。商业及其本身的环境也比以往更加复杂,而且这种复杂性日益增加。这些都对现代企业的管理决策带来了新的挑战:·决策质量的要求更高随着技术的迅速发展,客户获得产品和服务的渠道更为畅通,客户的选择余地更大。同时大规模生产使得产品出现了供过于求的状态。客户成为最稀缺的资源。这迫使企业必须采取“以客户为中心”的经营策略,努力提高产品和服务的质量。●决策时要考虑的因素更复杂随着经济全球化的趋势,尤其是中国加入WTO之后,无论是否愿意,企业都将面对全球的竞争者和全球范围的消费市场;随着环境的恶化、消费者权益意识的增强等,颁布了更详尽的法令和制度来约束企业的经营行为。企业管理者在进行决策时需要考虑更多、更复杂的制约因素。●决策速度要求更快随着通讯方式的发展、交通的便利以及金融体系的完善,企业更难以长久维持自己的竞争优势。企业必须不断地创新,从以规模取胜转变到以速度取胜。这些都要求管理者能够迅速做出正确的决策。第14页山东大学硕士学位论.zK●决策失败的代价更高企业中采购、生产、销售和服务等方面的联系同益紧密,企业的整个运作系统更加复杂和精密。某一环节的判断失误将产生链锁反应,造成企业重大的损失。面对这些趋势和变化,管理者必须变得更加精明。他们需要新的工具和技术来帮助他们制定有效的决策。而传统的企业信息管理系统却不具备这样强大的分析功能。这体现在:●分析工作量大企业通常的运营系统只能提供面向交易的数据。因此,许多管理者要花费80%的时间进行数据的分析,真正用于决策的时间只有20%。而且对于许多大型企业,还必须为之配备庞大的专业分析队伍。·分析结果滞后由于分析时间过长,经理们经常无法及时拿到所需的报表,因此贻误了许多商业机会。●无法按照商业习惯进行分析传统的报表只能进行简单的汇总。管理者有时为了分析一个关键的商业因素,不得不在一大堆打印的报表中前后翻阅,极不方便。●无法进行复杂的分析管理者经常希望能综合多种因素来分析问题。如,石油价格的上涨、物价指数的波动对企业各方面的影响;如果现在采取降价措施,本年度末公司的市场分额、销售额和赢利是否有所增长?哪些客户对我们企业最关键,他们有什么特征,如何增加他们对我们企业的忠诚度等。●无法提供关键问题的解决方案例如,对于大型零售企业,为了实现最高效率,如何在一个区域内设立自己的连锁店?如何制定有效的预算计划和现金流计划?如何防止客户的流失?传统的信息技术都无法提供这些关键性问题的解决方案。·缺乏量化的衡定指标随着企业规模的扩大和机构的日益复杂,管理者不能只依赖经验和第15页山东大学硕士学位论文直觉来评价企业的整体表现,必须借助一些关键的、量化的指标。但通常的M1S系统无法做到这一点。2.4决策支持系统的主要应用企业根据自己的情况可以实施不同的DSS应用。最主要的应用有:1、销售支持每日按地区、部门、销售员和产品生成销售情况的汇总,给高级经理提供支持。这些报告标识了丢失的业务、挽回的业务和新的业务。根据需要还可以定制额外的周期报表,这些特殊的报表给经理提供了比较和趋势分析,有助于确定问题和机会。DSS应用能够分析和评价以往产品的销售,以确定产品成功或失败的因素。借助DSS,可以利用全公司的数据来推测一个决策所隐含的利润和收入。2、客户分析和市场研究DSS应用可以利用统计工具来分析每天收集的交易数据,以确定各种类型客户的消费模式,然后采取相应的营销措施,从而实现最大的利润。对于重点客户要提供更好的服务和更优惠的价格策略。对于潜在客户要进行促销以争取。对于易流失的客户要分析原因以挽回。由于客户关系管理是目前的一大热点,这方面的分析内容很多,作者将在后续的文章中详细介绍。市场研究包括:利用预测模型分析得出每种产品的增长模式,以便做出终止或者扩张某种产品的适当决定;企业品牌和形象的研究,以便提高企业和品牌的知名度和美誉度;分析客户满意度;市场规模和潜在规模的研究等。3、财务分析按年、月、日或其它自定义周期来进行实际费用和花费的比较;审查过去现金流的趋势,并预测未来的现金需求量;复杂项目的预算计划和成本分摊:整合各分支机构的财务数据,形成正确、一致的财务报表。4、运筹和战略计划基于资源和时间的,来确定最优的项目时间表;制定工厂每日的生产计划;确定大型连锁机构中分支网点的设立,如连锁店、加油站、第16页山东大学硕-Az学位Ve"文通讯中继站等等;协助制定大规模资本投资计划,并计算投资风险。5、企业分析为了达到组织的目标所必须考虑的因素被称为关键成功因子rCriticalSuccessFactor,CSF)。CSF是企业级分析的焦点。这样的因子可以是战略性的或者操作性的,主要从三个来源导出:组织性因素、行业因素和环境因素。关键性能指标(KeyPerformanceIndex,KPI)提供了CSF在公司层次上的度量。典型的KPI见下表2.1赢利能力每个部门、产品和区域的赢利能力;部门之间、产品之间以及竞争者之间的比较。财务流动比率;现金储备情况;资产负债分析;投资汇报率。市场市场份额,广告分析,产品定价,每周(每天)的销售结果,客户的销售潜力。人力资源人员流动率,工作的满意度。计划销售增长/市场份额分析。经济分析市场趋势,对外贸易和汇率,行业趋势,劳动力成本趋势消费者趋势消费者的信心级别,购买习惯,人口数据2.5决策支持系统面临的问题随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各种类型的数据处理工作。近年来,随着计算机应用,网络计算开始向两个不同的方向拓展,~是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另~方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理(或信息型处理)。这由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环第17页种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而山东大学硕士学位ge"文境。数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十年的发展,在这些数据库中已经保存了大量的日常业务数据。传统的业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。事务处理环境不适宜DSS应用的原因主要有以下五条:1、事务处理和分析处理的性能特性不同在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。2、数据集成问题DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。3、数据动态集成问题静态集成的最大缺点在于,如果在数据集成后数据源中的变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。4、历史数据问题事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,第18页山东大学硕士学位论文且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。5、数据的综合问题在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。第19页山东大学硕士学位论文3数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。本章将简要介绍一下用到的数据仓库技术背景,并在下一章更深一步阐述数据仓库技术在现实中的重大意义。3.1从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(DataWarehouse,简称DW)。作为决策支持系统,数据仓库系统[6】包括:·数据仓库技术;·联机分析处理技术(On.LineAnalyticalProcessing,简称OLAP);·数据挖掘技术(DataMining,简称DM)。数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。如图3.1所示:第20页山东大学硕士学位-Ve"文3.1.1什么是数据仓库业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义【3l[34】是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每~个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。数据仓库最根本的特点是物理地存放数据19l,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的~种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。3.1.2数据仓库的产生计算机系统的功能从数值计算扩展到数据管理距今已有三十多年第2l页山东大学硕士掌位论文了。最初的数据管理形式主要足文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。到了1969年,E.F.Codd博士发表了他著名的关系数据模型的论文。此后,关系数据库的出现开创了数据管理的一个新时代。近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的开发和实现:客户/N务器系统结构、存储过程、多线索并发内核、异步I/0、代价优化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,SQL的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理,比以往任何时候都显得更为重要。如果说传统联机事务处理强调的是更新数据库一向数据库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易,这主要表现在以下几点Il0】:●所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。·业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。●业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。第22页山东大学硕士学位论文因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。这个概念在90年代初被提出来。如果需要给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。3.2数据仓库中的数据组织3.2.1数据仓库的数据组织结构一个典型的数据仓库的数据组织结构‘“】如图3.2所示数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越大,表示细节程度越低,综合程度越高。数据仓库中还有一种重要的数据——元数据(metadata)。元数据是第23页山东大学硕士学位论文“关于数据的数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的商业模型/前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。3.2.2数据仓库的数据组织形式这里简单介绍数据仓库中常见的数据组织形式Il3|:●简单堆积文件:它将每R由数据库中提取并加工的数据逐天积累并存储起来。●轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中:然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。●简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。●连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。对于各种文件结构的最终实现,在关系数据库中仍然要依靠”表”这种最基本的结构。3.2.3数据仓库的数据追加如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓库的数据是来自OLTP的数据库中,问题是我们如何知道究竟哪些数据是在上一次追加过程之后新生成的。常用的技术和方法有:第24页山东大学硕士学位论文·时标方法;如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库的数据都含有时标。·DELTA文件:它是由应用生成的,记录了应用所改变的所有内容。利用DELTA文件效率很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。●前后映象文件的方法:在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。●日志文件:最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响OLTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。3.3数据仓库的关键技术数据仓库都有哪些组成部分和关键技术呢?与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面。以DW为核心、以OLAP和DM工具为手段建设DSS的可行方案为以上几个方面提供了支持。随着数据库技术的发展,DW需要以下数据库技术的支持:·高性能数据库服务器:DW的应用不同于传统DB的OLTP应用。传统DB的应用是操作型的,而DW的应用是分析型的,它需要第25页山东大学硕士学位论文高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比OLTP的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS核心的性能要求更高,同DBMS必须具有良好的查询优化机制。●并行数据库技术:DW中的数据量大,而且随着时间的延长,新的数据还会不断进入。DW中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。·数据库互操作技术:DW中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。DW必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把它们存入DW中。因此,异构数据源之间的互访和互操作技术是必需的。第26页山东大学硕士学位论文4OLAP技术OLAP即On-LineArialyricalProcess(联机分析处理),根据OLAP委员会的定义,OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是数据分析工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是:企业的决策者应能灵活地操纵企业的数据,以的形式从多方面和多角度来观察企业的状态、了解企业的变化。4.IOLAP的特点OLAP具有如下特点【l6】:·快速性:用户对oLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应,这对于大量的数据分析要达到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。●可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。·性:性是OLAP的关键属性。系统必须提供对数据分析的视图和分析,包括对层次维和多重层次维的完全支持。事实上,分析是分析企业数据最有效的方法,是OLAP的灵魂。●信息性;不论数据量有多大,也不管数据存储在何处,OLAP系第27页山东大学硕士学位论文统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。4.20LAP的功能对数据的观察:观察是实际业务模型固有的要求,oLAP应用能够从一种自然的、合乎人的思维心理的角度来灵活地观察、访问数据,为对事情的分析处理提供良好的基础。产生数据报表的主要技术就是“旋转”、“切块”、“切片”、“上钻”和“下钻”等,这些可以实现以下功能:·复杂的计算能力:对分析过程来说,常需要对数据进行深入的加工,把数据简单陈列给管理人员是不够的。OLAP系统能够提供丰富多样、功能强大的计算工具,但同时方法又简单明了,并且是非过程(non.procedural)的,从而可以及时完成系统的改变访问到即时信息。●时间智能:对任何分析应用程序来说,时间都是不可缺少的一个因素。时间只有一维,因为它只能从前往后延伸。OLAP系统能够很好的理解时间的这种序列特性。由于OLAP系统中对时间的智能管理,从而使得不同年份的同期比较和同一年份的期间比较等等,成为很容易定义的事情。为了保证信息处理所需的数据以合适的粒度、合理的抽象程度和标·MOLAP:以数据库为核一“也就是说,MOLAP使用数据库管理系统来管理所需的数据。●ROLAP:以关系数据库为核心,以关系型结构进行数据的表示和存储。第28页4.30LAP的3种实现结构准化程度存储,数据在物理上分为3种存储结构‘16】:基于数据库的OLAP存储结构(MOLAP)、基于关系数据库的OLAP存储结构(ROLAP)、混合型的OLAP存储结构(HOLAP)。t.h东大学硕士学位论文·HOLAP:数据部分存储于关系数据库,部分存放于数据库。由于ROLAP是用关系表来模拟数据的,因此其存取较MOLAP复杂。而MOLAP可以利用查询语言直接将用户查询转为MDDB可以处理的形式。第29页山东大学硕士学位论文5数据挖掘技术概述5.1数据挖掘技术概述数据挖掘(DataMining)”8J就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(DataFusion)及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指出的是,这里所说的知识发现,所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。5.2数据挖掘研究现状随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;第30页山东大学硕士学位论文另一方面,对于一个感兴趣的特定领域~客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。专家系统实质上是一个问题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统【19l。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。但知识获取、知识表示一直是专家系统研究中公认的难题,大大了专家系统的应用,使得研究者开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,走上了数据挖掘的道路。数理统计是应用数学中最重要、最活跃的学科之一,然而,数理统计和数据库技术结合得并不算快,数据库查询语言sQL中的聚合函数功能极其简单,就是一个证明。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出繁荣景象。5.3数据挖掘的挖掘任务和挖掘方法数据挖掘所能发现的知识有如下几种【20J:广义型知识,反映同类事物共同性质的知识:特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识:预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据第31页山东大学硕士学位论文挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是数据分析或OLAP方法,另外还有面向属性的归纳方法。以下将主要从挖掘任务和挖掘方法的角度,着重讨论关联规则发现任务。关联规Ntl8】是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油一牛奶)。用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。设I={il,“..,i。}是一组物品集(一个商场的物品可能有上万种),D是一组事务集(称之为事务数据库)。D中的每个事务T是一组物品,显然满足T_I。称事务T支持物品集x,如果XT。关联规则是如下形式的一种蕴含:X—Y,其中XcI,Y£I,且xnY=o。·称物品集x具有大小为s的支持度,如果D中有s%的事务支持物品集x;·称关联规则x—Y在事务数据库D中具有大小为s的支持度,如果物品集x—Y的支持度为s;第32页山东大学硕士学位论文·称规则x—Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集x的事务中有c%的事务同时也支持物品集Y。如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中,一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。另外,关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间上或序列上的规律,因为,很多时候顾客会这次买这些东西,下次买同上次有关的~些东西,接着又买有关的某些东西。5.4完整数据挖掘过程在现代社会中,公司大多数商务流程的核心部分是数据。而数据挖掘的任务就是在如此海量的数据中发现有用的数据。但是仅仅发现数据那是不够的。我们必须对这种模型做出一定的反应,并采取行动,最后将有用的数据转换成信息,信息变成行动,行动转换成价值。这个就是数据挖掘在商业应用上的一个完整的流程。下面给出一个完整数据挖掘过程的四个步骤122】:●鉴别商业问题:如开辟新产品的市场:为现存的产品和服务定价;了解客户流失的原因。同时和各种人员的交流也是很重要的,当他们了解了DM之后,他们就有可能提出更好的问题。·使用数据挖掘技术将数据转换成可以采取行动的信息。·采取一种循序渐进的方法,根据信息实施计划。●通过比较将实际结果和预测的值进行比较,对结果进行衡量。第33页山东大学硕士学位论文6改进决策树模型搜索技术是人工智能的基本技术之一,在人工智能各应用领域中被广泛地使用。早期的人工智能程序与搜索技术联系就更为紧密,几乎所有的早期的人工智能程序都是以搜索为基础的。现在,搜索技术渗透在各种人工智能系统中,可以说没有哪一种人工智能的应用不用搜索方法,在专家系统、自然语言理解、自动程序设计、模式识别、机器人学、信息检索、决策支持和博奕中都广泛使用。搜索问题是AI核心理论问题之一。一般一个问题可以用好几种搜索技术解决,选择一种好的搜索技术对解决问题的效率很有关系,甚至关系到求解问题有没有解。搜索方法好的标准,一般认为有两个:●搜索空间小:●解最佳。搜索从问题性质上来看,可分为一般搜索和博奕搜索,从处理方法上来看,可分为盲目搜索和启发式搜索。还可以分得更细。6.1两种盲目搜索算法6.1.1深度优先搜索要求是从起点s找到目标点F,这是一类根据已知的图找从某点到另一点的路径的问题的简化。深度优先就是沿着一个支路一直搜索下去。搜索的解希望给出路径。编程序的思路是:先取s结点;取其子结点;然后判子结点是否为目标结点,是就找到路径:不是再取一个子结点的子结点,依此类推。从数据上为:一个位置用一个结点表示,即表示一个状态。其步骤为:●((S))…取根结点;第34页山东大学硕士学位re"文·((sA1)(SBI)(Sc1))…取其子结点,形成三个子路径,用以代替(s),判子结点是目标;●((sA1A11)(SA1A12)(SB1)(sc1))…再取第一个子路径的子结点是,构成新路径代替原来的路径,判是否目标,依此类推。当已是目标时,停止搜索,输出路径。可以看出,深度优先搜索就是从某一分支扩展子节点,然后再由此结点再往下扩展,直到找到解为止。找不到解,一种方法是回答NIL,另一种方法是回溯找另一条路。深度优先搜索的算法可以如下表示:过程DEPTH-FIRST.SEARCHG:=GO(GO=s),OPEN:=(s),CLOSED:=();LOOP:IFOPEN=()THENEXIT(FAIL);11:=FIRST(OPEN);IFGOAL,(n)THENEXIT(SUCESS);REMOVE(n,OPEN),ADD(n,CLOSED);EXPAND(n)一{mi},G:2ADD(mi.G);ADD(mi,OPEN),并标记mi到n的指针;把不在OPEN或CLOSED中的节点放到OPEN表的最前面,使深度大的节点可优先扩展:GOL00P。对深度优先搜索,其特点是:●深度优先搜索方法,如果没有回溯,则不一定能找到解。为了保证找到解,要考虑回溯。●深度优先搜索找到的解不一定是最佳解。上述方法在深度优先搜索中不能解决有圈的问题。如果搜索的图中有圈,那么圈就会造成死循环,而得不到解。为此要判断圈的问题。为了对深度优先搜索作改进,要解决两个问题:第35页山东大学硕士学位论文·回溯问题;●有圈造成死循环问题。6.1.2宽度优先搜索(广度优先搜索)宽度优先搜索是从根结点开始,每次都要扫遍同层的各个结点,若没有找到目标,则再往下一层扫描(扫描下一层的所有子结点),直到找到目标或没有找到目标退出系统。宽度优先搜索深度优先搜索的区别在于扩展子结点所取的子结点位置和扩展后新扩展结点排放位置不同。可以看出:如果想往宽度扩展,那么很简单,把新扩展的结点的子路径放在所有结点的后面,而每次也取最前面的子结点的路径进行扩展,这样每个结点得到扩展的机会均等。深度优先搜索图6.1深度优先搜索宽度优先搜索的算法可以如下表示:过程BREADTH—FIRST.SEARCHG:2Go(G02s),OPEN:=(s),CLOSED:=()LOOP:IFOPEN=()THENEXIT(FAIL);n:=FIRST(OPEN);第36页山东大学硕士学位论文IFGOAL(n)THENEXIT(SUCCESS);REMOVE(n,OPEN),ADD(n,CLOSED);EXPAND(n)_{m。},G:2ADD(mi,G);ADD(OPEN,mi),并标记mi到n的指针;把不在OPEN或CLOSED中的节点放在OPEN表的后面,使深度浅的节点可优先扩展;GOLOOP。程序可以看出以下几点:●宽度优先搜索一定能找到解;●宽度优先搜索找到的解一定是最佳解(在每个路径消耗是同样的意义上);·宽度优先搜索的空间大、慢。一般情况下,使用深度优先法要对搜索深度事先给出某种。当问题有解时,这两种方法(深度优先带回溯)都保证找到解,在单位耗散的条件下,宽度优先法还能保证找到最短路径。此外对复杂NP完全类问题,一般不可避免会产生指数爆炸。6.2改进决策树模型决策树是能看作一棵树的预测模型,树的根节点是整个数据集合空间,每个分节点是一个问题,它是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块,每个叶节点是带有分类的数据分割。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择条件和修剪规则。决策树通过训练集生成,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。可以通过递归分割的过程来构建决策树。首先寻找初始,其前提是将整个训练集作为产生决策树的集合,并且训练集每个记录必须是已经分好类的,这时应当决定哪个属性(Field)域作为目前摄好的分类指标。一般的做法是穷尽所有的属第37页性域,对每个属性域的好坏做出量化,计算出最好的一个。量山东大学硕士学位论文化的标准是计算每个的多样性(diversity)指标GINI指标,然后重复前一步骤,直至每个叶节点内的记录都属于同一类,这时的决策树就增长到了一棵完整的树。决策树可以用于预测、数据预处理、数据挖掘等。但这种技术是一种“贪心”搜索,由于~个状态的改变可以达到多个不同的状态,若把各种可能到达的状态都展开它的搜索路径,这将形成一棵搜索树,随着深度n(状态连续改变数)的增加,树的结点数将以迅速增加,搜索时间就以增加,时间代价过高。因此本文提出了一种改进的决策树模型,即将前文提到的关联规则的思路与决策树相结合,用以引导搜索方向,以便用尽量少的搜索次数,从开始状态达到最终状态。把状态的改变连接起来便成为搜索路径,从而提高了决策效率。下面介绍一下改进决策树的搜索算法。该算法主要包括了以下步骤:(1)判断是否得到结果,由此决定是否继续搜索:(2)向同层搜索,求出误差小于限定条件的所有原型,并把它们作为子结点加入到树结构中去;根据本层节点所适用的规则,和规则的正确率和支持率,应用不确定推理方法,找出本层节点中的最优点,并使其继续生长;(3)重复步骤(2),直至找出最优决策;如没有适当的解,则回上一层,从次优解开始,重复步骤f2)。该模型存储结构如下:第38页山东大学硕士学位-ge.文图6.2规则存储结构以双链表存储规则集,如图6.2,其中每个节点存储一条规则,以队列存储决策树结构,如图6.3,图6.3中每个节点的结构如图6.4所示。其中根节点(初始状态)的层数是为0,其他子节点深度为父结点深度加l。在预测或决策时,根据规则决定决策树每个分支节点的属性,同时在节点记录,这样分支点的数据域存储的就是决策树当前节点的对应规则及其决策条件的原始正确率和支持率,根据不确定推理的主观Bayes方法对正确率和支持率进行更新,得到应用本层属性后新的初始条件,通过对某层节点数据域的遍历,把新的初始条件与约定的阈值依次比较,从中找出一个最优点,让其继续生长,而停止其它节点的生长,在下一层中,再应用新的规则和初始条件重复以上步骤,直到获得最终结果。若最终未获得有效结果,则返回上一层,使上一层的次优节点继续生长,直到获得最终结果。这样,从最大限度上了决策树的生长,进而提高了效率。图6.3决策树存储结构第39页山东大学硕士学位-Ve.文第40页山东大学硕士学位论文7基于数据仓库的决策支持系统7.1企业信息系统应用需求7.1.1企业对数据仓库的需求调查研究表明,大多数企业并不缺少数据,而是受阻于过量的冗余数据和数据不一致;而且它们变得越来越难于访问、管理和用于决策支持;其数据量正以成倍的速度增长。这样,信息中心面临着不断增长的决策支持的需求,但是,开发应用变得越来越复杂和耗费人力。那么怎样把大量的数据转换成可靠的、商用的信息以便于决策支持呢?数据仓库正广泛地被公认为是最好的解决方案。数据仓库化是企业范围内数据的处理过程,它将企业内分散的原始操作数据和来自外部的数据汇集和整理在一起,为企业提供完整、及时、准确和明了的决策信息,使最终用户能够真正利用DSS工具直接从企业信息池中随机地提取、分析数据,有效地服务于企业的全方位决策。作为一个决策支持环境,DW(DataWarehouse)收集存储了各种不同数据源中的数据。通过数据的组织给决策支持者提供分布在整个企业内部跨平台的数据。其次,现有的管理系统和现有的数据仓库将得到扩展,一是使数据仓库从一种局部的企业解决方案扩展到企业外部,扩展到企业的用户中去,使企业用户的数据仓库使用面更加广泛,这些可以通过Intemet/Intranet的帮助来实现,这是数据仓库与电子商务相互融合的一点;二是使数据仓库从一种企业数据管理工具扩展到企业辅助决策工具,能够充分利用数据仓库中的数据资源,为企业的发展起到辅助决策的功能,使企业用户的数据仓库得到更加深入的使用,这些可以通过数据库厂商提供的工具来实现,也可以由其它软件公司提供的工具包来实现,这是数据仓库与商务智能相互融合的一点。7.1.2企业对Internet/Intranet的需求企业决策系统与互联网的结合,正成为企业亟待解决的焦点问题之第41页山东大学硕士学位论文一。因为随着企业内部和企业间的信息交流量的增大,用户已不再满足于简单的文件共享方式,而是追求一种更灵活、更方便的数据共享策略,这便是大批企业用户将自身以数据库为核心的MIS系统从客户机/服务器计算模式向Internet/Intranet的系统架构转变。另外,发展到一定规模的企业,其自身的国际化已成为必然,一些分支机构可能是跨地区、界的,因此,在数据传递、信息共享和发布时,Internet成为这些跨地域企业的必然选择;激烈的市场竞争,也要求企业对市场变化做出快速的反应,用户的需求也不再是对离散的单个信息做简单的查询,而是要求能够提供一种对企业大量数据做出汇总的、多层次的、多侧面的快速灵活的查询、分析及报表制作手段。因此,市场上最需求的是如何使数据库中的大量信息满足人们不断变化的业务需求,并能及时为管理决策支持提供服务。如何将企业决策支持系统与Internet/Intranet技术有机地结合起来,提供基于Web,集查询、报表、OLAP(on—.LineAnalyticalProcessing)分析及数据挖掘为一体的企业级决策支持解决方案,已经成为一个重要课题。7.2基于数据仓库的决策支持系统的设计针对企业应用需求,经过几年来的实践,我们认为企业迫切需要一种智能化的信息分析决策支持处理工具,这类工具将解决如下问题:●建立在企业已有MIS系统或ERP系统的基础之上,利用已有的数据。现在有许多中小型企业已经有了一些MIS系统或ERP系统,但由于形势的变化,很快就会有进一步的需求,因此迫切需要新的软件,既能解决出现的问题,又能利用已有的数据。●为部分中型企业提供基于数据仓库的解决方案。对小型企业,出于各方面的考虑,一般都不采用基于数据仓库的解决方案,而对于中型企业,则应该给他们一个建立自己的数据仓库的机会。如果能建立数据仓库,就能更好地组织企业的数据,智能决策工具也能发挥更大的功效。●可以为小型企业提供通用MIS系统生成工具。对一些需求比较简单的小型企业,不用用户编程,就能通过可视化的方法实现一个MIS系统,再结合智能决策系统,将能实现更灵活、更强大第42页山东大学硕士学位论文的功能。●既可以实现传统的查询及统计报表功能,又可以实现数据分析、决策支持及数据发掘等高级功能。智能决策工具可以实现极为灵活的查询和报表,而且内嵌了部分分析功能,可以称之为交互式的查询和报表。另外,即使在较大型的MIS系统甚至ERP系统中.都很难找到数据分析、决策支持及数据发掘等高级功能,智能决策工具内却提供这些功能,这样就可以很好地利用原有的数据,大大加强原有系统的能力。数据仓库技术DW、联机分析技术OLAP和数据挖掘DM是作为三种的信息处理技术出现的。数据仓库技术用于数据的存储和组织;联机分析技术集中于数据的分析:数据挖掘则致力于知识的自动发现。由于这三种技术内在的联系性和互补性,为了充分发挥它们各自的特长,可以将它们结合起来,设计出一种新的DSS构架,即以数据仓库为基础、以oLAP和DM工具为手段(DW+OLAP+DM=DSS)的一整套可操作、可实施的解决方案。其结构框图如图7.1所示。图7.IDSS构架图第43页山东大学硕士学位论文这种构架的主要特点:·数据仓库对底层数据库中的事务级数据进行集成、转换和综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础。·OLAP从数据仓库中的集成数据出发,构建面向分析的数据模型,再使用分析方法从多个不同的视角对数据进行分析、比较。●数据挖掘以数据仓库和数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测。数据挖掘表明,知识就隐藏在日常积累下来的大量数据之中,仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。●在传统的DSS中,数据库、模型库和知识库往往被地设计和实现,因而缺乏内在的统一性。而数据仓库、联机分析和数据挖掘组成的新的DSS构架解决了DSS数据库内数据的不一致问题。·由于内在的统一性,这种新结构很好地解决了相互间的衔接问题。数据仓库为OLAP提供了充分可靠的数据基础,数据挖掘可以从数据仓库和数据库中找到所需的数据,数据挖掘中发现的知识可以直接用于指导OLAP的分析处理,而OLAP分析得出的新知识也可以立即补充到系统的知识库中。·这种新的DSS构架真正重新展示了信息的本质,表明了信息系统的设计观念从处理驱动到数据驱动的转变。从而使信息的重点将逐步从支持面向操作层的OLTP、中间管理控制层的MIS提高到数据模式分析,高层的决策支持和分析预测上来。7.3基于数据仓库的DSS实施决策支持系统的概念提出20多年来,随着决策理论、信息技术、数据库技术、办公自动化、专家系统等相关技术的发展.DDS取得了长足的进展,在许多领域得到应用。DDS己成为许多行业经营管理中一个不可缺少的现代化支持工具。第44页山东大学硕士学位论文决策支持系统是以日常业务处理系统的数据为基础,利用数学的或智能的方法,对业务数据进行综合、分析,预测未来业务的变化趋势,在企业发展、市场经营战略等重大问题上为领导层提供决策帮助的计算机系统。近年来企业(包括商业)部门业务处理以及信息管理系统的广泛使用,既为决策支持系统的建立提供了基础,也为它的应用产生了强大的推动力。与此同时,计算机在理论与技术上的新进展也使决策支持系统的研究与应用水平不断提高,使它从早期的批处理方式演变成今天的联机分析处理方式,也带动了数据仓库、数据库、数据挖掘等新技术的研究。决策支持系统大体上由以下三个部分组成:●对决策用的数据进行管理的决策数据管理子系统。●决策知识、模型管理子系统。●与用户进行对话、接收命令,提供决策结果的交互环境。决策支持系统面向决策,现在经常被称做“联机分析处理”(OLAP)系统,日常业务处理系统处理17常的业务工作,是传统的“联机事务处理”(OLTP)系统。OLAP的数据仓库或数据库是通过对OLTP的数据库进行抽取与净化得到的。在建立决策支持系统中,以下几个问题显得尤为关键:7.3.1决策支持与数据管理系统数据管理系统必须为决策支持的分析处理提供以下服务:●根据主题需要,从oLl’P数据库中抽取分析用的数据。为此在抽取过程中要对原始数据进行分类、求和、统计等处理,抽取的过程实际上是数据的再组织。●在抽取过程中,完成数据净化,即去掉不合格的原始数据,必要时还必须对缺损的数据加以补充。·在改变分析、决策的主题时,可以按主题进行数据查询与访问。●采用脱机大容量存储、联机磁盘存储、内存存储的多级存储模式,第45页山东大学硕士学位论文解决数据量巨大及按照主题、粒度划分的数据组织问题。今天,人们常把满足上述功能需求的数据管理系统称为数据仓库系统。数据抽取与净化、存储组织等,都是建立数据仓库的关键技术。除此之外,在设计数据仓库时,还应特别重视数据的粒度与划分问题。与传统数据库设计类似,好的数据仓库设计也采用概念模型、逻辑模型与物理模型的方法。所不同的是,数据仓库的数据模型是紧紧围绕前面所述的决策分析用的主题等范围进行的。数据仓库系统可以在关键数据库的基础上建立。采用这一方法,开发人员把关系数据库当作一种存储结构,自己设计、实现数据仓库必备的功能。当然也可以利用关系数据库软件厂家提供的某些工具。目前这类工具还比较缺乏。实现决策用的数据管理系统的另一种途径是采用数据库。数据库中的维是指在进行分析预测时可以变化的角度。例如,企业在全国各地的产品销售,可以按时间逐年统计,也可以按地区或者产品分类统计,这里的时间、地区、产品就是不同的维。数据库为面向主题的分析决策提供了更大的灵活性。它支持对按总体统计的详略级别组织的数据进行特殊查询,从宏观的结果逐步向下跟踪产生这些结果的微观数据,或者反过来由底层微观数据逐步向上得到高层的宏观结果。7.3.2模型、方法和知识管理系统采用数据仓库和数据库技术的数据管理子系统将数据进行整理(预处理)和净化之后,形成可靠的易于进行决策的“数据源”(即数据仓库或数据库),这个“数据源”的结构与形式和决策支持系统所采用的模型与知识有关。决策粗略地分为结构化决策支持、非结构化决策支持、半结构化决策支持。一个较好的决策支持系统必须完成这三方面的决策支持。1、模型、方法和知识管理系统在决策支持系统中,模型、方法和知识的管理是核心,它对依问题建立的模型库、方法库和知识库进行管理。模型、方法和知识管理系统的主要任务是:第46页山东大学硕士学位论文●对模型库、方法库和知识库进行维护。模型、方法和知识管理系统必须有对库的维护界面;可根据问题的需要对模型、方法和知识库进行增加、删除和修改,并保证库的一致性:一是系统运行过程调用每个库时不发生矛盾,特别是对知识库的维护更为复杂;二是每种模型、方法和知识都能调用到。●模型、方法和知识管理系统根据用户的要求和数据仓库提供的数据,能有效地选择模型、方法和知识,经系统运行得到相应的结果,并将结果送给交互环境进行输出。2、智能决策支持系统智能决策支持系统一般是在模型、方法和知识管理系统的基础上增加专家系统和数据挖掘与知识发现技术。目前虽然一般的决策支持系统得到了广泛使用,但随着数据量的增大,不确定因素的增多,专家系统技术和各种推理技术对提高决策支持的准确度十分必要,在人也无法描述出数据间的关系时,就提出数据采掘与知识发现技术。近年来数据采掘与知识发现技术发展很快,已达到初步应用的程度。智能决策支持系统将会迅速发展。7.3.3用户交互环境用户交互环境是决策者或决策部门与决策支持系统打交道的界面,它负责接收用户发出的各种命令,根据这些命令调用不同的子系统,并获得处理结果,最后再将这些结果输出给用户。用户输入的命令包括:对确定的主题进行分析、对比、预测等决策处理;对决策用的数据进行各种查询:其它特殊命令,如控制输出形式,要求对输出的结论进行解释等。从内容上讲决策的输出主要是围绕决策主题产生的各种分析、综合与预测的结果。以市场分析、预测的主题为例,其内部就可以包括行情变化趋势,各种商品销售按时间、地区对比、排序,厂家竞争策略,未来销售预测等。交互环境的好坏直接影响着用户对系统的使用。一个好的交互环境,其输入应当简单、易学、易用。其输出应当做到内容丰富、形式活泼。第47页山东大学硕士学位论文在输入方法上可以采用先进的手写输入和语音输入,以及广为使用的多窗口图形化界面技术。在输出形式上可以包括文字报告、图表、可视化图形、语音合成,这些方式相互配合,相得益彰,可以取得令人满意的效果。以上述方式向用户输出分析、决策结果必须解决以下几个关键问题:按以上分析,把数据库、OLAP、数据开采、模型库结合起来形成综合决策支持系统,是更高级形式的决策支持系统。其中数据仓库能够实现对决策主题数据的存储和综合,OLAP实现数据分析,数据开采用以挖掘数据库和数据仓库中的知识,模型库实现多个广义模型的组合辅助决策,专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统,将相互补充、相互依赖发挥各自的辅助决策优势,实现更有效的辅助决策。综合结构体系包括三个主体:第一个主体是模型库系统和数据库系统的结合,它是决策支持的基础,为决策问题提供定量分析(模型计算)的辅助决策信息;第二个主体是数据仓库、OLAP,它从数据仓库中提取综合数据和信息,这些数据和信息反映了大量数据的内在本质:第三个主体是专家系统和数据开采的结合。数据开采从数据库和数据仓库中挖掘知识,并将其放入专家系统的知识库中,通过知识推理的专家系统达到定性分析辅助决策。综合体系结构的三个主体可以相互补充又可以相互结合。它可以根据实际问题的规模和复杂程度,决定是采用单个主体辅助决策还是采用两个或是三个主体相互结合互助决策。利用第一个主体的辅助决策系统就是智能决策支持系统。利用第二主体的辅助决策系统就是新的决策支持系统。在OLAP中利用数据库的有关模型,可以提高OLAP的数据分析能力。将三个主体结合起来,即利用“问题综合和交互系统”部件集成三个主体,这样形成的综合决策支持系统是一种更高形式的决策支持系统,其辅助决策能力将上一个新台阶。7.3.4决策支持系统在商业流通企业的应用方案商业流通企业在我国经过多年的持续发展,随着市场经济的高速发展、改革开放的日益加深,以及受我国加入世贸组织的影响,目前第48页山东大学硕士学位论文在商业流通企业面I临如下问题:公众对服务水平的要求不断提高;国内外新的竞争者不断涌现,行业间竞争日益激烈;成本的提高和利润率的降低;企业组织机构在业务发展过程中的不断重组;现有决策信息来源的匮乏和低效等等。在商业流通企业,不断的革新已成为商业流通企业保持活力和发展的标志。企业信息的充分利用是对商业流通企业革新和发展最急需解决的关键问题之一。利用信息技术来处理日益增多的业务是企业运作的基本保障,目前在各家流通企业,部分已经建立了各种业务系统,并且积累了多年的流通企业历史数据。为了充分地利用信息技术为企业服务,包括从历史数据中发现市场的规律、预测商业流通企业未来的发展趋势、预测和监控风险、辅助决策者发现新的利润增长点、优化企业的资源、帮助企业更加稳健地实现企业的经营目标等等,建立流通企业决策支持系统势在必行,这是面对商业流通企业的一个严峻而又具有挑战性的课题。1、建立商业流通企业决策支持系统的步骤●第一步:开发商业流通企业决策支持系统是一项艰巨的工程,必须分期实现,先建立对企业影响最大的、最迫切的系统功能,先易再难,如先实现OLAP的功能,再实现数据挖掘的功能,所以,首先应该制订开发商业流通企业决策支持系统的理想目标,然后拟定分阶段实施的任务和计划。●第二步:基于企业现有的基础应用系统,包括进销存系统或财务系统等,建立商业流通企业的整体决策信息框架,在此基础之上,构建商业流通企业数据仓库。●第三步:从企业决策层充分挖掘需求,同时可以参照同行的成功案例。在此基础之上,构造面向各种主题的数据模型。●第四步:开发决策支持系统的前端数据展现应用。·第五步:评估系统的质量和功能是否达到第一步所拟定的阶段目标,总结经验、得失,然后再进行下~阶段开发,逐步完成整个系统,达到理想的目标。2、系统描述系统从功能上分为以下四部分:第49页山东大学硕士学位论文●数据规范化处理系统:由于决策的需要,企业要尽可能地收集各种市场信息和生产数据,因此也就存在原始数据来源多、结构混乱的问题。该系统的目标旨在对原始数据进行一定的预处理,从而得到结构简单、格式规范、统一的规范化数据,供专家系统、分析、预测和报告生成使用。同时也使系统数据具有性,系统工作从规范化数据开始。其实这部分就是数据仓库的建立,规范化的数据放在数据库中就是数据仓库。●专家系统:通过长期的工作实践,有经验的企业管理人员和市场营销人员必然会对市场的变化和发展形成一套较为完整的看法,将这些知识总结成规则的形式,即可通过专家系统加以运用。该系统的功能是运用已定义的经验性规则,基于实际的数据情况进行推理,以发现一些值得注意的问题。●进销存分析模型和知识管理系统:有限的经验性知识无法覆盖可能出现的全部情况,因此,还需要从实际数据中发掘出知识中没有提到但有可能对企业行为产生影响的信息。在这种情况下,除了采用经验性知识进行分析推理之外,基于数学方法的统计分析是必不可的。该系统可以运用几种常用的统计分析方法(因果分析、趋势分析等)以及一些经验性公式,在已有数据的基础上进行一定的数算,以得出一些决策者可能会关心的分析结果。·预测模型及知识管理系统:该系统的功能是在现有数据的基础上,对未来的主营方向、市场销售情况等做出预测,以便决策者在考虑下一步行动时借鉴。由于市场的多样性和复杂性,单纯使用传统的预测方法难以收到满意的效果,因此,在本系统中我们采用改进决策树预测方法。3、系统的工作步骤如下所示工作步骤如下所示:●调用数据规范化处理系统,对原始数据进行规范化处理,得到规范数据;·调用专家系统,在规范数据的基础上运行专家系统,得到规则结果;第50页山东大学硕士学位论文●进销存分析模型和知识管理系统,在规范数据的基础上进行分析,得到分析结果;●预测模型及知识管理系统,在规范数据的基础上进行预测,得到预测结果。4、系统功能实例一个商业企业最基本的业务过程可以概括为进一存一销。所谓进是指商品的采购;存是指商品的存贮,即商品的库存:销是指商品的销售过程,即顾客的购买过程。如果经营者为防止市场的价格波动(主要来自两方面:采购环节、销售环节),在一定时期内保证经营成本在预先确定的范围内,或是保持营业利润在预先确定的范围,则要通过DSS的应用确定在现货市场采购。商品销售的决策,如果范围更广一些,可以涉及期货市场。企业决策的制定与市场中许多不确定因素有关:首先,决策者要对形势做出自己的判断,如预计商品采购价格会上升,则可通过期货市场作一个套期保值的期货合同,锁定经营成本。其次,决策者对市场信息采用的定量化分析方法和所得出结果,对决策过程有影响。另外,还与决策者对经营管理和现货、期货市场的知识背景,以及经营者自身素质有关。系统运行的过程如下:●决策者对市场价格波动的趋势和幅度做出估计判断,并选择分析模型系统根据决策者输入的信息,通过推理,对趋势做出定性判断,并给出各种相关分析和预测算法来支持决策者在此基础上讨论的方案,并确定选取本次决策的模型。·系统对不同方案进行技术分析,得出预测结果和相关可性分析,以支持决策者对市场发展趋势的判断。同时,系统还根据决策者个人对投资风险的态度计算出各种方案可能带来的结果。●决策者此时可以得到一个是否有利于做出决策的参考意见,经过权衡做出最终的决策。第51页山东大学硕士学位论文7.4系统实际开发简介遵循上述的相关理论,我们采用Dw+oLAP+DM方式1321进行了开发。利用该系统可以对数据仓库内的各种信息进行跨时间、地点、种类等数据查询和分析,尽可能提高客户盈利能力。通过大量考察和需求分析,我们制定了以下方案:1、软件平台方案:考虑到其图形化界面易于使用,便于管理,操作系统采用Windows95/98、WindowsNT,前端开发工具采用PB7.0,后端数据库采用MS.SQLServer7.0。采用了数据挖掘技术、面向对象技术、ODBC技术和Client/Server结构进行开发。2、数据库的建立系统的第一步是完成数据库设计(如图7.2所示)和数据库应用系统的设计(部门界面如图7.3、图7.4、图7.5)。3、数据仓库的建立在数据库系统应用一阶段之后,利用其数据建立了数据仓库使用了SQLServer的设计平台,如图7.6所示。第52页山东大学硕士学位论文第53页山东大学硕士学位论文第54页山东大学硕士学位论文结束语决策支持系统(DSS,DecisionSupportingSystem),是以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。而数据仓库是近年来兴起的一种新的数据库应用。数据仓库技术用于数据的存储和组织;联机分析技术集中于数据的分析;数据挖掘则致力于知识的自动发现。由于这三种技术内在的联系性和互补性,它们结合起来,构成了一种新的DSS构架,即以数据仓库为基础、以OLAP和DM工具为手段的一整套可操作、可实施的解决方案。在本课题“基于数据仓库的决策支持系统(DSS)研究”中,通过建立一个实际的流通企业应用系统模型,在试图提高决策效率的目标下,提出了一种结合决策树和规则技术思想的改进决策树技术模型。该方法能树的生长,并能帮助选择最优线路。同时通过DSS系统的构建、实施,验证了使用改进决策树技术会使整个系统的决策效率得到明显的提高。虽然我们进行了认真的分析,但由于时间仓促、数据仓库集成的数据量小等原因,本系统还有很多有待改进之处。以后的研究中,我们会进一步分析实际数据,使算法的有效性得到提高。我们认为,对本算法而言,还应该加强以下方面研究:1、在对改进决策树进行搜索时,阔值是算法的核心组成部分,合理的阈值是保证搜索成功的必要前提,算法应该具备对闽值库的编辑、修改功能。比如算法中要求在向下搜索时与闽值误差一旦变大就暂停该分支的搜索,这样有可能不能尽快发现正确的分支,可以考虑一下对闽值的动态调整。这样,找到最优决策的余地就会更大一些。2、关联规则的增加。侧重于规则库的建立和规则的使用。第55页/山东大学硕-Jr掌位论文参考文献【1】李敏强,潘振江,寇纪淞.基于数据仓库技术的决策支持系统的研究与应用.系统工程理论与实践,1998.3.[21高人伯,陈文伟.数据仓库和数据开采相结合的决策支持新技术.计算机世界专题综述,1997.[3]王珊,王秋月.我国数据仓库的应用展望.计算机世界专题综述,1996.【4】石纯一,等.人工智能原理.清华大学出版社,1996.[5]M.Spenik,等著,熊桂喜,等译SQLSERVER7.0系统管理指南清华大学出版社,1999.【6】6王珊,等.数据仓库技术与联机分析处理.科学出版社,1999.[7J蔡自兴,等人工智能及其应用清华大学出版社,1996[8】徐立本.机器学习引论.吉林.吉林大学出版社.1996.[9]郭宜斌.数据仓库技术的基本概念和发展现状.微电脑世界,1996(4).【1o】王珊,罗立.从数据库到数据仓库.计算机世界(专题版),1996,28.[1l】史忠植,李云峰,曹虎.数据仓库及其实现.计算机世界,1998.3—2.[12】曹元大,何宝宏.专家系统与数据库的结合.北京理工大学学报,1998年2月.【13】TomHanunergren著,曹增强,王备战,等译.数据仓库技术(DataWarehousing:BuildingtheCorporateKnowledgeBase).中国水利水电出版社,1998.[14】H码inders.GILL,等著,王仲谋,刘书舟译.数据仓库——客户/服务器计算指南.清华大学出版社,硬蒙舒斯特国际出版公司,1997.【15】louAgosta.数据仓库技术指南.人民邮电出版社2000.11第56页山东大学硕士学位论.TK[16]高人伯.数据仓库与OLAP的数据组织.国防科技大学,1997.f171程继华,施鹏飞.多层次关联规则的有效挖掘算法.软件学报,1998,V01.9,No.12.【18]田金兰,黄刚.数据挖掘工具:关联规则的发现.计算机世界《产品与技术》版,1999.5.31.[19】陈栋,徐洁磐.Knight:一个通用知识挖掘工具.计算机研究与发展,1998,V01.35,No.4,.[20]周欣,沙朝锋,朱扬勇,施伯乐.兴趣度一关联规则的又一个阈值.计算机研究与发展,2000,V01.37,N0.5.【21]李德毅.从网络时代走向信息时代——数据开采和知识发现研究的回顾与展望.计算机世界《产品与技术》版,2000.1.3.【22]朱扬勇,周欣,施伯乐.规则型数据采掘工具集AMINER.高技术通讯,2000,V01.10,No.3..[23]Resnik,P.SemanticSimilarityinaTaxonomy:AnInformation—BasedMeasWeanditsApplicationtoProblemsofAmbiguityinNaturalLanguage.JournalofMachineLearningResearchVolume1l,1999.[24]Artale,A.andFranconi,E..ATemporalDescriptionLogicforReasoningaboutActionsandPlans.JournalofMachineLearningResearchVolume9,1998.【25]Jaakkola,T.S.andJordan,M.I..VariationalProbabilisticInferenceandtheQMR-DTNetwork.JournalofMachineLearningResearchVolume10,1999.[26】Mazer,E.,Ahuactzin,J.M.,andBessiere,P..TheAriadne’SClewAlgorithm.JournalofMachineLearningResearchVolume9,1998[27】Halpem,J.Y.DefiningRelativeLikelihoodinPartially-OrderedPreferentialStructures.JournalofMachineLearningResearchVolume7,1997.[28】Ledeniov,O.andMarkovitch,S..TheDivide—and—Conquer第57页山东大学硕士学位论文Subgoal-OrderingAlgorithmforSpeedingupLogicInference.JournalofMachineLearningResearchVolume9,1998一【29】Chien,S.,Stechert,A.andMutz,D..EfficientHeuristicHypothesisRanking.JournalofMachineLearningResearchVolume10,1999[30】Bimbaum,E.andLozinskii,E.L..TheGoodOldDavis—PutnamProcedureHelpsCountingModels.JournalofMachineLearningResearchVolume10,1999~[31】Gogic,G.,Papadimitriou,C.H.,andSideri,M..IncrementalRecompilationofKnowledge.JournalofMachineLearningResearchVolume8,1998.[32】Wiebe,J.M.,O’Hara,T.R,Ohrstrom—Sandgren,TandMcKeever,K.J..AnEmpiricalApproachtoTemporalReferenceResolution.JournalofMachineLearningResearchVolume9,1998..【33]Backstrom,C..ComputationalAspectsofReorderingPlans.JournalofMachineLearningResearchVolume9,1999.[34】wHInmon.Whatisadatawarehouse.http://www.cait.wustl.edu/cait/papers/prisrrdvoll_n01/.[35】DirectoryofDataWarehouse.DataMining,andDecisionSupportResources.http://www.infogoal.com/dmc/dmcdwh.htm.【36]RalphKimballData.WarehouseArchitecture.http://www.dbmsmag.com/9801d05.html..[37】R.S.MichalskiJ.G.CarbonellT.M.Mitchell.MACHINELEARNINGAnArtificialIntelligenceApproach.Springer_Verlag.1998第58页山东大学硕士学位论文致谢本论文的研制工作是在导师韩芳溪副教授、赵合计副教授以及王金淮高级实验师的悉心指导和关怀下完成的。在此,谨向各位老师表示诚挚的谢意!在选题、研制到完成的整个过程中,自始至终得到韩芳溪副教授的竭诚帮助和精心指导。韩芳溪副教授活跃的学术思维、严谨的治学态度以及为人师表的品德,都使我受益匪浅。特向韩芳溪副教授表示最诚挚、最衷心的感谢!在研制过程遇到困难时,不断得到赵合计副教授有益的建议和教诲,对赵合计副教授大力帮助表示深深的感谢!感谢王金淮高级实验师在研究方法、方向上的热情帮助和指导!感谢我所有的家人,是他们的支持、鼓励和无微不至的照顾帮助我完成了学业。最后,再次感谢关心、教育、帮助和支持我的所有人!第59页弼谶N。一;{㈠_弋,山东大学硕士学位论文发表论文目录2、《非圆曲线的最少节点拟合法》《组合机床与自动化加工技术》,1998年第7期,第二作者2、《基于最少节点的凸轮曲线拟合方法》《西北轻工业学院学报》,16卷,第3期,1998年9月,第三作者2、《线性规划在ERP中的应用研究》(已录用)《山东建筑工程学院学报》,2001年第4期,第一作者第60页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuoyibo.cn 版权所有 湘ICP备2023022426号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务