摘 要:将数据仓库理论运用于我国星级酒店的决策管理,提出了星级酒店数据集市雪花模型设计方法。并对相关的技术问题进行了细致的探讨。将星型模型和雪花模型的特色和优势相结合,对雪花模型在星级酒店数据集市中的应用进行了探索。
关键词:星级酒店;数据集市;雪花模型
1 星级酒店经营数据集市的“星型模型”
数据集市是数据仓库的一个子集,它面向部门级业务、面向某个特定主题的小型数据仓库。实际上,多个相互联系的、围绕一个宏观大主题的多个数据集市的集成,就构成了数据仓库。
建立星级酒店经营数据集市的数据模型,一般都是在对应用主题分析的基础上,首先建立星型模型。“星型模型”是数据仓库(集市)广泛采用的数据模型。它能准确、简洁地描述出实体之间的逻辑关系。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。
事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需求,基础事实表中需要记载的是客人最低粒度的消费事实。即用何种促销手段使某位客人在某个时间进行了何种形式的消费,消费金额产多少。因此,在事实表中,要准确记载每位客人的消费形式、消费价格、促销方式、促销折扣、消费金额、成本、利润等度量数据。
维度是观察事实、分析主题的角度。维度表的集合是构建数据仓库数据模式的关键。维度表通过主键与事实表相连。用户依赖维表中的维度属性,从事实表中获取支持决策的数据。围绕经营主题,星级酒店经营数据集市有以下典型的维度及其属性:
客户维:在客户维中,需要建立客户的基本信息。为决策分析需要,把客户分为常住客户和流动客户。
消费项目维:经营星级酒店,要向客人提供高质量的消费,消费项目多种多样。把经常性的消费项目归纳为:客房、餐饮、娱乐、其他等四类。每类消费都有消费内容的细节描述。
时间维:在数据仓库的多维数据结构中,时间维往往是不可少的一个维度。因为每项“销售事实”都是在一定的时间或者时间段内发生。针对需求,时间维采用时、日、月、年四个属性。
促销维:行业的竞争,使各酒店都采用了形形色色的促销方式。促销增加了营业额,但同时也增加了运营成本。促销的形式和效果,对管理者的决策具有重要价值。在促销维中描述了几种典型的促销方式:打折、中介、联营等作为维度属性。
根据分析主题和需求,建立星级酒店营销数据集市星型数据模型,如图1所示。
2 星型模型的优势和不足
2.1 星型模型在数据仓库中具有很大优势
(1)星型模型围绕一个确定的主题,体现了数据仓库对数据结构和组织的要求;
(2)星型模型简单、清晰的结构准确反映了用户的需求,使用户易于理解;
(3)星型模型维度表包含了用户经常查询和分析的属性,优化了对数据库的浏览,在维度表和事实表之间没有任何“迷宫”。使查询的过程变得简单而直接;
(4)星型模型为olap提供了良好的工作条件,使olap能通过星型连接和星型索引,显著提高查询性能。
2.2 星型模型也有明显的不足
(1)星型模型是非规范化的,星型模型以增加存储空间为代价来提高多维数据的查询速度,造成很大的数据冗余;非规范化的、含有大量冗余的维度表,会使数据切片变得更加复杂;
(2)由于星型模型中各维度表主键的组合构成事实表的主键。当星型模型的维不能满足要求时,维的变化是非常复杂、耗时的;
(3)维度属性的复杂形成的大维度问题。大维度中的长文本字段占用存储空间,维度数据不易更新和维护;向大维度表填充数据难度增大;对事实表的查询涉及大维度表时,会影响效率;
(4)当维的属性复杂时,处理维的层次关系比较困难;
(5)对“多对多”关系,星型模型无能为力。
3 星级酒店经营数据集市的“雪花模型”设计
(1)客户维的“雪花化”。考虑数据分析的需要,把客户分为两种类型:常住客户和流动客户。如外地派出机构或办事处工作人员租用酒店时间相对较长,属常住客户;临时性出差、旅游住店属流动客户。这样分类后,有利于“一对一”服务,稳定常住客户,吸收流动客户。此外,客户维中的有些属性与事实表中的度量数据无直接关系。例如:客户的基本信息,将这些信息分离,使维表和事实表尽量“精练”。提高了多维查询的速度。当我们需要这些信息时,才到分离的信息中查找。
(2)消费项目维的“雪花化”。星型模型中列出了四类消费项目,这四类消费项目之间无直接的关联的属性,此外,同一客户不会是每种项目都进行消费,更不会同时进行几种消费。把消费项目维按维的属性类别分解,不仅有利于维表的规范化,减少维表和事实表的数据冗余,而且为数据的聚集打下了基础。
(3)时间维的“雪花化”。时间维中的四个时间属性,是典型的层次关系。可按维属性的层次分解。其中,把“时”、“日”两个属性放在一起,是因为,需要了解同一天不同时间段客户的消费需求。
(4)促销维的“雪花化”。是为了分类核算各种促销手段的成本和效果,以利今后对促销策划的依据。
图 2 星级酒店经营数据集市雪花模型
总之,雪花模型要在星型模型的基础上,描述出属性间清晰的层次和分类关系。把图1所示的星级酒店营销数据集市的星型模型“雪花”化,就得到该集市的雪花模型。如图2所示。
4 星级酒店经营数据集市雪花模型的应用
雪花模型是星型模型的衍生,星型模型是雪花模型的“父类”。 雪花模型和星型模型各具特色。在研究数据仓库(集市)数据模型的应用时,既要用雪花模型的优势弥补星型模型的不足;还要充分继承星型模型的优势,扬长避短,使数据模型能在构建数据仓库和开发应用中更好地发挥作用。
现假定:星级酒店经营数据集市经过etl过程,将各种异构数据源中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。并且规范的元数据已经能有效地控制和支撑数据集市的运行。
4.1 雪花模型在处理大维度方面的应用
数据仓库的大维度问题虽然可以通过事实表来体现,但这种方法导致事实表极为庞大且难于管理,当层次定义发生改变时,事实表需要重新设计和构建。
雪花模型通过对维度表的属性按层次和类别进行分解,将非分析数据进行分离,使大维度表得到有效的规范化处理,较好地消除了数据的冗余,从而使事实表的字段数和总长度减小,以节省存储空间。解决了星型模型中复杂的大维度问题。
4.2 建立使用频率高的聚集事实表
图 3 星级酒店数据集市四路聚集事实表
事实表中数据的细节程度或综合程度的级别称为数据“粒度”。粒度是数据仓库事实表的重要的特征。不同的需求,对粒度要求不同。数据集市需要保留最低层次的细节数据,以满足数据抽取、信息查询和数据挖掘的需要;另一方面,为提供决策支持,需要多方面的高粒度的汇总数据。因此,需要把使用频率高的汇总数据存放在聚集事实表中。雪花模型维度表清晰的层次关系和明确的分类为建立聚集事实表创造了条件。
根据聚集的概念,在有m维的雪花模型或星型模型中,可以建立多个n度聚集事实表(n<=m)。所谓n度聚集,就是把m维事实表中的n个维度提升到一定的层次,其余的(m-n)维保持最低层次。这样生成的事实表同相应衍生出的维表形成一个简明的星型模型。例如:为了分析酒店通过打折促销对酒店客房经营的的利润造成的影响,可通过把时间维取需要分析的时间层次,例如年;把客户维提升到客户类别;把消费项目定格在“客房”,把促销形式定格在“打折”,将对应的汇总数据构成聚集事实表,同新的维表一起构成雪花模型进行四路聚集。如图3所示。
用同样的方法,可以通过雪花模型获取住店客户在本酒店餐饮、娱乐方面的消费情况,用以分析住店客户对餐饮、娱乐等消费的连带关系和推动。
通过各种聚集,不仅满足了联机分析处理和数据挖掘对各种数据粒度的要求,更可喜的是,由于聚集产生的是结构简单的星型模型,使星型模型的各种优势在这里得到发挥。可直接通过聚集事实表得到很多决策者所关心的支持决策的数据。
在促销手段方面,可通过分析促销手段的成本和效益,策划下阶段的促销形式。
在营销项目方面,聚集事实表直接提供酒店一月(年)中,客房、餐饮、娱乐等方面的营业额和利润;客户对豪华间、标准间的需求;对中餐、西餐的喜好;策划酒店的配套设施和投入。
4.3 雪花模型在联机分析处理(olap)中的应用
联机分析处理(olap)是基于数据仓库的一种多维数据分析技术,是数据仓库的重要应用。olap从数据仓库中的某个特定主题的集成数据出发,使用多维分析方法,对客户端的请求,对数据进行切片、切块、聚合、钻取、旋转等操作,并通过直观的方式从多个角度、多个侧面、多个层次及多种数据综合程度对多维数据进行分析、比较,并把结果用表格或图形方式显示给用户,使用户了解数据背后蕴含的规律,以达到获取相关决策信息的目的。
雪花模型及以雪花模型为依托生成的各层次的聚集事实表,为olap提供了良好的工作条件。例如,在对数据进行上钻或下钻时,只需要向olap工具提供相应的不同粒度的聚集事实表即可。
为了改善数据汇总查询的性能,可以建立一个汇总表,将常用的星级酒店营销数据集市的全部聚集事实表的表名、粒度、相应的维度属性存放在汇总表中,并通过数据仓库元数据进行管理。这样,olap就能根据汇总表的指示,选用不同粒度的聚集事实表进行切片、切块、聚合、钻取、旋转等操作,提高了分析速度,弥补了雪花模型在查询速度方面的不足。
总之,雪花模型提高了数据仓库应用的灵活性。使系统进一步专业化和实用化。
5 结束语
星型模型和雪花模型是基于关系数据库的数据仓库的两种典型的数据模型。从形式上看,雪花模型比星型模型结构复杂,但设计好的雪花模型却有星型模型难以替代的应用价值。在实际应用中,要对具体问题作出具体分析,还要针对olap和挖掘工具的需要,在两种模式之间作出权衡和选择。使数据模型在数据仓库的构建和应用中发挥出更好的作用。
参考文献
[1]平静,林平瑞.元数据管理及其在数据仓库中的应用[j].平原大学学报,2006,(8).
[2]彭晓东.基于数据仓库的综合决策支持系统的设计研究[j].电脑开发与应用,2003,(6).