1.18k likes | 1.29k Vues
根据餐馆销售数据探讨餐馆管理与运营. 成员:席与焜 2012010836 、苍宇 2012010812 、董怡辰 2012012828 、姜祺 2012010829 、贾斯然 2012010841. 数据预处理. 云海肴后备 sql 文件. 数据预处理. 程序:实现分割. 数据预处理. 分割后的文件. 数据预处理. 利用编写的 php 文件进一步处理. 数据预处理. 数据预处理. 删除重复的数据 删 除员工的数据 删除外卖打包的数据 删除明显错误的数据(人数与点餐数不合常理) 将菜品编号方便后期数据处理. 菜品的编号. 一周七天的总客流量.
E N D
根据餐馆销售数据探讨餐馆管理与运营 成员:席与焜2012010836、苍宇2012010812、董怡辰2012012828、姜祺2012010829、贾斯然2012010841
数据预处理 • 云海肴后备sql文件
数据预处理 程序:实现分割
数据预处理 • 分割后的文件
数据预处理 • 利用编写的php文件进一步处理
数据预处理 • 删除重复的数据 • 删除员工的数据 • 删除外卖打包的数据 • 删除明显错误的数据(人数与点餐数不合常理) • 将菜品编号方便后期数据处理
Apriori算法筛选频繁项集 • 为每一道菜确定其代号,活动类特殊菜品用-1统一替代(241为米饭) • 利用正则表达式从不标准sql文件中析取我们需要的数据项集 • 数据预处理——清洗无效数据与噪声(去除系统故障导致重复数据;外卖带走数据;员工餐饮;数据记录错误) • 使用Apriori算法时删除所有包含241与-1的数据项
L2中的数据集 总样本数量: 20839桌
K-means聚类分析 • 通过数据集成将点单数据与结单数据结合,进行元组重复检测和数据冲突检测 • 进行维规约,合并点单中单个菜品金额、该菜品该桌点单数与菜谱中菜品价格三维 • 通过数据规范化使得其大小适合聚类分析,且符合我们分析的需求
酒水销量与价格聚类分析 • 第一类:销量在181上下,价格14元左右 • 范例:百香优格(冷)——销量154,价格12 • 仙草奶茶(热)——销量134,价格14 • 鲜榨木瓜牛奶——销量188,价格18 • 第二类:销量在94上下,价格40元左右 • 范例:鲜榨玉米汁(扎)——销量78,价格38 • 鲜榨薄荷柠檬汁(扎)——销量93,价格39 • 第三类:销量在1639上下,价格20 • 范例:自制米酒——销量1525,价格12
酒水销量与价格聚类分析 • 离群点 • 绿野仙踪——销量2068,价格9 • 地道云南白酒——销量12,价格288 • 自制米酒(扎)——销量2036,价格39
热菜销量与价格聚类分析 • 第一类:销量在759上下,价格63元左右 • 范例:抚仙湖飘香鱼——销量769,价格56 • 普洱茶香酥虾——销量739,价格69 • 第二类:销量在460上下,价格32元左右 • 范例:清炒板蓝根——销量310,价格39 • 清炒空心菜——销量464,价格29 • 第三类:销量在5948上下,价格35元左右 • 范例:黑三剁——销量5012,价格38 • 傣味菠萝饭——销量7334,价格39
热菜销量与价格聚类分析 • 离群点 • 老昆明大酥牛肉——销量1901,价格86 • 老奶洋芋(葱香)——销量6192,价格9(员工价2) • 傣味香茅草烤罗非鱼——销量9393,价格56 • 菌临天下——销量196,价格88
就餐时间、每桌人数、人均消费聚类分析 • 第一类:1人,72min,人均消费502元-0.2% • 第二类:2人,59min,人均消费154元-4% • 第三类:2人,48min,人均消费99元-19% • 第四类:3人,88min,人均消费86元-10% • 第五类:3人,47min,人均消费67元-29% • 第六类:3人,32min,人均消费36元-8% • 第七类:5人,164min,人均消费90元-2% • 第八类:7人,64min,人均消费64元-5%
Two-way ANOVA • 双因子方差分析: 人数 与 时间段, 第几个星期一 • 来源 自由度 SS MS F P • 时间段 22 26963.8 1225.63 47.28 0.000 • 第几个星期一 25 5861.1 234.45 9.04 0.000 • 误差 550 14258.6 25.92 • 合计 597 47083.5 • S = 5.092 R-Sq = 69.72% R-Sq(调整) = 67.13%
第几个 均值(基于合并标准差)的单组 95% 置信区间 • 星期一 均值 -------+---------+---------+---------+-- • 1 6.5217 (---*--) • 2 6.5652 (---*--) • 3 6.9565 (---*--) • 4 5.0870 (--*---) • 5 5.2174 (---*--) • 6 20.1304 (---*--) • 7 9.0000 (--*--) • 8 4.8696 (--*---) • 9 4.8696 (--*---) • 10 5.2174 (---*--) • 11 3.6957 (--*---) • 12 5.3478 (---*--) • 13 6.8261 (--*---) • 14 6.5217 (---*--) • 15 9.6522 (--*---) • 16 6.6957 (--*---) • 17 8.3913 (--*--) • 18 6.3478 (---*--) • 19 5.5652 (--*---) • 20 5.7826 (---*--) • 21 5.1739 (---*--) • 22 9.3913 (---*--) • 23 9.9565 (---*--) • 24 5.3043 (---*--) • 25 6.3478 (---*--) • 26 3.6522 (--*---) • -------+---------+---------+---------+-- • 6.0 12.0 18.0 24.0 第六组是明显的偏离组别
残差图 第72行,第134行,第498行是偏离数据点。与拟合值比较,大致呈三角形,说明一部分点不可信。 我们发现134行隶属于第六个星期一,因此将改天数据删除。
第几个 均值(基于合并标准差)的单组 95% 置信区间 • 星期一 均值 ----+---------+---------+---------+----- • 1 6.52174 (------*-----) • 2 6.56522 (------*-----) • 3 6.95652 (-----*------) • 4 5.08696 (------*------) • 5 5.21739 (-----*------) • 7 9.00000 (------*------) • 8 4.86957 (-----*------) • 9 4.86957 (-----*------) • 10 5.21739 (-----*------) • 11 3.69565 (-----*------) • 12 5.34783 (------*-----) • 13 6.82609 (------*-----) • 14 6.52174 (------*-----) • 15 9.65217 (-----*------) • 16 6.69565 (-----*------) • 17 8.39130 (------*------) • 18 6.34783 (-----*------) • 19 5.56522 (------*-----) • 20 5.78261 (-----*------) • 21 5.17391 (-----*------) • 22 9.39130 (-----*------) • 23 9.95652 (-----*------) • 24 5.30435 (------*-----) • 25 6.34783 (-----*------) • 26 3.65217 (-----*------) • ----+---------+---------+---------+----- • 3.0 6.0 9.0 12.0