490 likes | 674 Vues
脑卒中发病环境因素分析及干预. 朱建青 苏州科技学院数理学院 zjq@mail.usts.edu.cn. 汇报提纲 一、题 目 二、问题背景 三、参考解答 四、存在问题. 一、题 目. 2012C 题:脑卒中发病环境因素分析及干预.
E N D
脑卒中发病环境因素分析及干预 朱建青 苏州科技学院数理学院 zjq@mail.usts.edu.cn
汇报提纲 一、题 目 二、问题背景 三、参考解答 四、存在问题
一、题 目 2012C题:脑卒中发病环境因素分析及干预 脑卒中(俗称脑中风)是目前威胁人类生命的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。这种疾病的诱发已经被证实与环境因素,包括气温和湿度之间存在密切的关系。对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。
数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。请你们根据题目提供的数据,回答以下问题: 1.根据病人基本信息,对发病人群进行统计描述。 2.建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。 3.查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合1、2中所得结论,对高危人群提出预警和干预的建议方案。
二、问题背景 脑卒中 脑卒中俗称脑中风,其病死率高达30%。最新数据显示,脑卒中目前已成为我国位居第一的致病死因,发病率是心肌梗死的4到6倍,而且致残率和复发率也非常高,30%的患者在第一次发病的时候就被夺去了生命。每年我国脑卒中新发200万,死亡超过150万,已经超过癌症的死亡率。每年的10月29日是世界卒中日。 2011年世界卒中日的主题是“每6秒钟,就有1人死于卒中,不论年龄、性别”。 2012年世界卒中日的主题:“关注脑卒中,立即行动”。 口号:“防治脑卒中越早越好”。 “早期发现并控制危险因素,远离脑卒中”。
目前,卒中的发病年龄有降低的趋势。据统计,45岁以下成人发生的卒中即“青年卒中”约占全部卒中的5%至15%,青年人卒中的发病率越来越高,其祸首为不健康的生活方式。 全国每21秒就有一人死于卒中,脑卒中防控形势非常严峻,脑卒中发病率正以每年近9%的速率上升,是欧美发达国家的4到5倍,是日本的3.5倍。随着慢性病发病年龄的提前和人口老龄化趋势加速,我国脑卒中防控形势将更加严峻。
气候变化对健康的影响 2007年世界卫生日的主题:保护健康不受气候变化的危害 08年世界卫生日的主题:应对气候变化,保护人类健康。 2009年的世界气象日,人们的目光再次聚焦这个主题。 气候变化及因此引起的生态环境的变化对人类健康产生了重要影响。气候变化对健康的影响在一定程度上是可以预防的。国外早就开展这方面的研究,如为了减少热浪对健康的危害,许多国家建立了热预警预报系统(HHWS,Heat Health warning System),做到防患于未然,大大降低了热相关疾病的死亡率和发病率。我国也逐步开展这方面的研究,如上海开展了热浪监测与健康预警系统的研究,南京、南昌、杭州、苏州等也有生活气象指数的报道。
问题来源 题目是与苏州市疾控中心合作研究项目的基础上提炼的。项目研究苏州地区慢性病发病与环境因素的相关性,以脑卒中为例,探究脑卒中与气温、气压及相对湿度间的相关程度以及脑卒中的发病率与病人自身因素间的关系,并进一步分析影响脑卒中发病率的一些其他可能的因素。 苏州市疾控中心提供脑卒中发病病例信息等资料数据,并从当地气象部门获取气象信息。
三、参考解答 问题1 整理数据,对部分缺失数据在分类讨论时不予考虑,对明显有错误的数据和不在此时间范围的数据删除。根据病人基本信息,对发病人群进行统计描述 1、性别与职业统计 整理数据,得到性别、职业数据完整的共有44059组数据
发病人群中男性为23833人,占54%,女性20226人,占46%,男性略多于女性。其中29721人职业为农民,占67%,相比其他职业,农民属于发病主要人群。这主要因为农民的生活没有规律,丰收季节时过度劳累,生活条件相对较差;医疗设施不完善,不能有效的检验出疾病早期的症状;没有定期的医疗体检使病情不能及早的发现并治疗;经济状况较差,在发病早期不愿花钱去较好的较贵的医院进行治疗。另外有6635人职业为退休人员,占15%。退休人员是脑卒中发病主要人群的原因为随着年龄的增长,其它诱发脑卒中的危险因素包括:高血压、心脏病、糖尿病、高血脂的增加所致。
2、发病人数与年龄统计 年龄数据的直方图 从图可以看出,发病率与年龄呈类似的左偏正态分布。当年龄小于75岁时脑卒中发病率随着年龄的增长而增长;当年龄大于75岁时发病率随着年龄的增长而较小。发病平均年龄为69.78,主要集中在51岁到90岁之间。
下面对年龄的分布进行拟合,假设偏态分布分布 其中 为参数。 可以通过以下方法对这三个参数进行估计:极大似然方法;利用最小一乘的方法使得对应分位数相等;使分布的分位数与对应样本分位数相等, 解方程组确定参数。 以上3种方法的结果是比较接近的。为简单起见,可选 ,再利用最小一乘法则确定另外两个参数可得: ,此时检验统计量 。
年龄数据的拟合分布 用卡方检验认为数据服从拟合的分布。利用上述拟合的分布,可知年龄1/4分位数为62.156,中位数:70.984,3/4分位数78.992。其中,数据落在60-80岁中间的概率为0.575,即约有57.5%的发病人年龄在60-80之间,属于高危人群。
问题2 1、多元线性回归 1.1不考虑性别、职业、年龄的影响,直接分析发病人数与环境因素的关系。
从上述结果可以看到,如果选择全部变量做回归方程不是很理想,除了平均相对湿度(RH )以外其余项均不显著。 下面用逐步回归的方法,进行变量选择,得回归方程如下: 其中,Y为发病人数,平均相对湿度(RH)对应的P值( ),可知此因素对发病人数的影响是显著的。其系数小于零,发病人数与湿度呈负相关关系。其残差图见下图。
通过上图(右)残差图可以看出,数据绝大部分集中在-2--2之间,但是有2个点的标准化残差超过了5,是明显的异常值点,去掉这两个异常点进行回归,得到新的回归方程: (3)
其系数与回归方程都通过了检验,其残差图见下图。其系数与回归方程都通过了检验,其残差图见下图。 与前面的回归模型相比,此模型的残差图要好很多。残差的标准误差也由原来的16.24降为15.88。用回归方程(3)对随机选取的第714点进行预测,真实值:发病人数38人,平均相对湿度63,从而预测值:43.019,其相对误差约为:
1.2 分性别考察发病数与环境因素的关系。 男性每日发病的均值为22.837,女性每日发病的均值为19.498,通过单因素方差分析 ,可知男性平均每日发病的人数要明显的高于女性。 对男性发病数与环境因素做多元线性回归,其结果与1.1类似,平均相对湿度对男性发病人数的影响显著,呈负相关关系。对女性发病人数与环境因素利用逐步回归进行变量选择,得到“最优”回归方程:
从上表的结果可以看出,回归系数除平均相对湿度外,都不显著。改进模型,增加交互作用和二次项,再进行逐步回归,剔除不显著项,结果见下表 此时模型中的所有项均显著,贡献率 比之前有所提高,残差的标准误降低了,因此最终选择模型:
另外考虑职业、年龄范围(60-80)及发病人数不低于60人的讨论与上面类似,得相应结果,在这里不一一 列出。 如对农民发病数,最终模型选择
2、 发病人数与平均气温 2.1 发病人数与平均气温。 通过1中1.1的回归分析,可知发病人数与气温之间没有显著的线性关系。 发病人数与平均温度的散点图
从上图中可看出气温在-2-2℃之间,发病人数出现了最大值。在5℃附近出现了第二大值。对不同温度水平下的发病人数做单因素方差分析,结果见下表。
值P<<0.05,则不同组别之间的均值有显著的差异,由于温度水平较多,我们统计不同水平下发病人数均值较大所对应的温度水平,当平均发病人数>60时,其所对应的温度水平见下面茎叶图 在所有平均发病人数大于60人的温度水平共有13组,其中落在-2-2 ℃之间的就有5组,占38%,可以认为当温度在此范围内发病人数的均值偏大。
2.2对男、女性发病人数与平均气温的关系见下图。男女平均发病人数大于40人的温度水平共有6组,在-2-2 ℃之间的有3组,比例为50%,女性平均发病人数在温度为1 ℃达到了最大值54,在温度为33.5 ℃达到了次最大值。可见温度范围在-2-2 ℃时发病人数的均值偏大。
2.3 高危人群的分析与前面的分析结果类似,其方差分析的结果也是显著的。在发病人数大于45人的6组温度水平中,在-2-2 ℃之间的个数为3组,比例为60%。可见在此温度范围内,60-80岁的高危人群平均每日的发病人数也较大,应注意防范。 2.4对农民发病人数的方差分析结果也是显著的,在发病人数大于40人的温度水平中,在-2-2 ℃之间的个数为3组,共7组,比例为43%。
2.5 发病人数(>=60)与与2.1-2.4分析的结论不同,发病人数较多与平均气温有显著的负相关关系,见右图。 其线性回归结果见下表
单因子线性回归方程为: 平均气温与发病人数大于等于60人的高峰时期呈显著的负相关关系。其残差图(见下图),可以看到有两个比较显著的异常值点,下面将这两个点剔除做回归,其结果见表7。
表7 可以看出此时回归方程并不显著,从而这两个异常值对整个回归分析的影响非常的明显,其对应的平均温度值在0-5之间。对发病高峰时期与温度做方差分析,结果见下表,方差分析的结果也是不显著的。
3 发病人数与当日温差 3.1 发病人数与当日温差:回归分析的结果并不显著,两者无显著线性关系,见下图。 当温差在5-7 ℃和11-13 ℃时,出现了离群值。但发病人数温差单因素方差分析显示不同温差水平下发病人数的均值没有显著的差异。 发病人数与当日温差的散点图
3.2 分性别讨论发病人数与当日温差的关系、高危人群与当日温差的分析以及农民与当日温差与整体一致,不同温差水平下回归分析与方差分析结果均不显著。 3.3 对发病人数大于等于60人的时期与最高、最低温度及温差分析,其矩阵图见图11。
可以看出,每天的最高和最低温度有明显的线性关系,而将发病人数(>60)与当日的最高、最低温度、温差分别做回归分析,发现发病人数与当日的最低气温(LOWTEMP)有明显的线性相关关系,这也是区别于前面的很明显的一个结果,回归方程如下:可以看出,每天的最高和最低温度有明显的线性关系,而将发病人数(>60)与当日的最高、最低温度、温差分别做回归分析,发现发病人数与当日的最低气温(LOWTEMP)有明显的线性相关关系,这也是区别于前面的很明显的一个结果,回归方程如下: 从而对于发病人数较多的时期,发病人数与当日最低温度呈负相关关系。
4、 发病人数与季节(月份) 4.1依照时间顺序画出每日发病人数的时间序列图(见下图)。可以看出数据分成4部分,分别对应着07-10年4个年份。07、09年发病人数明显少于08年和10年。
首先用Bartlett检验不同月份下的发病人数的方差是否有显著差异。其值<<0.05,说明不同月份之间的方差存在显著差异,其箱线图见下图。
将12个月份的方差排序,方差最大的三个月为1-3月份。我们用单因素方差分析讨论不同月份的发病人数有无差异。其结果见下表。说明了不同月份存在显著差异,1-5月份的均值偏大。结合方差检验的结果可知,在冬季(1-3月份)属于发病的高发期,应注意防范。
4.2 分性别讨论脑卒中发病以及对高危人群发病的高发期,与整体讨论的结论是一致的。 4.3 对于不同年份,对农民发病人数绘制散点图见右图。 农民每日发病人数的时序图 农民发病人数的时间序列图(上图)也分成了比较明显的4个部分。关于农民发病人数与月份的单因子方差分析结果也是显著的,1-3月份亦为其发病高发期。
4.4 发病人数(>=60)与不同季节(月份) 上图可以看出,发病人数(>=60)在1月份有明显的区别于其他月份的异常值,可见1月份发病人数波动会较大。其Bartlett检验的,也证明了不同月份中的发病人数(>=60)的方差有显著差异,方差最大的三个月为:1,2,3月份。另外,相对于1-5月份,6-12月份发病人数较多的天数也较少。下面将发病人数与月份做单因子方差分析,其结果见下表。
方差分析的,可见发病人数在平均水平上没有很明显的差异。从而,冬季(1-3月份)发病人数(>=60)的均值没有显著差异,但由于其方差要比其他月份大,这也使得发病人数增加的可能性加大,应注意防范。
5 发病人数与气压 5.1高危人群发病人数与气压
上图的散点图呈现喇叭状,当气压增大时,高危人群发病人数有增大的趋势。但是由线性回归的结果并不显著,即高危人群发病人数与平均气压没有显著的线性关系。下面讨论不同气压水平下的高危人群发病人数的差异。其方差分析的结果见下表。
其P值>0.05,则不同气压水平下高危人群的发病人数的均值没有显著差异。由于气压数据重复性不高,要进行齐次性Bartlett检验,可将气压水平适当分组,每5个单位一组得到的P值<<0.05。当气压超过1004时高危人群发病人数有较大的波动。其P值>0.05,则不同气压水平下高危人群的发病人数的均值没有显著差异。由于气压数据重复性不高,要进行齐次性Bartlett检验,可将气压水平适当分组,每5个单位一组得到的P值<<0.05。当气压超过1004时高危人群发病人数有较大的波动。 5.2 男性发病人数与平均气压也没有显著的线性关系。将气压数据分组,建立与男性发病人数的对应,进行等方差检验,其P值<<0.05,可见不同组别之间男性发病人数的方差有显著的差异。当气压超过1004(第三组)时,发病人数有增加趋势。单因素方差结果不显著。
5.3发病人数(>=60)与气压 从上图第一行的三个散点图可以看出,图形都呈现喇叭状,当气压增大时,发病人数有增大趋势。线性回归的结果也是显著的。发病人数(>=60)与气压有显著的正相关关系。
问题3:对高危人群提出预警和干预的建议方案问题3:对高危人群提出预警和干预的建议方案 1 经过查阅和搜集文献得知脑卒中高危人群的重要特征包括:高血压(最危险因素);短暂性脑缺血发作;心脏病;糖尿病;脑卒中史;吸烟;酗酒;高血脂症;高同型半胱氨酸血症;超重与肥胖;体力活动与运动少;高盐饮食;药物滥用;不可改变因素(年龄,性别,遗传(家族史)等);诱发因素(过度紧张,激动,兴奋,愤怒和疲劳等)。 2 可以把上述危险因素和诱发因素作为高危对象的指标项目,其中可测量的一部分为:血压值,短暂性脑缺血(发作次数),血糖值,血脂值,体重指数值,每日吸烟支数,每周饮酒次数,每日食盐的平均摄入量,每周锻炼次数,年龄等;另外一部分无法测量(或者测量较为复杂)的:心脏病,性格,遗传(家族史),是否存在诱发因素等。
3 预警和干预就是以适当方式告诉具备高危指标体系的当事人,在每年1月-3月,是发病高峰时期。在当日温差大于6度时发病可能性增大明显。温度在-2-2 ℃时最容易发病。在气压P>1004时,发病人数随气压升高而有增大趋势。年龄在60-80岁为高危人群,60岁以上的人对温差比较敏感。 4 为了更好的对高危人群进行预警和干预,应从多方面、多因素进行综合考虑。故应建立方案进行相应数据的收集工作。 1)建立监测体系,开展常规的信息收集工作,如发病监测,病例信息检测等,通过体系网络,提取有价值的数据信息。 2)在特定范围、特定时间内对特定人群进行信息调查,如:血压值、血糖值、血脂值、体重值、每日吸烟支数、每日饮酒次数、每日平均食盐量、每周锻炼次数、年龄、性别、职业等。
四、存在问题 关于问题1 对题目附件提供的数据中存在的部分缺失和误差数据,能进行分析、处理并能说明理由,反映了学生能正确对待、理解来自实际的数据中难免有缺失和错误的数据;对职业、性别等病人基本信息统计详细,并以饼图、柱形图等直观表示,并能根据统计结果进行分析、讨论;在分析年龄与发病人数的关系时,讨论仔细,分析不同年龄段发病人数,讨论发病高峰年龄段,并能以直观柱形图表示。但也有的同学对残缺数据没有提及、没有处理或处理了却没说明理由,有的统计基本信息仅分年度进行,没有总体考虑,对基本信息缺少进一步的分析、讨论,如服从某个分布或近似分布、偏差等等,说明对题目中统计描述理解不够。
关于问题2 比较合理的做法是在前面建立全变量的多元线性回归模型、因子统计模型等的基础上,应考虑建立条件统计模型(如:分别对男,女,农民,60≤年龄≤80, 发病人数≥60的情况建立线性回归模型)并进行相应分析讨论;还应考虑异常值识别或剔除,模型的合理性,模型的检验或拓广。 有的先建立单因素统计回归模型,并报告模型中的参数估计、模型拟合误差等,再综合考虑分析,解释模型结果,这样处理虽然不尽合理,但对专科学生来说已经不易。
但是有的对要解决的问题或统计方法理解不够,仅进行单因素分析,也有的分年度讨论,分别考虑2007、2008、2009和2010年,没有统一处理,掩盖了可能存在的规律;所利用的数据有的是以月平均,也有的以旬平均或周平均,甚至有的用季平均作单位,信息利用不够充分;有的过分追求线性拟合中较大的R ,删除数据过多;在建立非线性回归模型时,用到6次方甚至8次方,我们认为不太符合实际,也没有建模机理;对所得的数学模型,没有分析、讨论其特性、含义等,缺少必要的参数估计、误差检验等。
关于问题3 查阅脑卒中的高危人群重要特征时,大多论文重定性指标轻定量指标,而在对高危人群提出预警、干预方面,大多同学应用参考文献等资料泛泛而言,缺少由问题1、2的结果、结论而得预警、干预,说明对题目理解不够。应利用所建立的模型,预先以适当方式具体告诉或提醒具备脑卒中高危人群重要特征和关键指标的当事人,在怎样的环境下(如:什么时间、年龄、气压、温度)最容易发病或发病率明显增长,并提出建议方案(如:发病人数与平均相对湿度呈负相关关系;在气压大于一定数值时,发病人数随气压升高而有增大;年龄在60到80的人群容易发病。对于上述环境因素,高危人群应注意防范)。