1、数据分析思路的数据分析思路的构建与实例构建与实例北京大学医学部流行病学与卫生统计学系北京大学医学部流行病学与卫生统计学系 陈大方陈大方 博士博士/教授教授/博士生导师博士生导师电话:电话:+(010)82802644/18600659288 +(010)82802644/18600659288 邮箱:邮箱:决定论文水平思路的重要性体现作者知识宽度与深度不怕做不到,就怕想不到如何获得创新思路基于文献阅读基于数据挖掘基于工作基础如何基于数据如何基于数据挖掘挖掘产生文章思路?产生文章思路?群体(个体)家系一次调查/测量多时点调查(重复测量)数据三要素数据三要素记录记录(对象)(对象)数据挖掘数据挖掘
2、数据挖掘数据挖掘变量变量变量变量(研究内容)(研究内容)(研究内容)(研究内容)时间时间时间时间(研究设计)(研究设计)(研究设计)(研究设计)观察结局(因变量)研究因素(自变量)混杂因素(协变量)连续变量、分类变量(二分类,等级变量、无序变量)环境因素、临床指标、遗传易感性(基因多态性)思考点思考点从研究变量之间关系角度思考从研究变量之间关系角度思考从研究对象构成的角度思考从研究对象构成的角度思考从研究的时间角度思考从研究的时间角度思考从以上两个或以上思考从以上两个或以上思考芳香烃有机溶剂芳香烃有机溶剂暴露对暴露对女性生殖结局的影响研究女性生殖结局的影响研究(NIH Project 1996
3、(NIH Project 1996(NIH Project 1996(NIH Project 19962000)2000)2000)2000)数据挖掘实例数据挖掘实例课题研究背景课题研究背景 芳香烃类有机溶剂在环境中普遍存在,芳香烃类有机溶剂在环境中普遍存在,是一种潜在的生殖毒物,主要包括苯、甲是一种潜在的生殖毒物,主要包括苯、甲苯、二甲苯、苯乙稀等。它在高浓度下对苯、二甲苯、苯乙稀等。它在高浓度下对健康所产生的危害已为国内外较多研究所健康所产生的危害已为国内外较多研究所证实。但是,女性长期暴露于低浓度芳香证实。但是,女性长期暴露于低浓度芳香烃有机溶剂对生殖结局的影响研究报道较烃有机溶剂对生殖
4、结局的影响研究报道较少。少。研究目的研究目的?了解石油石化工冶炼厂女工芳香烃了解石油石化工冶炼厂女工芳香烃有机溶剂等职业有害因素的暴露情有机溶剂等职业有害因素的暴露情况。况。?探讨职业、环境因素暴露,遗传易探讨职业、环境因素暴露,遗传易感性与女性生殖结局的关系。感性与女性生殖结局的关系。问卷调查临床体检新婚体检停止避孕分娩妊娠新婚随访新婚日记每日晨尿暴露评价孕期随访问卷调查出生记录基本信息基本信息基本情况生活习惯一般健康状况疾病史基线基线职业情况膳食营养月经情况家庭居住检查、检测检查、检测体格、肝肾血清营养暴露评价-hcg检测遗传易感性孕期随访孕期随访新婚随访早孕随访中孕随访基线随访分娩住院记
5、录研究内容研究内容I相代谢酶基因和II相代谢酶基因,共12个基因多态性位点p职业情况p膳食营养p月经情况p家庭居住情况p其他p血红蛋白p铁p维生素B6p维生素B12p叶酸p铁蛋白p转铁蛋白受体p同型半胱氨酸p监测车间内芳香烃有机溶剂浓度p个体主动采样泵采样p暴露评价问卷p上班时活动情况2.2.研究对象研究对象 (记录记录)u16001600对在燕山石化工作的新婚体检对在燕山石化工作的新婚体检对象:对象:芳香烃有机溶剂暴露组芳香烃有机溶剂暴露组800800对对非暴露组非暴露组800800对对3.3.研究设计研究设计 (时间时间)前瞻性队列研究设计前瞻性队列研究设计(新婚体检(新婚体检-临床分娩或
6、一年)临床分娩或一年)2.构建研究因素与结局之间关系思路与内容创新 1.把数据变量进行分类(研究因素/混杂因素/观察结局)3.初步分析数据数据预处理、数据基本描述 4.提炼结果,构建文章初步思路 5.深入分析数据技术与方法创新 6.文章结果形成文章完整思路文章思路构建步骤文章思路构建步骤初步构建论文思路 将数据变将数据变量进行分量进行分类类观察结局观察结局p一般人口学特征,如年龄、一般人口学特征,如年龄、性别、职业性别、职业p疾病史疾病史p芳香烃有机溶剂暴露,如芳香烃有机溶剂暴露,如笨、二甲苯等笨、二甲苯等p职业因素,如倒班、噪声、职业因素,如倒班、噪声、工作体位工作体位p生活行为,如吸烟、饮
7、酒生活行为,如吸烟、饮酒等等p膳食营养膳食营养p体格检查,如身高、体重、体格检查,如身高、体重、血压血压p临床生化检查:如肝肾功临床生化检查:如肝肾功能能p血清营养素,如维生素血清营养素,如维生素B6B6,B12B12,叶酸、铁蛋白,叶酸、铁蛋白,转铁蛋白受体转铁蛋白受体p尿液检测,如尿液检测,如-hcg-hcgp遗传易感性,如遗传易感性,如CYPCYP、GSTGST 研究因素研究因素/混杂混杂p出生结局,如出生体重、出生结局,如出生体重、孕周孕周 p受孕时间受孕时间p早早孕丢失早早孕丢失p临床怀孕临床怀孕 p月经功能,如月经周期、月经功能,如月经周期、痛经痛经初步构建论文思路构建研究因构建研
8、究因素与结局素与结局之间关系之间关系研究研究因素因素观察察结局局中中间表型表型混混杂因素因素预处预处理理描述描述结果果分析分析p一般人口学特征,如年龄、一般人口学特征,如年龄、性别、职业性别、职业p疾病史疾病史p芳香烃有机溶剂暴露,如芳香烃有机溶剂暴露,如笨、二甲苯等笨、二甲苯等p职业因素,如倒班、噪声、职业因素,如倒班、噪声、工作体位工作体位p生活行为,如吸烟、饮酒生活行为,如吸烟、饮酒等等p膳食营养膳食营养p体格检查,如身高、体重、体格检查,如身高、体重、血压血压p临床生化检查:如肝肾功临床生化检查:如肝肾功能能p血清营养素,如维生素血清营养素,如维生素B6B6,B12B12,叶酸、铁蛋白
9、,转,叶酸、铁蛋白,转铁蛋白受体铁蛋白受体p尿液检测,如尿液检测,如-hcg-hcgp遗传易感性,如遗传易感性,如CYPCYP、GSTGSTp出生结局,出生结局,如出生体重、如出生体重、孕周孕周 p受孕时间受孕时间p早早孕丢失早早孕丢失p临床怀孕临床怀孕 p月经功能,月经功能,如月经周期、如月经周期、痛经痛经数据预处理数据描述单因素分析初步构建论文思路初步数据分析初步构建论初步构建文章思路提炼 结果1.1.孕妇混苯化合物暴露对胎儿生长发育的影响。孕妇混苯化合物暴露对胎儿生长发育的影响。2.2.被动吸烟对女性月经功能影响研究。被动吸烟对女性月经功能影响研究。3.3.北京某石油化工厂女工苯的内暴露
10、研究。北京某石油化工厂女工苯的内暴露研究。4.4.芳芳香香烃烃和和母母亲亲某某些些代代谢谢酶酶基基因因多多态态性性对对新新生生儿儿出出生生身身长的影响长的影响5.5.微微粒粒体体环环氧氧化化酶酶与与谷谷胱胱甘甘肽肽S S转转移移酶酶的的遗遗传传多多态态性性对对新新生儿出生体重的影响生儿出生体重的影响.6.6.早孕期低浓度苯系物暴露对胎儿身长的影响。早孕期低浓度苯系物暴露对胎儿身长的影响。7.7.低浓度混苯对女工生殖激素分泌的影响。低浓度混苯对女工生殖激素分泌的影响。8.8.新生儿新生儿PON2PON2基因多态性与早产的关系。基因多态性与早产的关系。9.9.轮轮班班作作业业女女工工排排卵卵日日前
11、前后后的的夜夜班班次次数数对对妊妊娠娠结结局局的的影影响。响。10.10.工效学因素对妇女临床受孕时间影响的研究。工效学因素对妇女临床受孕时间影响的研究。11.11.以以尿尿激激素素标标记记物物探探讨讨职职业业噪噪声声暴暴露露与与纺纺织织女女工工月月经经功功能的关系。能的关系。12.12.初步构建论文思路深入分析数据智慧智慧与与策略策略统计学知识流行病学知识数据处理经验文献阅读其它学科知识本专业知识初步构建论 形成形成文章文章完整完整思路思路文章结果结果是文章的核心结果的顺序绝不是按获得数据的先后排列,而是要按企图说明问题的逻辑顺序排列;不要罗列结果,要分析,结果之间要有逻辑联系;P5P9P7
12、P2P3P10P8p14P11P1P6被动吸烟被动吸烟受孕时间受孕时间早早孕丢失早早孕丢失有机溶剂有机溶剂暴露暴露孕前营养孕前营养身高体重身高体重指数指数职业因素职业因素暴露暴露临床怀孕临床怀孕遗传易感性遗传易感性早产早产月经周期月经周期痛经痛经出生体重出生体重新生儿身长、头围新生儿身长、头围胎儿宫内生长发育迟缓胎儿宫内生长发育迟缓旁氏指数旁氏指数P15P12P13P4被动吸烟被动吸烟受孕时间受孕时间早早孕丢失早早孕丢失有机溶剂有机溶剂暴露暴露孕前营养孕前营养身高体重身高体重指数指数职业因素职业因素暴露暴露临床怀孕临床怀孕遗传易感性遗传易感性早产早产月经周期月经周期痛经痛经出生体重出生体重新生
13、儿身长、头围新生儿身长、头围胎儿宫内生长发育迟缓胎儿宫内生长发育迟缓旁氏指数旁氏指数P7P9P3P2P1P4P15p13P8P10P5P6P11P12P141.1.陈陈大大方方,刘刘彤彤杉杉,王王黎黎华华,黄黄因因敏敏,赵赵一一鸣鸣,徐徐希希平平.孕孕妇妇混混苯苯化化合合物物暴暴露露对对胎胎儿儿生长发育的影响生长发育的影响J.J.疾病控制杂志疾病控制杂志,1997,04:263-266.,1997,04:263-266.2.2.陈陈大大方方,刘刘彤彤杉杉,杨杨萍萍,王王黎黎华华,黄黄因因敏敏,赵赵一一鸣鸣,徐徐希希平平.环环境境与与职职业业因因素素对对胎胎儿儿生长发育的影响生长发育的影响J.J
14、.环境与健康杂志环境与健康杂志,1998,03:6-8.,1998,03:6-8.3.3.潘潘小小川川,丁丁辉辉,韩韩丽丽力力,王王黎黎华华,徐徐希希平平.被被动动吸吸烟烟对对女女性性月月经经功功能能影影响响研研究究J.J.卫生研究卫生研究,1999,01:25-27.,1999,01:25-27.4.4.朱朱兰兰,潘潘小小川川,昊昊昆昆昱昱,池池频频频频,王王黎黎华华,徐徐希希平平.北北京京某某石石油油化化工工厂厂女女工工苯苯的的内内暴露研究暴露研究J.J.中国公共卫生中国公共卫生,1999,10:53-54.,1999,10:53-54.5.5.陈陈大大方方,王王晓晓斌斌,王王朝朝曦曦,王
15、王黎黎华华,徐徐希希平平.芳芳香香烃烃和和母母亲亲某某些些代代谢谢酶酶基基因因多多态态性性对新生儿出生身长的影响对新生儿出生身长的影响J.J.北京医科大学学报北京医科大学学报,2000,05:450-454.,2000,05:450-454.6.6.陈陈大大方方,王王朝朝曦曦,王王晓晓斌斌,王王黎黎华华,徐徐希希平平.微微粒粒体体环环氧氧化化酶酶与与谷谷胱胱甘甘肽肽S S转转移移酶酶的遗传多态性对新生儿出生体重的影响的遗传多态性对新生儿出生体重的影响J.J.环境与健康杂志环境与健康杂志,2000,03:131-134.,2000,03:131-134.7.7.陈陈大大方方,赵赵一一鸣鸣,臧臧桐
16、桐华华,王王黎黎华华,徐徐希希平平.早早孕孕期期低低浓浓度度苯苯系系物物暴暴露露对对胎胎儿儿身身长长的影响的影响J.J.疾病控制杂志疾病控制杂志,2000,02:120-122.,2000,02:120-122.8.8.陈陈大大方方,王王晓晓斌斌,吴吴迪迪,王王黎黎华华,徐徐希希平平.细细胞胞色色素素P450P450氧氧化化酶酶MSP1MSP1基基因因对对有有机机溶剂的易感性与新生儿出生体重的影响溶剂的易感性与新生儿出生体重的影响J.J.环境与健康杂志环境与健康杂志,2001,04:208-211.,2001,04:208-211.发表在中华核心期刊文章发表在中华核心期刊文章10.10.陈海燕
17、陈海燕,王心如王心如,徐莉春徐莉春,Lasley BL,Overstreet JW,Lasley BL,Overstreet JW,戴建国戴建国,张绮张绮,邢厚恂邢厚恂,杜冰杜冰,徐徐希平希平.低浓度混苯对女工生殖激素分泌的影响低浓度混苯对女工生殖激素分泌的影响J.J.中华预防医学杂志中华预防医学杂志,2001,02:12-15.,2001,02:12-15.11.11.王守林王守林,陈宇炼陈宇炼,陈海燕陈海燕,徐莉春徐莉春,曹晋柱曹晋柱,杜冰杜冰,王顶贤王顶贤,施爱民施爱民,徐希平徐希平,王心如王心如.某石化企业和化纤企业女工不良妊娠结局的危险因素分析某石化企业和化纤企业女工不良妊娠结局的危
18、险因素分析J.J.工业卫生与职工业卫生与职业病业病,2001,03:140-143.,2001,03:140-143.12.12.梁红业梁红业,吴白燕吴白燕,陈大方陈大方,陈栎陈栎,徐希平徐希平,杨帆杨帆,胡海燕胡海燕.新生儿新生儿PON2PON2基因多态性与基因多态性与早产的关系早产的关系J.J.遗传遗传,2002,05:515-518.,2002,05:515-518.13.13.李佩芝李佩芝,方自国方自国,潘小川潘小川,王黎华王黎华,徐希平徐希平.轮班作业女工排卵日前后的夜班次数轮班作业女工排卵日前后的夜班次数对妊娠结局的影响对妊娠结局的影响J.J.中华劳动卫生职业病杂志中华劳动卫生职业
19、病杂志,2002,05:52-54.,2002,05:52-54.14.14.吴白燕吴白燕,梁红业梁红业,陈大方陈大方,刘林刘林,杨帆杨帆,胡海燕胡海燕,陈栎陈栎,王桂香王桂香,徐希平徐希平.新生儿新生儿CYP2E1CYP2E1基因基因5 5端端RsaRsa位点多态性和位点多态性和PON2PON2基因基因148148位点多态性与早产的关位点多态性与早产的关系系J.J.遗传学报遗传学报,2003,06:577-583.,2003,06:577-583.15.15.游良雅游良雅,潘小川潘小川,陈大方陈大方,张金良张金良,黄因敏黄因敏,徐希平徐希平,夏桂芳夏桂芳.苯系混合物对新婚女苯系混合物对新婚女
20、工生育功能的影响工生育功能的影响J.J.中国公共卫生中国公共卫生,2003,07:109-110.,2003,07:109-110.16.16.倪佳桐倪佳桐,黄爱群黄爱群,杨帆杨帆,刘学刘学,徐希平徐希平.工效学因素对妇女临床受孕时间影响的研工效学因素对妇女临床受孕时间影响的研究究J.J.疾病控制杂志疾病控制杂志,2003,05:420-422.,2003,05:420-422.17.17.李佩芝李佩芝,潘小川潘小川,徐希平徐希平,王黎华王黎华.以尿激素标记物探讨职业噪声暴露与纺织女以尿激素标记物探讨职业噪声暴露与纺织女工月经功能的关系工月经功能的关系J.J.工业卫生与职业病工业卫生与职业病,
21、2004,03:130-135.,2004,03:130-135.1.1.Li Li S,S,Fang Fang K,K,Wang Wang W,W,Hu Hu Y,Y,Chen Chen D.D.Gene-environment Gene-environment Interaction Interaction among among GSTT1,GSTT1,PON2 PON2 Polymorphisms Polymorphisms and and Organic Organic Solvents Solvents on on Gestational Gestational Age Age i
22、n in a a Chinese Chinese Women Women Cohort.Cohort.Journal Journal of of Assisted Assisted Reproduction Reproduction and and Genetics.Genetics.2014.31(7):881-888.2014.31(7):881-888.2.2.Ting Ting Wu,Wu,Yonghua Yonghua Hu,Hu,Changzhong Changzhong Chen,Fan Chen,Fan Yang,Yang,Zhiping Zhiping Li,Li,Zhian
23、 Zhian Fang,Fang,Lihua Lihua Wang,Wang,Dafang Dafang Chen.Chen.Passive Passive smoking,smoking,metabolic metabolic gene gene polymorphism polymorphism and and infant infant birth birth weight weight in in a a prospective prospective cohort cohort of of Chinese Chinese women.women.Am Am J J Epidemiol
24、 2007:166(3):313-322.Epidemiol 2007:166(3):313-322.3.3.Xueying Xueying Qin,Qin,Yiqun Yiqun Wu,Wu,Changzhong Changzhong Chen,Chen,Fan Fan Yang,Yang,Zhiping Zhiping Li,Li,Zhian Zhian Fang,Fang,Lihua Lihua Wang,Wang,Yonghua Yonghua Hu,Hu,Dafang Dafang Chen.Chen.Low Low organic organic solvent solvent e
25、xposure exposure and and combined combined maternal-infant maternal-infant gene gene polymorphisms polymorphisms affect affect gestational gestational age.Occupational and Environmental Medicine,2008;65(7):482-487.age.Occupational and Environmental Medicine,2008;65(7):482-487.4.4.Na Na Li,Li,Hong Ho
26、ng Liu,Liu,Yonghua Yonghua Hu,Hu,Changzhong Changzhong Chen,Fan Chen,Fan Yang,Yang,Zhiping Zhiping Li,Li,Zhian Zhian Fang,Fang,Lihua Lihua Wang,Wang,Dafang Dafang Chen.Chen.CYP1A1 CYP1A1 gene gene polymorphisms polymorphisms in in modifying modifying association association between between Passive P
27、assive smoking smoking and and primary primary dysmenorrheal.dysmenorrheal.Annals of Epidemiology.2007Annals of Epidemiology.2007:1717(1111):):882-888.882-888.发表在发表在SCISCI期刊文章期刊文章6.6.Xiaobin Xiaobin Wang,Wang,Dafang Dafang Chen Chen et et al,al,Genetic Genetic Susceptibility Susceptibility to to Ben
28、zene Benzene and and Shortened Shortened Gestation:Gestation:Evidence Evidence of of Gene-Environment Gene-Environment Interaction.Interaction.American Journal of Epidemicology 2000;152(8):693-700.American Journal of Epidemicology 2000;152(8):693-700.7.7.Dafang Dafang Chen,Chen,Xiaobin Xiaobin Wang,
29、Wang,Changzhong Changzhong Chen,Chen,et et al.al.Exposure Exposure to to benzene,benzene,occupational occupational stress,stress,and and reduced reduced birth birth weightweight.Occup Occup Environ Environ Med.2000;57(10):661-667.Med.2000;57(10):661-667.8.8.Alayne Alayne G.G.R.,R.,Goldman Goldman M.
30、B.,M.B.,Dafang Dafang Chen,Chen,et et al.al.Preconception Preconception homocysteine homocysteine and and B-vitamin B-vitamin status status and and birth birth outcomes outcomes in in Chinese Chinese women.women.American Journal of Clinical Nutrition,2002;76(6):1385-1391.American Journal of Clinical
31、 Nutrition,2002;76(6):1385-1391.9.9.Venners Venners SA,SA,Wang Wang X,X,Chen Chen C,C,Wang Wang L,L,Chen Chen D,D,et et al al.Paternal Paternal Smoking Smoking and and Pregnancy Pregnancy Loss:Loss:A A Prospective Prospective Study Study Using Using a a Biomarker Biomarker of of Pregnancy.Pregnancy.
32、Am Am J Epidemiol 2004:159(10)993-1001.J Epidemiol 2004:159(10)993-1001.10.10.Ronnenberg Ronnenberg AG,AG,Wang Wang X,X,Xing Xing H,H,Chen Chen C,C,Chen Chen D,D,et et al al.Low Low Preconception Preconception Body Body Mass Mass Index Index Is Is Associated Associated with with Birth Birth Outcome
33、Outcome in in a a Prospective Cohort of Chinese Women.J.Nutr.2003;133:3449-3455.Prospective Cohort of Chinese Women.J.Nutr.2003;133:3449-3455.11.11.Wang Wang X,X,Chen Chen C,C,Wang Wang L,L,Chen Chen D,D,et et al.al.ConceptionConception,Early Early Pregnancy Pregnancy Loss,Loss,and and Time Time to
34、to Clinical Clinical Pregnancy:Pregnancy:A A Population-Based Population-Based Study.Study.Fertility Fertility&Sterility.2003;79(3):577-584&Sterility.2003;79(3):577-584.12.12.Ha Ha E,E,Cho Cho SI,SI,Park Park H,H,Chen Chen D D et et al.al.Does Does standing standing at at work work during during pre
35、gnancy pregnancy result result in in reduced reduced infant infant birth birth weight?weight?Occup Occup Environ Environ Med Med 2002 2002;44(9):815-21.;44(9):815-21.13.13.Eunhee Eunhee Ha,Ha,Sung-il Sung-il Cho,Cho,Dafang Dafang Chen Chen et et al,al,Parental Parental exposure exposure to to organi
36、c organic solvents solvents and and reduced reduced birth birth weight.weight.Archives Archives of of Environmental Environmental Health,Health,2002;57(3):207-212.2002;57(3):207-212.12.12.Chen Chen C,C,Wang Wang X,X,Chen Chen D,D,et et al.al.Tofu Tofu Consumption Consumption and and Blood Blood Lead
37、 Lead Levels Levels in Young Chinese Adults.Am J Epidemiol 2001;153(12):1206-1212.in Young Chinese Adults.Am J Epidemiol 2001;153(12):1206-1212.13.13.Sung-Il Sung-Il Cho,Cho,Andrew Andrew I.I.Damokosh,Damokosh,Louise Louise M.M.Ryan,Ryan,Dafang Dafang Chen,Chen,et et al.al.Effects Effects of of Expo
38、sure Exposure to to Organic Organic Solvents Solvents on on Menstrual Menstrual Cycle Cycle Length.Length.J J Occup Environ Med 2001;43(6):567-561Occup Environ Med 2001;43(6):567-56114.14.Chen Chen C,C,Cho Cho S,S,Damokosh Damokosh A,A,Chen Chen D,D,et et al al Prospective Prospective Study Study of
39、 of Exposure Exposure to to Environmental Environmental Tobacco Tobacco Smoke Smoke and and Dysmenorrhea.Dysmenorrhea.Environmental Environmental Health Perspectives.November 2000;108(11):1019-22.Health Perspectives.November 2000;108(11):1019-22.15.15.Ronnenberg Ronnenberg AG,AG,Wood Wood RJ,RJ,Wang
40、 Wang X,X,Xing Xing H,H,Chen Chen C,C,Chen Chen D,D,et et al.al.Preconception Preconception Hemoglobin Hemoglobin and and Ferritin Ferritin Concentrations Concentrations Are Are Associated Associated with with Pregnancy Pregnancy Outcome Outcome in in a a Prospective Prospective Cohort Cohort of of Chinese Chinese Women.Women.J J Nutr.2004;134(10):2586-2591.Nutr.2004;134(10):2586-2591.OrganizationExtensiveDeepSensitiveGeneral电子狗又称反测速雷达,是一种提示驾驶者附近是否有雷达测速仪的设备,安装在汽车内,通过接收雷达波,可以在一定距离内检测到周围是否有雷达测速仪。汽车在行使过程中,当汽车靠近雷达测速仪时反测速雷达则会发警告。在大数据背景下,我们需要在大数据背景下,我们需要在数据的海洋中做一只敏锐在数据的海洋中做一只敏锐电子狗电子狗谢谢谢谢 !