找到凶手=回归分析+逻辑分析+控制实验验证
世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以尽量不要用的你回归分析杀人。
好的回归分析:
(1)变量:
不遗漏,不过多。
一元回归在很多变量复杂环境下,不适用,会遗漏其它关键变量,多元回归就弥补了不足。
一元回归容易造成捡芝麻丢西瓜的结局,需要考虑多种因素。
(2)数据样本
无偏差,偏见
(3)逻辑:
回归关系是相关关系,并非因果关系。
正确解读分析结果,结果与其它科学结论一致
分析结论可复制。
回归分析就像在犯罪现场找打指纹,但指纹不一定是凶手的,但和凶手有千丝万缕的联系。
所以:
找到凶手=回归分析+逻辑分析+控制实验验证
例如雌激素疗法:
(实验结构错误原因:数据样本可能有严重偏差,没有严格控制,对其它疾病没有预测,导致捡芝麻丢西瓜)
哈佛大学医学院和公共卫生学院共同主持的一项针对12.2万名女性的纵向调查显示,雌激素摄入量与心脏病存在负相关关系。定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3.
随着年龄的增长,女性在卵巢分泌雌激素能力下降,如果雌激素真的对身体非常重要的话,那么
老年时补充这一不足将有利于女性的长期健康。一些研究员甚至开始建议上了年纪的男性也服用雌激素。
1990-2000,许多医疗机构开始相继支持一个观点:上了年龄的女性可以通过雌激素摄入来预防心脏病,骨质疏松以及其它与更年轻相关疾病。
截止到2001年,有差不多1500万女性正在服用雌激素,医生称她们用药后会更健康。
在百万女性听从医生建议后,开始接受荷尔蒙疗法,雌激素也进入最为严格的科学审查阶段:临床试验,与之前哈佛大学试验不同,临床试验包括控制实验,一组样本服用雌激素补充片。
控制实验保证了样本数据偏差小,
(控制与实验。将选择出的研究对象分为两个组——“实验组”和“控制组”,尽量保持两组成员人数、年龄、性别、教育程度等变量的相同以排除这些变量在实验中可能产生的影响。实验过程中,这两个组的唯一区别是接触的包含自变量的材料不同,以此来计算因变量是否会产生相应的变化。)
结果显示:摄入雌激素的女性患心脏病,中风,血栓,乳腺癌和其它疾病的风险要高于对照组。补充雌激素的确有一些益处,但与其它风险相比,根本不值得一提。
2002年开始,医生建议年长女性避免服用雌激素,但之前上万人已受到影响,过早去世。
变量遗漏偏差
《常打高尔夫易患心脏病,癌症和关节炎》,这是回归分析的正相关结果,但逻辑分析后发现,打高尔夫人年龄较大,真正原因是年龄这个杀手,而非高尔夫本身。逻辑上打高尔夫是运动,生命在于运动,这和引起各种疾病有矛盾。
逻辑分析出现矛盾后,进行控制实验验证,观察实验组和对照组,验证结论。
原文:http://www.cnblogs.com/biopy/p/4906204.html