1.Clustering in metabolomics
这是learning method在生物信息学中的应用,比如现在热议的基因序列检测。说的就是从某些样本(可以认为是learning中的training data )中提取罹患癌症的feature ,通过比较可信的统计量来说明罹患癌症的风险和检测样本中的哪些物质含量相关。说得挺热闹的,但是从Details上听来,这个和machine learning 中的feature extraction (特征抽取)还是不同的,准确的说应该是feature selection(特征选择),因为抽取可能会改变样本feature,只有选择才忠实于数据的特征,这在生物信息领域内更加有意义。
我也是听得一知半解,仅对里面的一些说法感到稍有兴趣。其一,医学统计当中,数据的获取非常珍贵,打个比方说,预测癌症的风险往往要从实际临床中获得生物样本信息,执行人(往往是各地三甲医院)对一群人(实验对象)进行长期的临床观察(考虑到性别、年龄、饮食、地域、生活习惯等)。当然,接受观察的对象可能未必是癌症患者,有可能观察了数年发现这群样本根本没有罹患癌症,当然这对实验对象是好事,可是对于这个研究项目来说,就算是废了,投入付之东流。有时搞科研就是有点人性上的残酷,不得不感叹。所以,这种数据说它珍贵,丝毫不夸张(实际当中往往只有几十个的数量级)。所以研究数据很少会公开,更不可能在互联网条件下分享,所以这就造成了在研究过程中存在数据造假的可能性。其二,对采样数据的分析过程需要借助到大型的一起设备,比如质谱分析装置,对样本中成分的分布曲线进行研究(药物注射染色后,不同物质在光谱分析下产生不同峰值的信号),得到一组成分的量化统计。然后通过统计方法(比如,T-检验),找到那些具有某种准确精度的特征,比如选择一组feature ,能使得假设检验的精度达到80%。但是这里还存在着一个可行性的问题,即找到的这些feature 必须是在常规医学检验中能够测试出的那些feature (虽然在质谱仪上都能够显示,但是有些物质在医学临床上还算是未知量,我理解是只知道存在,未必能认知)。所以即便你能让你的检验精度达到90%甚至更高,但是这些feature在医学上无法检验,那么你的result不会得到业界的承认;但另一方面,你找到了精度只有79%的一组feature 但是他们在临床上大多能够被认知,那么你的paper based on this reslut 可能会被影响因子2-3的杂志所录用,也能为3甲以上医院的临床检查提供有效的帮助。突然感到,数学上的好不是真的好,工程上的可行才是人们所追求的。
2.Relationship among Laplacian Eigenmap,PCA And Ratio Cut(整理中 待续)
3.Image Set Classification(整理中 待续)
[14.04.18] Machine Learning 讨论班,布布扣,bubuko.com
[14.04.18] Machine Learning 讨论班
原文:http://blog.csdn.net/liu6tot/article/details/24025595