1研究套路与文章框架
1.1 何为生物信息和数据挖掘
生物(Biology)+信息(information)+组学(omics) = Bioinformatics
现有基因数据→数学模型和计算技术→基因组数据之间的关系→解读生物遗传密码→发现生物学规律→认识生命的本质。
数据挖掘的功能:
1分类(classification):按照分析个体的属性状态分别加以区分,并建立类组。
2估计(estimation):根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。
3预测(prediction):根据个体属性的已有观测值来估计该个体在某一属性上的预测值。
4关联分组(affinity grouping):从所有对象决定哪些相关对象应该放在一起。
5同质分组(clustering):将异质总体分成为同质性类别(cluster),即聚类。