最近在看基于机器学习的siRNA沉默效率预测方法研究这篇论文,论文一共98页,实在太长,不得不单独一篇笔记用于记录要点。
这篇论文在使用机器学习方法研究siRNA沉默效率这方面讲的还是很清楚的,用以入门。
绪论
研究意义
这里主要讲述了RNAi的起源、作用机制和应用,可以参考上一篇文章RNAi和siRNA设计基础,这里就不记录了。
国内外研究动态
基于规则的第一代 siRNA 沉默效率预测方法
早期主要是用统计学方法寻找siRNA不同沉默效率的规则,因此沉默效率不能量化,只能分高效和低效siRNA
主要是在siRNA不同位置上的规则约束,这部分可以用一张表总结。
其次需要考虑siRNA热力学稳定性,主要是下面两种规则:
缺点是:
数据集方面
主要是使用Huesken数据集,Huesken 数据集到目前为止同样实验条件下提出的数量最多的数据集。
其他一些包括化学修饰的数据集可以有需要再去论文中查看。
特征方面
碱基组成
1-3mer的motif频率和位置特征
热力学参数,包括siRNA 双链的G ,siRNA 反义链的内部分子结构稳定性,局部靶标的 mRNA 稳定性以及 siRNA 双链中每相邻两个碱基对的稳定性等等
反义链的二级结构
与mRNA有区别的结构特征
靶mRNA的二级结构
靶mRNA内多个反义链结合位点的能量
siRNA的3n+1位碱基组成,也意味着siRNA的绑定蛋白和效率有关
siRNA上下游碱基,可能是上下游特定的motif可能影响效率
算法方面
统计如下:
- GP算法
- GSK和SVM
- 神经网络
- 线性回归
- 决策树
- 随机森林>SVM
- 后缀树
- 规则矩阵,利用已知规则设置权重,结合半监督的回归算法
机器学习在siRNA沉默效率预测中的应用
siRNA样本收集
此需要选择具有代表性、数量充足的样本集合。生物信息学使用的数据还需要注意数据是否存在冗余