0%

论文笔记 | 基于机器学习的siRNA沉默效率预测方法研究

最近在看基于机器学习的siRNA沉默效率预测方法研究这篇论文,论文一共98页,实在太长,不得不单独一篇笔记用于记录要点。

这篇论文在使用机器学习方法研究siRNA沉默效率这方面讲的还是很清楚的,用以入门。

绪论

研究意义

这里主要讲述了RNAi的起源、作用机制和应用,可以参考上一篇文章RNAi和siRNA设计基础,这里就不记录了。

国内外研究动态

基于规则的第一代 siRNA 沉默效率预测方法

早期主要是用统计学方法寻找siRNA不同沉默效率的规则,因此沉默效率不能量化,只能分高效和低效siRNA

主要是在siRNA不同位置上的规则约束,这部分可以用一张表总结。

8v6DoHEhjlCYAnF

其次需要考虑siRNA热力学稳定性,主要是下面两种规则:
1NusWtUV4bBASX7

缺点是:

  1. 样本量太少
  2. 规则不够具体
  3. 没有设置权重区分规则重要性
  4. 具有数据偏向性

    基于机器学习的第二代 siRNA 沉默效率预测方法

数据集方面

主要是使用Huesken数据集,Huesken 数据集到目前为止同样实验条件下提出的数量最多的数据集。

其他一些包括化学修饰的数据集可以有需要再去论文中查看。

特征方面

  1. 碱基组成

  2. 1-3mer的motif频率和位置特征

  3. 热力学参数,包括siRNA 双链的G ,siRNA 反义链的内部分子结构稳定性,局部靶标的 mRNA 稳定性以及 siRNA 双链中每相邻两个碱基对的稳定性等等

  4. 反义链的二级结构

  5. 与mRNA有区别的结构特征

  6. 靶mRNA的二级结构

  7. 靶mRNA内多个反义链结合位点的能量

  8. siRNA的3n+1位碱基组成,也意味着siRNA的绑定蛋白和效率有关

  9. siRNA上下游碱基,可能是上下游特定的motif可能影响效率

算法方面

统计如下:

  1. GP算法
  2. GSK和SVM
  3. 神经网络
  4. 线性回归
  5. 决策树
  6. 随机森林>SVM
  7. 后缀树
  8. 规则矩阵,利用已知规则设置权重,结合半监督的回归算法

机器学习在siRNA沉默效率预测中的应用

siRNA样本收集

此需要选择具有代表性、数量充足的样本集合。生物信息学使用的数据还需要注意数据是否存在冗余