2025-01-12 10:51:20

如何充分利用TRANSFAC中的数据, 并且要把假阳性降至可以接受的程度?

Bind Sites位于Gene的调控区内,是很短的一段序列(约6-10bp,不同文献的报道不太一致), 与转录因子(TF)结合, 调控Gene转录. 实际上是调控Gene转录的起始.TRANSFAC算是TF数据库中的旗舰, 主要是收集Bind Sites的数据, 建立Matrix, 再预测序列中的可能Bind Sites, 数据库自带工具Match. 还有一个JASPAR, 规模较TRANSFAC小, 但是数据完全来自文献报导.我个人的理解是:因为Bind Sites本身很短, 所以实际上单独一个没有足够的特异性来对应Gene转录的每一种状态, 所以应该是多个Bind Sites,甚至是多个TF共同作用, 调控转录. (我用TRANSFAC的Match做过预测, 结果很恐怖. 平均约1bp就有一Bind Sites预测结果, 有非常多的重叠) 也就是说,TRANSFAC的预测结果中假阳性极高.而且有文献报道, 用Matrix来预测, 本身就有缺陷.我们要如何充分利用TRANSFAC中的数据, 并且要把假阳性降至可以接受的程度?在序列水平上就只有Bind Sites之间的关系, 协同 or 竞争?这样的关系应该有一定的模式, 如何由无数的假阳性中确认这些模式?


回答 0 评论
您已邀请来回答问题
生物信息学×

6个回答

跟你有同样的感觉,而且我最近作了一个这方面的工作,做方法。个人认为降低假阳性的有效方法有两种:一个是Local Genomic Text(或者称局部的统计显著性),另外一个是比较基因组。或者你可以尝试二者结合起来。


2025-01-12 11:51:22

个人认为可以把那些单独的预测位点和那些几个位点都重叠的结果去掉,毕竟转录的启动是那些几个相隔数bp的位点结合多个转录因子而发生的


2025-01-12 11:56:16

如果你是在基因组上作应用的话,干脆把motif finding的方法,矩阵打分方法,基因调控模式,比较基因组这些东西杂合起来耍一遍。如果还不够的话,根据蛋白DNA complex的结构的结合自由能模型(不过这个要求比较高,需要知道3D结构)


2025-01-12 11:59:06

well if you are unhappy about the assumption for site independency in a simple position specific scoring matrix (PSSM), you can go to use high-order descriptions such as high-order HMM.In principle, I think the technique of motif minding has been quite mature. There might be some developments in new techniques, but I doubt there will be any huge breakthroughs. I think more oppunties lie in the use of new types of data. For example, Richard Young's Chip-Chip data turn out to be very stimulating for new advances in TF analyses. With AS, future chances shoud lie in the mining of splicing microarray data, which are coming out at a very impressive speed during the past 1-2 years.


2025-01-12 12:01:54

利用计算化学中的QSAR,你可以试试用不同的权重参数,把这些变量都ensemble起来。大不了最后SVM一把啦,或者考虑用environment中的序列信息来降低一下 false positive?


2025-01-12 12:04:22

你的理解估计八成也是从文献里面看的。Michael zhang是认为“多个TF共同作用”。不过也只是解释很有限的数据。一个可能是TFBS本身有组织特异性,时间特异性。用matrix预测出来的,是全空间的,所有可能的TFBS。显然,真正在体内,是不可能同时检测到这些的。


2025-01-12 12:04:59

你的回答