当前位置:   article > 正文

Python脚本:聚类小分子数据集_cluster the data in one pass

cluster the data in one pass

 

聚类分子(Clustering molecules)

聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。

 

基于RDKit的Python脚本用于聚类分子

  1. #!/usr/bin/python3
  2. # coding: utf-8
  3. #http://www.rdkit.org/docs/Cookbook.html - - -Clustering molecules
  4. #AspirinCode.20180725
  5. def ClusterFps(fps,cutoff=0.2):
  6. from rdkit import DataStructs
  7. from rdkit.ML.Cluster import Butina
  8. # first generate the distance matrix:
  9. dists = []
  10. nfps = len(fps)
  11. for i in range(1,nfps):
  12. sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
  13. dists.extend([1-x for x in sims])
  14. # now cluster the data:
  15. cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
  16. return cs
  17. from rdkit import Chem
  18. from r
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/343699
推荐阅读
相关标签
  

闽ICP备14008679号