赞
踩
说明:生物信息学课程总结、笔记
课程链接:
https://www.icourse163.org/learn/SDU-1001907001?tid=1450236461#/learn/content?type=detail&id=1214471915&cid=1218216835
生物信息学就是用计算机解决生物学问题
收集——查看——整理
认识序列:寻找相似序列,构建进化树(相似序列意味着相似结构和相似功能)
序列相似性:一致性(identity)、相似性(similarity)
替换记分矩阵:
蛋白质
亲缘关系较远:BLOSUM-
亲缘关系较近:PAM-
常用:BLOSUM-62
比较两个序列的方法:打点法
相同打点,若多对角线元素相连的子序列,则相似性高
序列自身比较可以找出序列中的重复片段
常用软件:Dotlet
比较两个长度不同的序列的方法:序列比对法
双序列比对
全局比对:用于 比较长度相似的序列
局部比对 :用于比对长短差异大的序列
多序列比对
一致性和相似度
(一致或相似字符的个数/全局比对长度)*100%
无论序列是否相同,都要先做双序列全局比对,然后计算
在线双序列比对工具
blast比对
基本局部序列比对:寻找片段对O(n)
Jalview:基于java环境
整条多肽链的三维空间结构,包括骨架和侧链在内的所有原子的空间排列
独立的三级结构单元(亚基、单体monomer)聚集形成的复合物。dimer、trimer…
DIP、BioGRID、STRING…
条件:形状互补、亲疏水性、表面电荷分布
分类:刚性对接、柔性对接
软件:ZDOCK
AutoDock(基于python)
分子对接:虚拟筛选virtual screening
在计算机上对小分子进行预筛选,降低实际化合物的数目
ZINC:化合物小分子数据库
通过把一个小分子与多个靶标蛋白质进行分子对接,寻找潜在的靶标
scPDB
NAMD、CHARMM、DESMOND、GAUSS
贝叶斯方法在蛋白质耐热性分类中的研究(paper)
eg:地震预测
eg:生物学例子
二者很难兼得
序列算法:为研究生物序列而开发的计算复杂度尽可能低的算法
eg:序列匹配(找重复序列
big data:大、快、杂、疑
eg:尿不湿和啤酒
数据库(DB)+数据库管理系统(DBMS)
数据库:关系型数据库(MySQL)
面对对象型数据库(eXist-db)
设计分析计算机可以自动学习的算法。从一类数据中获取规律,利用规律对未知数据进行预测。
用向量表述物体
任务:分类、聚类、回归
k次交叉检验(检验模型的常用方法)
机器学习算法
文件格式(ARFF):纯文本文件,可转换成表格
术语:实例(行、属性(列、关系(结果
文件内容:头、属性声明、数据
属性类型
格式转换
Excel-csv-arff
Explorer 界面:数据挖掘界面
基本语法规则
常用函数
if语句
for循环
获取下载页面
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。