TBtools基因家族分析详细教程(1)

写在前面: 非常感谢CJ开发出如此强大的TBtools工具,作者详细讲解了基因家族的分析过程和意义,课程购买地址,讲的很棒,可以试听。

一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细教程(3)基因家族成员的进化分析1 TBtools基因家族分析详细教程(3)基因家族成员的进化分析2


Introduciton:什么是|为什么做(意义)| 辅助基因注释或矫正基因注释 为后续物种gene功能研究做铺垫 确定家族中可用的目标gene分支(包括挖掘新分支) 基础的生物信息学数据分析锻炼 充实论文内容或作为论文的主要内容 method:怎么做(涉及内容,已发表文献和自己理解),涉及序列保守,结构域定义,序列比对,进化树构建 内容见下面 结果:完成基因家族分析文章中的内容,甚至超过他们。 加深理解分子生物学和生物信息学 掌握部分TBtools工具的使用,加速生信下游数据分析 绘制漂亮的图片

Introduction 基因是染色体上一段可以发生转录的区域(内含子外显子启动子) 转录本才是基因的研究实体 基因家族来源于同一个祖先,由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene,其在结构和功能上就有明显的相似性,编码相似的蛋白质产物,同意家族gene可以紧密排列在一起,形成一个基因簇,但多数时候,他们分散在同一染色体的不同位置,或存在于不同的染色体上,各自有不同的表达调控模式 序列高度相似的序列,互为同源gene,归属于一个基因家族(拷贝数目多于1) 结构域的 角度来说,具有保守结构域(某个或多个)的序列,即为某个基因家族的序列(可能同时要不具有另外的某个结构域)

目录

1 基因家族成员的鉴定

  • 确定研究的基因家族
  • 家族成员的基本特征确定(参考已有物种)
  • 参考序列集合的准备
  • 目标物种序列和注释信息的下载或准备
  • 双向Blast比对获取可能的成员
  • 基于保守结构域进行进一步筛选

2 基因家族成员的基本分析

  • 成员的序列特征分析(分子量等电点等)
  • 基于motif分析成员序列保守特征与可视化(蛋白与核酸,可用于挖掘未知,尤其是核酸水平-非编码水平的保守)
  • 基于domain分析成员结构域的保守型与可视化(往往已知)
  • 基因结构分析(包括内含子模式)
  • 基因染色体分布情况可视化

3 基因家族成员的进化分析

  • 多序列比对与可视化
  • 进化树构建与可视化
  • 从进化水平分析motif模式
  • 从进化水平分析domain
  • 从进化水平分析基因结构变化
  • 合并分析以上三方面
  • 基因-共线性的定义与常见算法原理
  • 物种内的共线性分析
  • 基因家族成员的来源分析
  • 不同物种之间的共线性分析
  • 共线性分析结果可视化

内容

A 基因家族成员的鉴定

1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)

基因组序列信息:fasta格式文件 基因组基因结构注释信息:制表符分隔,存储基因的外显子内含子,CDS等坐标信息的.gff3或.gtf文件(区分基因结构注释与基因功能注释)

  • 获取途径 基因组文章中对应的链接 常见的数据库Ensemble植物,动物,Phytozome NCBI 其他途径

1.1蛋白序列结合的整理与提取(TBtools)

1.1.1使用Gtf/Gff3 sequence extractor,基于基因结构注释信息,从基因组中提取出所有基因的CDS序列

image1.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

1.1.2使用CDS to protein Translator将所有CDS翻译为蛋白序列

image.png

fasta文件每个名称后面有+号,简化

2 确定研究的基因家族

  • 课题相关,MYB,bHLH,WD40,花青素
  • 研究热点甲基化 甲基化酶 去甲基化酶
  • 新家族 某蛋白很关键 有没有家族

3 家族成员的基本特征确定(参考已有物种)

  • 研究相对透彻的基因家族,可参考收录了基因家族特征的网站如TAIR,PlantTFdb(针对转录因子)
  • 查阅文献(gras gene family为例),归纳总结 注意:保守的结构域(在哪段),几个分支,保守的aa位点,长度波动

4 参考序列集合的准备

  • 从已经收录的网站下载tari
  • UniProt动植物都有
  • 自行整理(基于文献或自行鉴定的新家族)

5 双向Blast比对获取可能的成员

image.png

image.png

image.png

比对得到的结果,去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的结果。 下面再extract上述42个ID的protein sequence的fasta数据

接下来去NCBI blastp

image.png

用TBtools把xml格式转化为table格式

image.png

按Query_def删除重复项,保留的都是第一个hit,也就是最匹配的hit。为了判断是不是全部都家族成员,可以对可疑的基因进行文献搜索 通过初步筛选,上述42个基本都是基因家族成员,为了进一步确定,进行下一步基于保守结构域进一步筛选

6 基于保守结构域进行进一步筛选

ncib web cd search 或pfam

image.png

可视化

image.png

image.png

image.png

pineapple的(这个图有问题,可以直接在修改short name列名就可以,注意空格等,这里我就不再改了,后面改过来了)

直接删除,若严谨,重新截取此基因组序列的前后序列,具体

image.png

打开genePose文件,查找刚才可疑的某个gene比如Aco005453.1

image.png

image.png

复制上述序列到softberry FGENESH-M工具

image.png

image.png

image.png

结果说明该基因本来该两个结构域,现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。

合智互联客户成功服务热线:400-1565-661

admin
admin管理员

上一篇:Dubbo to Istio / Dubbo Mesh 极简改造指南
下一篇:边缘计算和网络切片,为何成为5G的“技术网红”

留言评论

暂无留言