暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

变异注释-软件annovar

罗大黑学生信 2021-07-12
2865

目录

annovar 简介

annovar 下载安装

annovar 下载数据库

annovar 注释与注释结果说明


annovar简介

         ANNOVAR是由王凯编写的一个注释软件,可以对SNP和indel进行注释,也可以进行变异的过滤筛选。主要包括3种注释模式:

  • gene-based annotation:判断SNV或CNV是否造成蛋白编码或氨基酸的改变,可用基因命名系统包括RefSeq, UCSC, ENSEMBL,GENCODE, AceView等。

  • region-based annotation:变异位于染色体哪个区域,预测转录因子结合位点、SD区域、GWAS hits…

  • filter-based annotation:鉴定在特定数据库中记录的变异,如是否在dbSNP中被报道


annovar 下载安装

        下载 :.edu邮箱注册:

http://www.openbioinformatics.org/annovar/annovar_download_form.php

        安装 :免安装,下载即可以使用


annovar 下载数据库

        ANNOVAR的官方文档列出了可供下载的数据库及版本、更新日期等信息,地址:https://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases

         也可以通过命令下载至本地,查看相关是否存在的数据库,命令如下:

## 1. 利用软件annovar 查看annovar中收录的数据库,输出文件:hg19_avdblist.txt
perl annotate_variation.pl -downdb -buildver hg19 -webfrom annovar avdblist humandb/
# annotate_variation.pl 运行程序
# -downdb 下载数据库
# -webfrom annovar 从annovar库里下载
# -buildver hg19 基因组对应版本 hg19
# avdblist 查看annovar中收录的数据库
# humandb/ 下载至该目录
复制

举例下载clinvar数据库:

第一步:通过上述的操作查找annovar库中 clinvar数据库的版本、更新日期等信息,如:clinvar_20210123;

第二步:利用软件中程序 annotate_variation.pl 进行下载。

## 2. 下载数据库
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar clinvar_20210123 humandb/
#-buildver: 基因组对应版本 hg19
# -downdb: 下载数据库
#-webfrom annovar: 从annovar库里下载;如果annovar库中没有,则不用写该选项,会从UCSC中下载
#clinvar_20210123: 下载的数据库名称
#humandb/: 下载至该目录
复制


annovar 注释

输入文件格式:
## 1. 手动生成
>> cat 20210413_avinput.txt
9 133738370 133738370 A G
12 25398281 25398281 C T
10 89692792 89692792 C G
7 140453136 140453136 TCC -


2. VCF 转annovar 的输入文件
#convert2annovar.pl -format pileup variant.pileup -outfile variant.query
convert2annovar.pl -format vcf4 variantfile -outfile variant.avinput
eg:
convert2annovar.pl -format vcf4 S2000332-L1.varscan.vcf -outfile variant.avinput
>> cat variant.avinput
1 115258744 115258744 C T het . 633
2 209113138 209113138 T C het . 1084
4 1806058 1806058 C T het . 187
4 1807894 1807894 G A hom . 133
复制

ANNOVAR使用.avinput格式,如以上代码所示,该格式每列以tab分割,最重要的地方为前5列,分别是:

1. 染色体(Chromosome)

2. 起始位置(Start)

3. 结束位置(End)

4. 参考等位基因(Reference Allele)

5. 替代等位基因(Alternative Allele)

6. 剩下为注释部分(可选)。


gene-based annotation

分析变异位点对蛋白质的影响,支持多种基因集,包括RefSeq, UCSC, ENSEMBL, GENCODE 等。

>> annotate_variation.pl --geneanno -buildver hg19 -hgvs variant.avinput humandb/
复制


region-based annotation

分析变异位点是否位于基因组上的特殊区域


Filter-based annotation

分析变异位点是否收录在相关的数据库。常用的数据库可以分成以下8个类别

1. 基于全基因组数据的突变位点频率数据库

1000g2015aug;kaviar_20150923;hrcr1;cg69;gnomad_genome

2. 基于全外显子组数据的突变位点频率数据库

exac03;esp6500siv2;gnomad_exome

3. 特殊人群的突变位点频率数据库

ajews;TMC-SNPDB;gme

4. 基于全基因组数据的突变位点功能预测数据库

gerp++;cadd;cadd13;dann;fathmm;eigen;gwava

5. 基于全外显子数据的突变位点功能预测数据库

dbnsfp30a

6. 剪切区域的突变位点功能预测数据库

dbscsnv11;spidex

7 . 疾病相关的突变位点数据库

clinvar;cosmic;icgc21;nci60

8. 通用的突变位点数据库

snp142;avsnp142

annotate_variation.pl --filter variant.avinput -dbtype 1000g2015aug_all  -buildver hg19  humandb/
复制


ANNOVAR注释:用table_annovar.pl进行注释(可一次性完成三种类型的注释)

# perl table_annovar.pl 20210413_avinput.txt humandb/ -buildver hg19 -out myanno -remove -protocol refGene,esp6500siv2_all,1000g2015aug_all,avsnp147,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f,f,f,f -nastring . -csvout
perl table_annovar.pl 20210413_avinput.txt humandb/ -buildver hg19 -out myanno -remove -protocol refGene,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f -nastring . -csvout


#-bulidver hg19 表示使用的参考基因组版本
#-out myanno 表示输出文件前缀
#-remove 表示删除中间文件
#-protocol 表示使用的数据库,其数据库顺序要与后面的operation注释方式对应上
#-operation 表示对应数据库的注释类型(g代表gene-based、r代表region-based、f代表filter-based,gx means gene-based with cross-reference annotation (from -xref argument))
#-nasting . 点号代替缺省值
#-csvout 表示输出为csv格式






command:
>> perl table_annovar.pl variant.avinput /path/humandb/ -buildver hg19 -out myanno -protocol refGene,esp6500siv2_all,1000g2015aug_all,avsnp147,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f,f,f,f -nastring . -csvout


>>cat myanno.hg19_multianno.txt


Chr Start End Ref Alt Func.refGene Gene.refGene GeneDetail.refGene ExonicFunc.refGene AAChange.refGene esp6500siv2_all 1000g2015aug_all CLNALLELEID CLNDN CLNDISDB CLNREVSTAT CLNSIG
1 115258744 115258744 C T exonic NRAS . nonsynonymous SNV NRAS:NM_002524:exon2:c.G38A:p.G13D . . 28940 Acute_myeloid_leukemia|Melanoma|Medulloblastoma|Transitional_cell_carcinoma_of_the_bladder|Multiple_myeloma|Malignant_melanoma_of_skin|Juvenile_myelomonocytic_leukemia|Non-Hodgkin_lymphoma|Neoplasm_of_the_large_intestine|Adenocarcinoma_of_stomach|Noonan_syndrome_6|RAS-associated_autoimmune_leukoproliferative_disorder|Myelodysplastic_syndrome|not_provided Human_Phenotype_Ontology:HP:0001914,Human_Phenotype_Ontology:HP:0004808,Human_Phenotype_Ontology:HP:0004843,Human_Phenotype_Ontology:HP:0005516,Human_Phenotype_Ontology:HP:0006724,Human_Phenotype_Ontology:HP:0006728,MONDO:MONDO:0018874,MeSH:D015470,MedGen:C0023467,OMIM:601626,Orphanet:ORPHA519,SNOMED_CT:17788007|Human_Phenotype_Ontology:HP:0002861,Human_Phenotype_Ontology:HP:0002887,Human_Phenotype_Ontology:HP:0006777,Human_Phenotype_Ontology:HP:0007474,MONDO:MONDO:0005105,MeSH:D008545,MedGen:C0025202,SNOMED_CT:2092003,SNOMED_CT:372244006|Human_Phenotype_Ontology:HP:0002885,MONDO:MONDO:0007959,MeSH:D008527,MedGen:C0025149,OMIM:155255,Orphanet:ORPHA616|Human_Phenotype_Ontology:HP:0006740,MONDO:MONDO:0005611,MedGen:C0279680|Human_Phenotype_Ontology:HP:0006775,MONDO:MONDO:0009693,MeSH:D009101,MedGen:C0026764,OMIM:254500,Orphanet:ORPHA29073,SNOMED_CT:109989006,SNOMED_CT:55921005|Human_Phenotype_Ontology:HP:0012056,MONDO:MONDO:0005012,MeSH:C562393,MedGen:C0151779,OMIM:PS155600,SNOMED_CT:93655004|Human_Phenotype_Ontology:HP:0012209,MONDO:MONDO:0011908,MedGen:C0349639,OMIM:607785,Orphanet:ORPHA86834|Human_Phenotype_Ontology:HP:0012539,MONDO:MONDO:0018908,MedGen:C0024305,Orphanet:ORPHA547,SNOMED_CT:1929004|Human_Phenotype_Ontology:HP:0100834,MeSH:D015179,MedGen:C0009404,SNOMED_CT:126837005|MONDO:MONDO:0005036,MedGen:C0278701|MONDO:MONDO:0013186,MedGen:C2750732,OMIM:613224|MONDO:MONDO:0013767,MedGen:C2674723,OMIM:614470,Orphanet:ORPHA268114|MONDO:MONDO:0018881,MeSH:D009190,MedGen:C3463824,OMIM:614286,Orphanet:ORPHA52688|MedGen:CN517202 criteria_provided,_single_submitter Pathogenic
2 209113138 209113138 T C exonic IDH1 . synonymous SNV IDH1:NM_001282386:exon4:c.A369G:p.G123G,IDH1:NM_001282387:exon4:c.A369G:p.G123G,IDH1:NM_005896:exon4:c.A369G:p.G123G . . . . . . .
4 1806058 1806058 C T exonic FGFR3 . synonymous SNV FGFR3:NM_000142:exon9:c.C1077T:p.A359A,FGFR3:NM_001163213:exon9:c.C1083T:p.A361A . . . . . . .
4 1807894 1807894 G A exonic FGFR3 . synonymous SNV FGFR3:NM_022965:exon12:c.G1617A:p.T539T,FGFR3:NM_000142:exon14:c.G1953A:p.T651T,FGFR3:NM_001163213:exon14:c.G1959A:p.T653T 0.9551 0.95607 861287 Squamous_cell_lung_carcinoma Human_Phenotype_Ontology:HP:0030359,MONDO:MONDO:0005097,MedGen:C0149782 no_assertion_criteria_provided Likely_benign
4 55152040 55152040 C T exonic PDGFRA . synonymous SNV PDGFRA:NM_006206:exon18:c.C2472T:p.V824V 0.1983 0.240415 251497 Gastrointestinal_stromal_tumor|Hereditary_cancer-predisposing_syndrome|Idiopathic_hypereosinophilic_syndrome|not_specified Human_Phenotype_Ontology:HP:0100723,MONDO:MONDO:0011719,MeSH:D046152,MedGen:C0238198,OMIM:606764,Orphanet:ORPHA44890|MONDO:MONDO:0015356,MedGen:C0027672,Orphanet:ORPHA140162,SNOMED_CT:699346009|MedGen:C0206141,OMIM:607685|MedGen:CN169374 criteria_provided,_multiple_submitters,_no_conflicts Benign
复制


通过注释可以获取如下的信息:

1. Gene.refGene 变异位点注释上的基因;

2. Func.refGene 变异位点在基因上的区域;(annovar将基因组划分成了9种区间,分别exonic, splicing, ncRNA, UTR5, UTR3, intronic, upstream, downstream, intergenic)

3. ExonicFunc.refGene 变异类型(SNV:synonymous SNV(同义突变),nonsynonymous SNV(非同义突变); deletion:frameshift deletion, frameshift deletion ;insertion:frameshift insertion, nonframeshift insertion(移码与非移码)stopgain指的是突变之后,原本的密码子变成了终止密码子,stoploss指的是突变之后,原本的终止密码子变成了普通密码子,导致翻译情况变化较大。)

4. AAChange.refGene 氨基酸的变化情况(在表示氨基酸的变化情况,annovar采用的是自己定义的命名方式,非HGVS定义的命名方式)

5. esp6500siv2_all  给出该突变在 esp6500siv2_all 突变频率

6.  不同类型的数据库提供了多种类型的注释信息。




参考

ANNOVAR | 注释 http://itpcb.com/a/269905

生信修炼手册 |ANNOVAR变异位点注释软件





















文章转载自罗大黑学生信,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论