目录
annovar 简介
annovar 下载安装
annovar 下载数据库
annovar 注释与注释结果说明
annovar简介
ANNOVAR是由王凯编写的一个注释软件,可以对SNP和indel进行注释,也可以进行变异的过滤筛选。主要包括3种注释模式:
gene-based annotation:判断SNV或CNV是否造成蛋白编码或氨基酸的改变,可用基因命名系统包括RefSeq, UCSC, ENSEMBL,GENCODE, AceView等。
region-based annotation:变异位于染色体哪个区域,预测转录因子结合位点、SD区域、GWAS hits…
filter-based annotation:鉴定在特定数据库中记录的变异,如是否在dbSNP中被报道
annovar 下载安装
下载 :.edu邮箱注册:
http://www.openbioinformatics.org/annovar/annovar_download_form.php
安装 :免安装,下载即可以使用
annovar 下载数据库
ANNOVAR的官方文档列出了可供下载的数据库及版本、更新日期等信息,地址:https://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases
也可以通过命令下载至本地,查看相关是否存在的数据库,命令如下:
## 1. 利用软件annovar 查看annovar中收录的数据库,输出文件:hg19_avdblist.txt
perl annotate_variation.pl -downdb -buildver hg19 -webfrom annovar avdblist humandb/
# annotate_variation.pl 运行程序
# -downdb 下载数据库
# -webfrom annovar 从annovar库里下载
# -buildver hg19 基因组对应版本 hg19
# avdblist 查看annovar中收录的数据库
# humandb/ 下载至该目录
复制
举例下载clinvar数据库:
第一步:通过上述的操作查找annovar库中 clinvar数据库的版本、更新日期等信息,如:clinvar_20210123;
第二步:利用软件中程序 annotate_variation.pl 进行下载。
## 2. 下载数据库
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar clinvar_20210123 humandb/
#-buildver: 基因组对应版本 hg19
# -downdb: 下载数据库
#-webfrom annovar: 从annovar库里下载;如果annovar库中没有,则不用写该选项,会从UCSC中下载
#clinvar_20210123: 下载的数据库名称
#humandb/: 下载至该目录
复制
annovar 注释
输入文件格式:
## 1. 手动生成
>> cat 20210413_avinput.txt
9 133738370 133738370 A G
12 25398281 25398281 C T
10 89692792 89692792 C G
7 140453136 140453136 TCC -
2. VCF 转annovar 的输入文件
#convert2annovar.pl -format pileup variant.pileup -outfile variant.query
convert2annovar.pl -format vcf4 variantfile -outfile variant.avinput
eg:
convert2annovar.pl -format vcf4 S2000332-L1.varscan.vcf -outfile variant.avinput
>> cat variant.avinput
1 115258744 115258744 C T het . 633
2 209113138 209113138 T C het . 1084
4 1806058 1806058 C T het . 187
4 1807894 1807894 G A hom . 133
复制
ANNOVAR使用.avinput格式,如以上代码所示,该格式每列以tab分割,最重要的地方为前5列,分别是:
1. 染色体(Chromosome)
2. 起始位置(Start)
3. 结束位置(End)
4. 参考等位基因(Reference Allele)
5. 替代等位基因(Alternative Allele)
6. 剩下为注释部分(可选)。
gene-based annotation
分析变异位点对蛋白质的影响,支持多种基因集,包括RefSeq, UCSC, ENSEMBL, GENCODE 等。
>> annotate_variation.pl --geneanno -buildver hg19 -hgvs variant.avinput humandb/
复制
region-based annotation
分析变异位点是否位于基因组上的特殊区域
Filter-based annotation
分析变异位点是否收录在相关的数据库。常用的数据库可以分成以下8个类别
1. 基于全基因组数据的突变位点频率数据库
1000g2015aug;kaviar_20150923;hrcr1;cg69;gnomad_genome
2. 基于全外显子组数据的突变位点频率数据库
exac03;esp6500siv2;gnomad_exome
3. 特殊人群的突变位点频率数据库
ajews;TMC-SNPDB;gme
4. 基于全基因组数据的突变位点功能预测数据库
gerp++;cadd;cadd13;dann;fathmm;eigen;gwava
5. 基于全外显子数据的突变位点功能预测数据库
dbnsfp30a
6. 剪切区域的突变位点功能预测数据库
dbscsnv11;spidex
7 . 疾病相关的突变位点数据库
clinvar;cosmic;icgc21;nci60
8. 通用的突变位点数据库
snp142;avsnp142
annotate_variation.pl --filter variant.avinput -dbtype 1000g2015aug_all -buildver hg19 humandb/
复制
ANNOVAR注释:用table_annovar.pl进行注释(可一次性完成三种类型的注释)
# perl table_annovar.pl 20210413_avinput.txt humandb/ -buildver hg19 -out myanno -remove -protocol refGene,esp6500siv2_all,1000g2015aug_all,avsnp147,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f,f,f,f -nastring . -csvout
perl table_annovar.pl 20210413_avinput.txt humandb/ -buildver hg19 -out myanno -remove -protocol refGene,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f -nastring . -csvout
#-bulidver hg19 表示使用的参考基因组版本
#-out myanno 表示输出文件前缀
#-remove 表示删除中间文件
#-protocol 表示使用的数据库,其数据库顺序要与后面的operation注释方式对应上
#-operation 表示对应数据库的注释类型(g代表gene-based、r代表region-based、f代表filter-based,gx means gene-based with cross-reference annotation (from -xref argument))
#-nasting . 点号代替缺省值
#-csvout 表示输出为csv格式
command:
>> perl table_annovar.pl variant.avinput /path/humandb/ -buildver hg19 -out myanno -protocol refGene,esp6500siv2_all,1000g2015aug_all,avsnp147,exac03,dbnsfp41a,clinvar_20210123 -operation g,f,f,f,f,f,f -nastring . -csvout
>>cat myanno.hg19_multianno.txt
Chr Start End Ref Alt Func.refGene Gene.refGene GeneDetail.refGene ExonicFunc.refGene AAChange.refGene esp6500siv2_all 1000g2015aug_all CLNALLELEID CLNDN CLNDISDB CLNREVSTAT CLNSIG
1 115258744 115258744 C T exonic NRAS . nonsynonymous SNV NRAS:NM_002524:exon2:c.G38A:p.G13D . . 28940 Acute_myeloid_leukemia|Melanoma|Medulloblastoma|Transitional_cell_carcinoma_of_the_bladder|Multiple_myeloma|Malignant_melanoma_of_skin|Juvenile_myelomonocytic_leukemia|Non-Hodgkin_lymphoma|Neoplasm_of_the_large_intestine|Adenocarcinoma_of_stomach|Noonan_syndrome_6|RAS-associated_autoimmune_leukoproliferative_disorder|Myelodysplastic_syndrome|not_provided Human_Phenotype_Ontology:HP:0001914,Human_Phenotype_Ontology:HP:0004808,Human_Phenotype_Ontology:HP:0004843,Human_Phenotype_Ontology:HP:0005516,Human_Phenotype_Ontology:HP:0006724,Human_Phenotype_Ontology:HP:0006728,MONDO:MONDO:0018874,MeSH:D015470,MedGen:C0023467,OMIM:601626,Orphanet:ORPHA519,SNOMED_CT:17788007|Human_Phenotype_Ontology:HP:0002861,Human_Phenotype_Ontology:HP:0002887,Human_Phenotype_Ontology:HP:0006777,Human_Phenotype_Ontology:HP:0007474,MONDO:MONDO:0005105,MeSH:D008545,MedGen:C0025202,SNOMED_CT:2092003,SNOMED_CT:372244006|Human_Phenotype_Ontology:HP:0002885,MONDO:MONDO:0007959,MeSH:D008527,MedGen:C0025149,OMIM:155255,Orphanet:ORPHA616|Human_Phenotype_Ontology:HP:0006740,MONDO:MONDO:0005611,MedGen:C0279680|Human_Phenotype_Ontology:HP:0006775,MONDO:MONDO:0009693,MeSH:D009101,MedGen:C0026764,OMIM:254500,Orphanet:ORPHA29073,SNOMED_CT:109989006,SNOMED_CT:55921005|Human_Phenotype_Ontology:HP:0012056,MONDO:MONDO:0005012,MeSH:C562393,MedGen:C0151779,OMIM:PS155600,SNOMED_CT:93655004|Human_Phenotype_Ontology:HP:0012209,MONDO:MONDO:0011908,MedGen:C0349639,OMIM:607785,Orphanet:ORPHA86834|Human_Phenotype_Ontology:HP:0012539,MONDO:MONDO:0018908,MedGen:C0024305,Orphanet:ORPHA547,SNOMED_CT:1929004|Human_Phenotype_Ontology:HP:0100834,MeSH:D015179,MedGen:C0009404,SNOMED_CT:126837005|MONDO:MONDO:0005036,MedGen:C0278701|MONDO:MONDO:0013186,MedGen:C2750732,OMIM:613224|MONDO:MONDO:0013767,MedGen:C2674723,OMIM:614470,Orphanet:ORPHA268114|MONDO:MONDO:0018881,MeSH:D009190,MedGen:C3463824,OMIM:614286,Orphanet:ORPHA52688|MedGen:CN517202 criteria_provided,_single_submitter Pathogenic
2 209113138 209113138 T C exonic IDH1 . synonymous SNV IDH1:NM_001282386:exon4:c.A369G:p.G123G,IDH1:NM_001282387:exon4:c.A369G:p.G123G,IDH1:NM_005896:exon4:c.A369G:p.G123G . . . . . . .
4 1806058 1806058 C T exonic FGFR3 . synonymous SNV FGFR3:NM_000142:exon9:c.C1077T:p.A359A,FGFR3:NM_001163213:exon9:c.C1083T:p.A361A . . . . . . .
4 1807894 1807894 G A exonic FGFR3 . synonymous SNV FGFR3:NM_022965:exon12:c.G1617A:p.T539T,FGFR3:NM_000142:exon14:c.G1953A:p.T651T,FGFR3:NM_001163213:exon14:c.G1959A:p.T653T 0.9551 0.95607 861287 Squamous_cell_lung_carcinoma Human_Phenotype_Ontology:HP:0030359,MONDO:MONDO:0005097,MedGen:C0149782 no_assertion_criteria_provided Likely_benign
4 55152040 55152040 C T exonic PDGFRA . synonymous SNV PDGFRA:NM_006206:exon18:c.C2472T:p.V824V 0.1983 0.240415 251497 Gastrointestinal_stromal_tumor|Hereditary_cancer-predisposing_syndrome|Idiopathic_hypereosinophilic_syndrome|not_specified Human_Phenotype_Ontology:HP:0100723,MONDO:MONDO:0011719,MeSH:D046152,MedGen:C0238198,OMIM:606764,Orphanet:ORPHA44890|MONDO:MONDO:0015356,MedGen:C0027672,Orphanet:ORPHA140162,SNOMED_CT:699346009|MedGen:C0206141,OMIM:607685|MedGen:CN169374 criteria_provided,_multiple_submitters,_no_conflicts Benign
复制
通过注释可以获取如下的信息:
1. Gene.refGene 变异位点注释上的基因;
2. Func.refGene 变异位点在基因上的区域;(annovar将基因组划分成了9种区间,分别exonic, splicing, ncRNA, UTR5, UTR3, intronic, upstream, downstream, intergenic)
3. ExonicFunc.refGene 变异类型(SNV:synonymous SNV(同义突变),nonsynonymous SNV(非同义突变); deletion:frameshift deletion, frameshift deletion ;insertion:frameshift insertion, nonframeshift insertion(移码与非移码)stopgain指的是突变之后,原本的密码子变成了终止密码子,stoploss指的是突变之后,原本的终止密码子变成了普通密码子,导致翻译情况变化较大。)
4. AAChange.refGene 氨基酸的变化情况(在表示氨基酸的变化情况,annovar采用的是自己定义的命名方式,非HGVS定义的命名方式)
5. esp6500siv2_all 给出该突变在 esp6500siv2_all 突变频率
6. 不同类型的数据库提供了多种类型的注释信息。
参考
ANNOVAR | 注释 http://itpcb.com/a/269905
生信修炼手册 |ANNOVAR变异位点注释软件