1.13k likes | 1.28k Views
Strand NGS原名Avadis NGS, 来自知名软件厂商Strand,是新一代测序数据的分析、管理和可视化工具,可接受illumina,Roche454,ABI SOLID,Ion Torrent, Pacific Biosciences等测序平台的产出数据, 该软件的设计团队为来自美国和印度的科学家. 来自上海康昱盛
E N D
StrandNGS要点整理 上海康昱盛信息科技有限公司 基因组学部门 Day 1–第二节 Email: lwang@cloudscientific.com/marketing@cloudscientific.com 电话:021-54975000-819 地址:上海市沪松公路1399弄68号来伊份大厦1504室
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC Pre-AlignmentQC Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
软件下载 http://www.strand-ngs.com/ 不要用google Chrome打开,要用火狐打开相对更快. 需要注册学术/工业账号和密码,163,qq,gmail这些不行 http://www.strand-ngs.com/download/installers 选择适用的版本进行下载。 请注意区分32/64 bit不要下载错。windows下载好的文件为:StrandNGS_windows.exe
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
软件安装 • Windows双击安装文件StrandNGS_windows.exe就可以在图形界面下根据提示进行安装。 • Mac需要先下载安装文件StrandNGS_mac.zip, browser可以自动解压缩,如果不可以则需要双击。一旦解压缩,可以根据提示安装。如果有这样的提示信息:``StrandNGS mac'' can't be opened because it is from an unidentified developer ,需要到`Security & Privacy'(安全与隐私)中设置为`Allow applications downloaded from' to `Anywhere'. • 在Linux环境中,需要打开terminal(linux操作终端),运行目录切换至StrandNGS linux.bin存放目录中,运行 ./StrandNGS_linux.bin. 就可以在在图形界面的提示下进行安装。 • 在Windows中,StrandNGS需要administrator的授权方可安装,对安装的目录没有硬性要求;Mac 和Linux要求一定要安装在普通user(normal user)的帐户下(切记不要安装在root或者admin user下)。一旦安装成功,就需要输入license 来启动程序。
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
License的激活 • 需要输入OrderID,即厂家提供的ID号(厂家直接通过邮箱给出序列号,不通过代理销售)。Help—License manager中输入即可。 • 如下图操作。 输入license后可以查看该license的有效日期,该license允许进行全模块的分析(RNA-seq, DNA-seq等等所有分析)。 在这里需要注意,Biobase数据库自从被Qiagen收购, “Pathway Architect”一般和“NGS”有效日期同时。
License的激活 打算换一台电脑? • 软件如果需要在另外一台电脑运行,则需要把该license在前一个电脑中“surrender”即退出账户 , 之后才可以把license输入到新电脑中。如果是同一个电脑,从C盘重装到E盘,也需要surrender.
软件打开 • Tool not launching when double-clicked many times: • Regarding this issue, we request you to launch Strand NGS from cmd terminal. The steps for the same are mentioned below: • Open cmd terminal • cd <StrandNGS Installation directory>\bin\launcher\lib (Type the location where Strand NGS in installed) • Start StrandNGS.exe • If the tool doesn't launch from the command prompt and if there are any error messages printed in the terminal, please capture them and send it to us. • Also, navigate to the <Strand NGS Installation directory/logs> folder and send us the complete log files along with Strand_NGS_launch_err.log, Strand_NGS_launch_out.log and Strand_NGS_installation.log files
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
CPU,RAM(内存),HDD(硬盘) • CPU • 默认状态下,NGS软件会留下一个核来处理其他程序。 如果需要修改默认, • 则Tools—Options—Miscellaneous—Parallel来修改NGS 使用核数。 • 一般情况下,选择默认即可(默认为保留1核)
CPU,RAM(内存),HDD(硬盘) • 内存 • 默认情况下,如果是32位电脑,内存最大是1G。 64位电脑, 默认会利用75%电脑内存。也就是说,如果把软件安装在8GB内存的64位电脑, NGS应用程序将启动的最大内存是6GB。如果需要修改默认内存: • 在Windows/Linux, 打开INSTALL_DIR/bin/packages/properties.txt 中,找到java.options. Replace the entry -Xms50m 这一行。 然后在-Xms50m的后面,加上 –Xmx1300m, 即java.options. Replace the entry -Xms50m -–Xmx1300m,即把内存改为1.3GB。 • 在Mac OS X, 打开文件INSTALL_DIR/StrandNGS.app/Contents/Info.plist,同样找到有-Xms50m的那一行,输入<string>-Xmx1300m</string>在下一行,这样就把内存提高到了1.3GB。当然,一般选择默认即可(即内存利用率75%),无需修改。
CPU,RAM(内存),HDD(硬盘) • 硬盘 • 当安装好Strand NGS软件后, 需要注意在哪里存放我们的NGS文件。默认的位置是INSTALL DIR/app/Data文件夹。如果觉得这个文件夹空间不足以存放,则可以修改。到哪里修改?Tools—Change Repository. • 举一个例子: 如果默认的存放位置是C:/Program Files/Strand/StrandNGS,但是C盘容量是不够的,我们可以把它存放在D盘的文件夹,比如D:/StrandNGS Data这个文件夹。如果再过一段时间,D盘的容量也不够了,再换到E盘或者任何想换的位置。 Mac或者Linux平台也是同样的道理。Change Repository可以用很多次,NGS可以保留线索使得用户可以调取以前的数据。
CPU,RAM(内存),HDD(硬盘) • 有一点需要特别注意:无论是否有心,请不要直接删除系统文件,会导致一些应用文件丢失。比较保险的做法是,如果说某一个数据不想再保留了,比如1029这个项目:先右键点击“close Experiment”,再接着点击“Delete Experiment”就可以去掉。
7月18日补充 • Strand NGS would require sufficient space in the tmp directory (Installation directory/app/tmp by default), to complete the experiment creation. So it is recommended to change the tmp directory path as well, to the new location. • Please find the steps below to change the temporary folder to the new location: • Create a new folder 'STRANDTMP' in the drive which has more space. This location can also be the same drive where the new repository path was set. • Close StrandNGS • Navigate to the Strand NGS installation directory/bin/packages folder. • Open the "properties.txt" file and check for the line "tmp.dir=app/tmp". • Please change the path from "app/tmp" to "other drive". (Example : Change "tmp.dir=app/tmp" to "tmp.dir=D:/STRANDTMP"). • This will create tmp folder in the chosen new location. Once the changes have been done, all the temporary data while creating experiments, annotation downloads would start saving in the new location.
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
软件更新 • 如果软件有更新,打开软件会有提醒,按照提醒操作。如果万一忽略了提醒,可通过这个途径: Help—update Product—from strand server(在线)/file(本地)
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
注释更新 Annotations—Annotations Manager—List From Server:通过网络更新注释 From File:通过本地化文件更新注释
注释更新 有一点非常需要注意,无论是from server /file, 不是说按了这个按钮就可以了, 要在框中打勾(反面教材:没打勾=没选中) 一定要打勾, 打好勾要点右下角update,打勾=选中
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
创建项目(Project)&创建实验(experiment) 如果我们学校或者所里需要招三个学生,那么首先得给这位学生安排一个办公室,安排好大桌子,来接纳这三位人才。 这个办公室就等于一个Project, 桌子就相当于一个experiment, 这三个人才就相当于测序的三个数据。 一个办公室(Project)里面可以有很多个桌子(experiment), 这样可以安排多个学生(多个实验的实验数据) 单独或独立工作。 先得有办公室(Project),才能放桌子(experiment),才能安排学生(samples) 补充说明: 比如,一个项目(Project),做了3个实验(experiments)在StrandNGS软件里面分析,一个是RNA-seq5样本,一个是ChIP-seq2样本,一个是DNA-seq2样本,这三个实验都在一个项目中,可以单独或者关联分析。都是在这个项目(Project) 中的,但是超出这个Project的数据,需要先把当前的Project关掉(“Close Project”,在inspect Project下面)
创建项目(Project)&创建实验(experiment) 再回到我们如何创建Project上来:首先在主页面上点击New Project 起好Project的名称,这个Project可以存放很多实验( experiment)。默认的名称为“new Project”。 这里需要注意的是, 请各位老师自己一定要起好名字,记在自己的实验记录本上,免得时间长项目多忘掉。或者就是,一个课题组/一个操作人一个项目名称(project) ,这样好找。 切记不要默认项目名称,否则找不到
创建项目(Project)&创建实验(experiment) 下次想打开这个项目,点击“open Project”,选中自己的Project来打开运行。 创建好Project, 不用关闭,点击下一步,会出来此图, 即创建实验。
创建项目(Project)&创建实验(experiment) 有一点非常需要注意:如果需要输入的是fastq|fastq.gz: 如果是DNA测序(含外显子测序和靶向测序)或者ChIP测序,就选“DNAalignment-ChIP-Seq/DNA-Seq”; 如果是RNA测序(含单链,双链,链特异性),选“RNA Alignment “ ; 如果是小RNA测小RNA, 就选SmallRNA Alignment; 如果输入的是已经比对的文件BAM/SAM, 那么根据分析类型,选择ChIP/DNA Variant /Methyl/RNA/small RNA seq。 当然别忘了,给experiment 取一个合适的名字,不要总是默认名称是new experiment
创建项目(Project)&创建实验(experiment) 有可能,在当前Project里面加一个实验(比如,某位老师又做了一批RNA-seq实验,这些是新的实验)那样就是 “New Experiment” 想加入老实验怎么办? 选择“add experiment “ 即可(在new experiment 下方,会出以前做的experiment的名称,选择即可。
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
数据的导入 给experiment 取好名字,就可以导入数据了(安排好桌子,学生就能坐了) 如果打算做RNA-seq的fastq(或gz)开始的数据分析 ( 仍然需要提醒:原始数据选下面带alignment的词条,已经比对好的选上面带analysis的词条,做拿种分析选哪种类型) 选好物种,测序类型,测序平台,切忌不要选错(如果实在记不清楚,记得看和各家测序公司怎么签的合同,以合同内容为准,记忆不可靠)
数据的导入 选好以后进入下一页 上述三个图标分别是,打开, 排序,删除。 如果要打开文件,就选择左手第一项。 在这里要注意的是:同一个样本的测序文件,名字的前缀要一样,比如Aa_1.*, Aa_2.*是pair的数据. 如果原始数据是fastq.gz,不需要解压缩,NGS软件认可GZ 格式。(万一大家拿到的是fq格式,可以手动把后缀改为fastq)
数据的导入 也有可能会遇到这种情况, 补测了几次数据,还是同一个样本。那么,在Sample Name 这里,比如都写sample1,sample1,sample1。这样,软件会自动合并到一个样本。(不需要手工把补测的数据合并)。
数据的导入 再次回忆一下Fastq格式 : 对于一条read来说: @HWUSI-EAS100R:6:73:941:1973#0/1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT +HWUSI-EAS100R:6:73:941:1973#0/1 !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6 其中第一行以@开头,后面是reads的ID以及其他信息,例如上例中 HWUSI-EAS100R代表Illmina设备名称,6代表flowcell中的第六个lane,73代表第六个lane中的第73个tile,941:1973代表该read在该tile中的x:y坐标信息;#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads;/1代表paired end中的前一个read。 第二行为read的序列。 紧接着下面两行代表该read的质量, 第三行以“+”开头,跟随者该read的名称(一般于@后面的内容相同)。 第四行代表reads的质量,与第二行的碱基一一对应。由ASCⅡ码组成。
数据的导入 Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。 现在大家普遍接受的阈值是Q20,相当于允许1%的错误率。这个值的计算有多个不同的标准,最常用的是Sanger分数,即Phred(测序质量分数)+33,再转换成ASCⅡ码,如Q=20,其Sanger分数为20+33=53,其对应的ASCⅡ码是数字5。Illumina公司前期使用过Phred+64的标准,自CASAVA 1.8之后,又重新使用Phred+33。
数据的导入 上述是导入原始数据。导入比对好的数据呢 ?( 仍然需要提醒:已经比对好的选上面带analysis的词条,做哪种分析选哪种类型) 选好以后进入下一页 上述四个图标分别是,打开,寻找, 排序,删除
数据的导入 SAM/BAM 文件格式: • SAM (Sequence Alignment Map) format represents the alignment of reads to a reference sequence • Simple to read and parse (text, tab-delimited) • Flexible (possibility to add custom fields) • Can store paired-end information • BAM is a binary representation of SAM • Compressed by BGZF library • Greatly reduces storage space (~27% of original SAM) • SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。 • SAM分为两部分,注释信息(header section)和比对结果部分(alignment section) • 注释信息都是以@开头,用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。 比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
主界面 导入好数据以后,软件的操作界面分为这么几块: 1) Menu bar 菜单栏 2 )Tool bar 工具栏 3) Workflow Browser 流程操作界面 4 )Navigator 导航栏 5)Main Window 主界面6 )Status Bar 状态栏 7) Legend 图例 简单理解: 中间是主界面,看结果和分析展示; 左手边是导航栏, 要看算好的结果,点左边; 右边是流程操作界面栏,要算什么点右边
要点内容 • 软件下载 • 软件安装 • License的激活 • CPU,RAM(内存),HDD(硬盘) • 软件更新 • 注释更新 • 创建项目(Project)&创建实验(experiment) • 数据的导入 • 主界面 • 数据质控QC • Pre-AlignmentQC • Post-AlignmentQC • 序列比对 • 数据过滤 • 基因组浏览器的使用
数据质控QC 导入原始数据,首先看数据的QC。主界面右手边,有workflow 打开workflow,可以看到,分为Pre-AlignmentQC, Post-AlignmentQC, 也就是在做Alignment 之前和之后都要QC(数据特别自信的可以略过)。
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC] Reads with excellent base qualities for individual bases may still not align very well with the reference
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC]
数据质控QC- • Pre-AligmentQC • 1 Base quality by position[碱基测序质量] 横:Base position in read---直译为reads每一个位置(从1~read的长度)。对于illumina来说即测序的循环数; • 纵: Base quality---碱基质量,即所有该位点测量碱基的质量分数盒形值。 盒形图: 对于reads上的每一个位置的碱基,所有reads在该位置的碱基质量汇总为boxplot. 盒子的上边缘和下边缘指示四分位数间距 (IQR),即介于第一个和第三个四分位数(第 25 百分位数和第 75 百分位数)之间的值范围。红线:中位数,蓝线:平均值。 蓝色的线(平均值)整体〉20过关
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC]
数据质控QC- • Pre-AligmentQC • 2 Base composition by positon[碱基组成] 横:Base Position in Read---直译为reads每一个位置(1~read的长度)。即测序的循环数 纵:Base Frequency(percentage)---核苷酸(A,T,C,G)频率 此图展示了read每一个位置的不同的核苷酸(A,T,C,G)频率。图中四条不同颜色的线,每一种核苷酸代表一个颜色。AT两股经常靠在一起,CG两股经常靠在一起。
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC]
数据质控QC- • Pre-AligmentQC • 3 Base quality Distribution[碱基质量分布频率] 横:Base quality---以碱基为单位,碱基质量 纵:Number of bases---碱基个数 测序仪给所有reads 的所有碱基质量打分。质量分数越高,质量越好。碱基质量直方图展示了所有碱基质量分布,即统计某质量分数的对应碱基个数。
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC]
数据质控QC- • Pre-AligmentQC • 4 Read quality Distribution[reads质量分布频率] 横:Average base quality in read---read质量(每条read的碱基平均质量) 纵:Read count ---read个数 此图统计了所有read的质量的分布。即统计符合符合某质量分数的对应read个数。
数据质控QC 数据质控QC Pre-AligmentQC 1 Base quality by position[碱基测序质量] 2 Base composition by positon[碱基组成] 3 Base quality Distribution[碱基质量分布频率] 4 Read quality Distribution[reads质量分布频率] 5 Read Length Distribution[Read的长度分布] Post-AlignmentQC 1 Base Quality by Tile[tile的碱基质量] 2 Alignment Quality by Tile[tile的比对质量] 3 Alignment QC Plots[比对QC图] 4 Targeted region QC[靶区域的QC]