庞晓杰

又一个WordPress站点

荆州职业技术学院教务处使用bash脚本从ArrayExpress下载和处理基因表达数据(去接头和质控)-生信学习

使用bash脚本从ArrayExpress下载和处理基因表达数据(去接头和质控)-生信学习

ArrayExpress数据库简介
??ArrayExpress是EBI的微阵列实验和基因表达谱的公共数据库,它是一个一般的基因表达数据库,设计用来保存来自所有微阵列平台的数据家有爹娘2。ArrayExpress使用MIAME(Minimum Information About a Microarray Experiment绝色太监,有关微阵列实验的最小化信息)注释标准及相关的XML数据交换格式MAGE-ML(Microarray Gene Expression Markup Language,微阵列基因表达标记语言)久保田玲奈 ,它被设计成以结构化的方式来存储良好注释的数据。ArrayExpress基础结构由数据库本身曾怡纶 ,以MAGE-ML格式的数据提交或通过在线的提交工具MIAMExpress,在线数据库查询接口,Expression Profiler在线分析工具组成。**ArrayExpress提供三种类型的提交论他妈的,阵列,实验和实验方案,它们中的每一个都分配一个登录号。房仕德**数据提交和注释的帮助由监管小组提供。数据库可以用诸如作者超级修仙系统 ,实验室,物种lansee ,试验或阵列类型等参数进行查询三宝胶囊 。随着越来越多的(an increasing number of)组织采用MAGE-ML标准,提交到ArrayExpress的量在快速增长着。具体步骤
AEArrayExpress主页搜索E-MTAB-567
https://www.ebi.ac.uk/arrayexpress/

点击Export table in Tab-delimited format玩具兵大战,下载E-MTAB-567.sdrf.txt

提取status,ID,link
grep 'fastq.gz' E-MTAB-567.sdrf.txt | head -2 | awk '{print $39"荆州职业技术学院教务处,"$21"成本华 ,"$35}' > status校园魔王,ID,link.csv
输出:
mainPipeline.sh
(具体脚本查看原文)
在后台运行脚本nohup ./mainPipeline.sh > outMainPipeline.log &附录:
基本命令:basename
用途:返回一个字符串参数的基本文件名称
语法:basename String [ Suffix ]
描述:basename 命令读取 String 参数,删除以 /(斜杠) 结尾的前缀以及任何指定的 Suffix 参数,并将剩余的基本文件名称写至标准输出。
(截取文件名)例如,输入:
basename Normal.10N_1.ERR031017_1.trimmed.fastq _1.trimmed.fastq
结果是:Normal.10N_1.ERR031017
例如,输入:
basename /u/dee/desktop/cns.boo cns.boo
结果是:cns.boo
如果指定 Suffix(后缀名)参数,且它和字符串中所有字符都不相同苑刚,但和字符串的后缀相同误杀瞒天记,则除去指定后缀强尼戴普 。例如,输入:
basename /u/dee/desktop/cns.boo .boo
结果是:cns
fastq_quality_trimmer
fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILe] 修剪reads的末端
[-t N] = 从5'端开始魏吉英,低与N的质量的碱基将被修剪掉
[-l N] = 修建之后的reads的长度允许的最短值
[-z] = 压缩输出
[-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT苏丽事件 ,如果没有则输入到STDERR
3.以下代码段用于脚本的分步测试
(具体脚本查看原文)参考:
(1)Bash scripting for Bioinformatics
https://www.youtube.com/watch九空无界?v=3ME7gayYeUQ
(2)Linux命令之basename 命令
http://blog.sina.com.cn/s/blog_5f70c7060100ukyh.html
(3)高通量测序数据的质控工具---fastx_toolkit软件使用说明
http://blog.sciencenet.cn/blog-1509670-848270.html