荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。
本文讨论的主要问题:
1.确保你不会泄漏保密的数据
2.保证你自己可以重复你的工作
3.选择合适的数据
4.确保保存了重要的文件
我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)
有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。
如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。
接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。
一、记住,你的数据提交到网络上就永远是不安全的。
当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。
我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。
二、把服务器,数据库和你运行的程序的版本号都记录下来。
如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。
为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉
如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。
服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。
三、把数据的Identification Numbers或者ID,AC号都记录下来。
一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。
四、记录下来程序运行的参数
简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。
简单的记录方式就是截屏,如果不会请看下面一条。
五、要是在网络上运行出来的结果,马上就要保存。
这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。
不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。
1.按键盘上的PrntScrn键,或者“印屏幕”键。
2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具
3.按Ctrl+V,如果出现对话框就按“是”。
4.保存或者打印。
如果保存成jpg图像,那你的图像质量就被压缩了。
最后强调一下,结果最好保存成文本文件。
六、使用E-value
你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:
E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。
E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。
E-value越小越好。专业一点说就是,E值越小,结果越显著。
七、使用生物信息学工具之前,好好读一下说明文档。
最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。
八、重要的结论性数据,要用不同的程序验证。
打个比方说,ClustalW的结果,用Phylip验证一下。
九、没发表的方法不要用。
不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。
十、数据库不像红酒
额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。
最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。
分享到:
相关推荐
你对Java感兴趣吗?学习JAVA的经验之谈。
HPLC使用注意事项及HPLC柱子使用经验之谈.pdf
ANSYS&有限元法\学ansys的经验之谈
学习Excel函数公式经验之谈.docx
总结学习VC的经验和方法,推荐学习各个阶段参考书籍,对初学VC者是个很好的方向指引
学习过ARM的人经验之谈,对正在学习ARM的人有个正确的规划
学霸经验之谈:学好初中语文有方法.pdf
学霸经验之谈:学好初中语文有方法.doc
Wireshark抓包工具使用分享 经验之谈 绝对受用
C# 合理使用ToolTip(经验之谈).doc
主要是有关PADS设计PCB的经验之谈,很好很实用的,希望对大家有帮助。
电子工程师的经验之谈
违章内容是转载的,主要是关于C语言的一些学习感悟,希望对大家有所帮助吧。
“工程师是科学家;工程师是艺术家;工程师也是思想家。”一位伟大的工程师曾经提出过这样的一段感言。不错,工程师是利用自然科学来创造工程的人。工程既是物质的也是思想上的。许多不朽的工程,伟大的发明以及...
ASP.NET中简单使用正则表达式文档(个人经验之谈)
Photoshop操作经验之谈,学习和利用Photoshop操作的好东西,都是精华,绝对有意义
采购工程项目师经验之谈
数模经验之谈 数模经验之谈 数模经验之谈 数模经验之谈
ARM技术初学者入门的好材料,是老ARM开发人员的一些经验之谈!