KEGG API学习笔记(2)

既然已经可以从利用API成功调取数据了,我们应该开始自己的学习过程了。据以前的体会,学习一门语言,必须带着问题去学才能有效果。于是在学习前,为自己留下一个作业,作业题目是,

假设现在有两比较样本的microarray芯片的资料需要分析,资料以列表的形式表示,列表示例如下:

1_Signal 1_Detection 2_Signal 2_Detection Descriptions
1771550_at 66.8 P 67.2 A S. cerevisiae YAL064W-B GEN=SEO1
DB_XREF=GI:6319253
SEG=NC_001133:+12047,12427
DEF=Hypothetical ORF
NOTE=Yal064w-bp; go_component: cellular_component unknown [goid
GO:0008372] [evidence ND]; go_function: molecular_function unknown [goid
GO:0005554] [evidence ND]; go_process: biological_process unknown [goid GO:0000004]
[evidence ND]
1772356_at 23.8 A 13.6 A S. cerevisiae YAL064C-A
GEN=SEO1
DB_XREF=GI:7839146
SEG=NC_001133:-13364,13744
DEF=Hypothetical ORF
NOTE=Yal064c-ap; go_component: cellular_component unknown [goid
GO:0008372] [evidence ND]; go_function: molecular_function unknown [goid
GO:0005554] [evidence ND]; go_process: biological_process unknown [goid GO:0000004]
[evidence ND]
1772528_at 7.3 A 3.2 A S. cerevisiae YAL064W
GEN=SEO1
DB_XREF=GI:6319254
SEG=NC_001133:+21526,21852
DEF=Hypothetical ORF
NOTE=Yal064wp; go_component: cellular_component unknown [goid
GO:0008372] [evidence ND]; go_function: molecular_function unknown [goid
GO:0005554] [evidence ND]; go_process: biological_process unknown [goid
GO:0000004] [evidence ND]
1776321_at 120.9 P 40.3 A S. cerevisiae YAL063C-A
GEN=SEO1
DB_XREF=GI:33438755
SEG=NC_001133:-22397,22687
DEF=Identified by expression profiling and mass spectrometry NOTE=Yal063c-ap; go_component:
cellular_component unknown [goid GO:0008372] [evidence ND]; go_function:
molecular_function unknown [goid GO:0005554] [evidence ND]; go_process:
biological_process unknown [goid GO:0000004] [evidence ND]
1779679_s_at 197.5 P 204.6 P S. cerevisiae YAL063C
GEN=FLO9
DB_XREF=GI:6319255
SEG=NC_001133:-24001,27969
DEF=Lectin-like protein with similarity to Flo1p, thought to be
expressed and involved in flocculation
NOTE=Flo9p; go_component: cell wall (sensu Fungi) [goid GO:0009277]
[evidence ISS] [pmid 7502576]; go_function: mannose binding [goid GO:0005537]
[evidence ISS] [pmid 7502576]; go_process: flocculation (sensu Saccharomyces)
[goid GO:0000501] [evidence IEP,ISS] [pmid 7502576]

列表中第一列为microarray中的序列编号,第二,四列为信号强度,第三,五列信号可识别度,P为良好,A为差,第六列为信息说明。需要比较两次实验中信号良好的两信号差别,差异显著的,使用KEGG的代谢算途径库图象化表示,并提供统计表,清晰描绘两次实验的差异。

先把作业分析一下,大约是要先逐行读取文件,然后依据表格分格符将数据分割成六列,当第三与第五列均为P时比较第二,四列信号强度差距,差别在一个数量级以上时,从最后一列中读取 DB_XREF后的数据库号,通过它在KEGG中查找相应的代谢信息,做形象化处理。
今天要完成的就是数据的读取工作。其余的工作以后几课再做。
设文件名为$filename=”c\TPS1NS.xls”;
程序代码如下: [……]

Read more

KEGG API学习笔记(1)

我写这个东西,就是为了给自己一个激励,防止自己半途而废。KEGG(Kyoto Encyclopedia of Genes and Genomes)写的这个API是基于SOAP的,一开始本来打算用C来学习的,试了两天一直没有搞定SOAP客户端怎么弄,只好发个懒,学习Perl吧,以前因为一些机缘,了解一点正则,深感Perl的方便,也正好是个机会。
先搭建环境,在WindowsXP下,先安装了一个Ac[……]

Read more