[Bio] / FigKernelScripts / check_sims_basic.pl Repository:
ViewVC logotype

Annotation of /FigKernelScripts/check_sims_basic.pl

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.8 - (view) (download) (as text)

1 : overbeek 1.2 # -*- perl -*-
2 : olson 1.7 #
3 :     # Copyright (c) 2003-2006 University of Chicago and Fellowship
4 :     # for Interpretations of Genomes. All Rights Reserved.
5 :     #
6 :     # This file is part of the SEED Toolkit.
7 :     #
8 :     # The SEED Toolkit is free software. You can redistribute
9 :     # it and/or modify it under the terms of the SEED Toolkit
10 :     # Public License.
11 :     #
12 :     # You should have received a copy of the SEED Toolkit Public License
13 :     # along with this program; if not write to the University of Chicago
14 :     # at info@ci.uchicago.edu or the Fellowship for Interpretation of
15 :     # Genomes at veronika@thefig.info or download a copy from
16 :     # http://www.theseed.org/LICENSE.TXT.
17 :     #
18 :    
19 : overbeek 1.1
20 : overbeek 1.2 $SIG{HUP} = 'ignore';
21 :    
22 : overbeek 1.5 use FIG;
23 : overbeek 1.2 use File::Path;
24 :     use File::Basename;
25 :    
26 : overbeek 1.6 $usage = "usage: check_sims_basic [-delint_dir=Dir] [-logfile=log] [-synonyms=peg_synonyms_file] NR [ < sims | - | SimsDir | Sims1 Sims2 Sims3 ...] > checked.sims [2> errors (recommended if a logfile isn't specified)]";
27 : overbeek 1.2
28 :     $outdir = "";
29 : overbeek 1.5 $logfile = "";
30 : overbeek 1.6 $synfile = "";
31 : overbeek 1.2 $trouble = 0;
32 :     for ($i=0; $i < @ARGV; )
33 :     {
34 :     if ($ARGV[$i] =~ m/-delint_dir=(\S+)/)
35 :     {
36 :     $outdir = $1;
37 :     splice @ARGV, $i, 1;
38 :     if (-d $outdir)
39 :     {
40 :     $trouble = 1;
41 :     warn "$outdir exists";
42 :     } else {
43 :     mkpath($outdir, 0, 0777) || die "Could not create $outdir";
44 :     }
45 :     }
46 :     elsif ($ARGV[$i] =~ m/-logfile=(\S+)/)
47 :     {
48 :     $logfile = $1;
49 :     splice @ARGV, $i, 1;
50 : overbeek 1.6 open($logfh, ">$logfile") || die "Could not write-open $logfile";
51 :     }
52 :     elsif ($ARGV[$i] =~ m/-synonyms=(\S+)/)
53 :     {
54 :     $synfile = $1;
55 :     splice @ARGV, $i, 1;
56 :     if (-s $synfile)
57 :     {
58 :     open(TMP, "<$synfile") || die "Could not read-open $synfile";
59 :     while (defined($entry = <TMP>))
60 :     {
61 :     chomp $entry;
62 :     $entry =~ m/^([^,]+),\d+(\S+)$/o;
63 :     ($major_syn, $syns) = ($1, $2);
64 :     @syns = map { m/^([^,]+)/; $1 } split /;/, $syns;
65 :     foreach $syn (@syns) { $major{$syn} = $major; }
66 :     }
67 :     close(TMP) || die "Could not close $synfile";
68 :     }
69 : overbeek 1.2 }
70 :     elsif (-s $ARGV[$i]) {
71 :     ++$i;
72 :     }
73 :     else {
74 : overbeek 1.4 $trouble = 1;
75 :     print STDERR "Invalid arg $ARGV[$i]\n";
76 : overbeek 1.2 ++$i;
77 :     }
78 :     }
79 : overbeek 1.4 die "aborting due to invalid args" if ($trouble);
80 : overbeek 1.2
81 :     (($nr = shift @ARGV) && (-s $nr))
82 : overbeek 1.1 || die $usage;
83 :    
84 : overbeek 1.4 if (@ARGV == 0)
85 :     {
86 :     if (-t STDIN)
87 :     {
88 :     push @ARGV, '-';
89 :     }
90 :     else
91 :     {
92 :     print STDERR "No arguments given --- checking $FIG_Config::data/Sims by default\n";
93 :     push @ARGV, "$FIG_Config::data/Sims";
94 :     }
95 :     }
96 :    
97 : overbeek 1.2 if ((@ARGV == 1) && (-d $ARGV[0]))
98 :     {
99 :     $sims_dir = shift @ARGV;
100 :     opendir(SIMS, $sims_dir) || die "Could not open $sims_dir";
101 :     @ARGV = grep !/^\./, readdir(SIMS);
102 :     @ARGV = map { $_ = "$sims_dir/$_" } @ARGV;
103 :     closedir(SIMS) || die "Could not close $sims_dir";
104 :     }
105 :    
106 :     $trouble = 0;
107 :     foreach $file (@ARGV)
108 :     {
109 :     next if ($file eq '-');
110 :     if (!-e $file) { print STDERR "Simfile $file does not exist"; $trouble = 1; }
111 :     }
112 :     die "There were nonexistent input files" if $trouble;
113 :    
114 : overbeek 1.5 unless ($logfile) { $logfh = \*STDERR; }
115 :     unless ($outdir) { $outfh = \*STDOUT; }
116 : overbeek 1.4
117 : overbeek 1.5 opendir(ORGS, "$FIG_Config::organisms") || die "Could not open dir $FIG_Config::organisms";
118 : redwards 1.8 @env = grep s{^(\d+\.\d+)}{$FIG_Config::organisms/$1/Features/peg/fasta}, grep {$fig->is_environmental($_)} readdir(ORGS);
119 : overbeek 1.5 closedir(ORGS) || die "Could not close dir $FIG_Config::organisms";
120 : overbeek 1.1
121 : overbeek 1.5 foreach $file ($nr, @env)
122 : overbeek 1.1 {
123 : overbeek 1.5 open(TMP, "<$file") || die "Could not read-open $file";
124 :     print STDERR "Loading lengths from $file ...\n" if $ENV{FIG_VERBOSE};
125 :     while (($id, $seqP) = &FIG::read_fasta_record(\*TMP))
126 : overbeek 1.1 {
127 : overbeek 1.5 $ln{$id} = length($$seqP);
128 : overbeek 1.1 }
129 :     }
130 :    
131 : overbeek 1.2
132 : overbeek 1.4 foreach $simfile (@ARGV)
133 : overbeek 1.1 {
134 : overbeek 1.4 print STDERR "Processing $simfile\n" if $ENV{FIG_VERBOSE};
135 :    
136 :     open(SIMFILE, "<$simfile") || die "Could not open $simfile";
137 : overbeek 1.5 if ($outdir)
138 :     {
139 :     $outfile = "$outdir/" . basename($simfile);
140 :     open($outfh, ">$outfile") || die "could not write-open $outfile";
141 :     }
142 :    
143 : overbeek 1.4 while (defined($sim = <SIMFILE>))
144 : overbeek 1.1 {
145 : overbeek 1.4 chomp $sim;
146 : overbeek 1.6 $sim =~ s/\t\t/\t/go;
147 : overbeek 1.1
148 : overbeek 1.5 if ($sim =~ m/^(\S+)\t(\S+)\t(\d+|\d+\.\d+)\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t(\d+(\.\d*)?e[-+]?\d+|\d+\.\d+)\t(\d\.\d*e[-+]?\d+|\d+\.\d+|\d+)\t(\d+)\t(\d+)/o)
149 : overbeek 1.1 {
150 : overbeek 1.5 # die "$1, $2, $3, $4, $5, $6, $7, $8, $9\n";
151 :     ($id1, $id2, $ln1, $ln2) = ($1, $2, $7, $8);
152 :     # die "$id1, $id2, $ln1, $ln2";
153 : overbeek 1.1
154 : overbeek 1.4 if ($ln{$id1} && $ln{$id2} && ($ln{$id1} == $ln1) && ($ln{$id2} == $ln2))
155 : overbeek 1.1 {
156 : overbeek 1.4 print $outfh "$sim\n"; #...print valid sims to OUTPUT
157 : overbeek 1.1 }
158 :     else
159 :     {
160 : overbeek 1.4 if ($ln{$id1})
161 :     {
162 : overbeek 1.5 if ($ln{$id1} != $ln1) { print $logfh "badlen1\t$simfile, $.:\t$id1\t$ln{$id1}\t$ln1\t$sim\n"; }
163 : overbeek 1.4 }
164 :     else
165 :     {
166 : overbeek 1.6 if ($synfile)
167 :     {
168 :     if ($major{$id1})
169 :     {
170 :     print $logfh "synref1\t$simfile, $.:\t$id1\t\t\t$sim\n";
171 :     }
172 :     else
173 :     {
174 :     print $logfh "undef1\t$simfile, $.:\t$id1\t\t\t$sim\n";
175 :     }
176 :     }
177 :     else
178 :     {
179 :     print $logfh "undef1\t$simfile, $.:\t$id1\t\t\t$sim\n";
180 :     }
181 : overbeek 1.4 }
182 :    
183 :     if ($ln{$id2})
184 :     {
185 : overbeek 1.5 if ($ln{$id2} != $ln2) { print $logfh "badlen2\t$simfile, $.:\t$id2\t$ln{$id2}\t$ln2\t$sim\n"; }
186 : overbeek 1.4 }
187 :     else
188 :     {
189 : overbeek 1.6 if ($synfile)
190 :     {
191 :     if ($major{$id2})
192 :     {
193 :     print $logfh "synref2\t$simfile, $.:\t$id2\t\t\t$sim\n";
194 :     }
195 :     else
196 :     {
197 :     print $logfh "undef2\t$simfile, $.:\t$id2\t\t\t$sim\n";
198 :     }
199 :     }
200 :     else
201 :     {
202 :     print $logfh "undef2\t$simfile, $.:\t$id2\t\t\t$sim\n";
203 :     }
204 : overbeek 1.4 }
205 : overbeek 1.1 }
206 :     }
207 : overbeek 1.4 else
208 : overbeek 1.2 {
209 : overbeek 1.5 print $logfh "INVALID FORMAT\t$simfile, $.:\t$sim\n";
210 : overbeek 1.2 }
211 : overbeek 1.1 }
212 :     }

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3