[Bio] / FigKernelScripts / check_sims_basic.pl Repository:
ViewVC logotype

Diff of /FigKernelScripts/check_sims_basic.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.1, Sun May 30 06:22:40 2004 UTC revision 1.8, Mon Sep 4 20:21:31 2006 UTC
# Line 1  Line 1 
1  $usage = "usage: check_sims_basic NR < sims > checked.sims 2> errors";  # -*- perl -*-
2    #
3    # Copyright (c) 2003-2006 University of Chicago and Fellowship
4    # for Interpretations of Genomes. All Rights Reserved.
5    #
6    # This file is part of the SEED Toolkit.
7    #
8    # The SEED Toolkit is free software. You can redistribute
9    # it and/or modify it under the terms of the SEED Toolkit
10    # Public License.
11    #
12    # You should have received a copy of the SEED Toolkit Public License
13    # along with this program; if not write to the University of Chicago
14    # at info@ci.uchicago.edu or the Fellowship for Interpretation of
15    # Genomes at veronika@thefig.info or download a copy from
16    # http://www.theseed.org/LICENSE.TXT.
17    #
18    
19  ($nr = shift @ARGV)  
20    $SIG{HUP} = 'ignore';
21    
22    use FIG;
23    use File::Path;
24    use File::Basename;
25    
26    $usage = "usage: check_sims_basic [-delint_dir=Dir] [-logfile=log] [-synonyms=peg_synonyms_file] NR [ < sims | - | SimsDir | Sims1 Sims2 Sims3 ...] > checked.sims [2> errors (recommended if a logfile isn't specified)]";
27    
28    $outdir  = "";
29    $logfile = "";
30    $synfile = "";
31    $trouble = 0;
32    for ($i=0; $i < @ARGV; )
33    {
34        if ($ARGV[$i] =~ m/-delint_dir=(\S+)/)
35        {
36            $outdir = $1;
37            splice @ARGV, $i, 1;
38            if (-d $outdir)
39            {
40                $trouble = 1;
41                warn "$outdir exists";
42            } else {
43                mkpath($outdir, 0, 0777) || die "Could not create $outdir";
44            }
45        }
46        elsif ($ARGV[$i] =~ m/-logfile=(\S+)/)
47        {
48            $logfile = $1;
49            splice @ARGV, $i, 1;
50            open($logfh, ">$logfile") || die "Could not write-open $logfile";
51        }
52        elsif ($ARGV[$i] =~ m/-synonyms=(\S+)/)
53        {
54            $synfile = $1;
55            splice @ARGV, $i, 1;
56            if (-s $synfile)
57            {
58                open(TMP, "<$synfile") || die "Could not read-open $synfile";
59                while (defined($entry = <TMP>))
60                {
61                    chomp $entry;
62                    $entry =~ m/^([^,]+),\d+(\S+)$/o;
63                    ($major_syn, $syns) = ($1, $2);
64                    @syns = map { m/^([^,]+)/; $1 } split /;/, $syns;
65                    foreach $syn (@syns) { $major{$syn} = $major; }
66                }
67                close(TMP) || die "Could not close $synfile";
68            }
69        }
70        elsif (-s $ARGV[$i]) {
71            ++$i;
72        }
73        else {
74            $trouble = 1;
75            print STDERR "Invalid arg $ARGV[$i]\n";
76            ++$i;
77        }
78    }
79    die "aborting due to invalid args" if ($trouble);
80    
81    (($nr = shift @ARGV) && (-s $nr))
82      || die $usage;      || die $usage;
83    
84  open(NR,"<$nr") || die $usage;  if (@ARGV == 0)
85    {
86        if (-t STDIN)
87        {
88            push @ARGV, '-';
89        }
90        else
91        {
92            print STDERR "No arguments given --- checking $FIG_Config::data/Sims by default\n";
93            push @ARGV, "$FIG_Config::data/Sims";
94        }
95    }
96    
97    if ((@ARGV == 1) && (-d $ARGV[0]))
98    {
99        $sims_dir = shift @ARGV;
100        opendir(SIMS, $sims_dir) || die "Could not open $sims_dir";
101        @ARGV = grep !/^\./, readdir(SIMS);
102        @ARGV = map  { $_ = "$sims_dir/$_" } @ARGV;
103        closedir(SIMS) || die "Could not close $sims_dir";
104    }
105    
106    $trouble = 0;
107    foreach $file (@ARGV)
108    {
109        next if ($file eq '-');
110        if (!-e $file) { print STDERR "Simfile $file does not exist"; $trouble = 1; }
111    }
112    die "There were nonexistent input files" if $trouble;
113    
114    unless ($logfile) { $logfh = \*STDERR; }
115    unless ($outdir)  { $outfh = \*STDOUT; }
116    
117    opendir(ORGS, "$FIG_Config::organisms") || die "Could not open dir $FIG_Config::organisms";
118    @env = grep s{^(\d+\.\d+)}{$FIG_Config::organisms/$1/Features/peg/fasta}, grep {$fig->is_environmental($_)} readdir(ORGS);
119    closedir(ORGS) || die "Could not close dir $FIG_Config::organisms";
120    
121  $/ = "\n>";  foreach $file ($nr, @env)
 while (defined($_ = <NR>))  
122  {  {
123      chomp;      open(TMP, "<$file") || die "Could not read-open $file";
124      if ($_ =~ /^>?(\S+)[^\n]*\n(.*)/s)      print STDERR "Loading lengths from $file ...\n" if $ENV{FIG_VERBOSE};
125        while (($id, $seqP) = &FIG::read_fasta_record(\*TMP))
126      {      {
127          $id  =  $1;          $ln{$id} = length($$seqP);
         $seq =  $2;  
         $seq =~ s/\s//gs;  
         $ln{$id} = length($seq);  
128      }      }
129  }  }
 $/ = "\n";  
 close(NR);  
130    
131  while (defined($_ = <STDIN>))  
132    foreach $simfile (@ARGV)
133    {
134        print STDERR "Processing $simfile\n" if $ENV{FIG_VERBOSE};
135    
136        open(SIMFILE, "<$simfile") || die "Could not open $simfile";
137        if ($outdir)
138        {
139            $outfile  = "$outdir/" . basename($simfile);
140            open($outfh, ">$outfile") || die "could not write-open $outfile";
141        }
142    
143        while (defined($sim = <SIMFILE>))
144  {  {
145      chomp;    # $/)          chomp $sim;
146      if ($_ =~ m/^\S+\t\S+\t(\d+|\d+\.\d+)(\t\d+){7}\t(\d+(\.\d*)?e[-+]?\d+|\d+\.\d+)\t(\d\.\d*e[-+]?\d+|\d+\.\d+|\d+)/)          $sim =~ s/\t\t/\t/go;
147    
148            if ($sim =~ m/^(\S+)\t(\S+)\t(\d+|\d+\.\d+)\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t(\d+(\.\d*)?e[-+]?\d+|\d+\.\d+)\t(\d\.\d*e[-+]?\d+|\d+\.\d+|\d+)\t(\d+)\t(\d+)/o)
149      {      {
150          # print STDERR "$1\t$2\t$3\t$4\t$5\t$6\n";              # die "$1, $2, $3, $4, $5, $6, $7, $8, $9\n";
151          ($id1,$id2,$iden,$ali_ln,$mis,$gaps,$b1,$e1,$b2,$e2,$psc,$bsc,$ln1,$ln2) =              ($id1, $id2, $ln1, $ln2) = ($1, $2, $7, $8);
152              split(/\t/,$_);              # die "$id1, $id2, $ln1, $ln2";
153    
154          if ($ln{$id1} && $ln{$id2} && ($ln{$id1} == $ln1) && ($ln{$id2} == $ln2))          if ($ln{$id1} && $ln{$id2} && ($ln{$id1} == $ln1) && ($ln{$id2} == $ln2))
155          {          {
156              print "$_\n";                  print $outfh "$sim\n";   #...print valid sims to OUTPUT
157          }          }
158          else          else
159          {          {
160              if ($ln{$id1})              if ($ln{$id1})
161              {              {
162                  if ($ln{$id1} != $ln1) { print STDERR "badlen1\t$id1\t$ln{$id1}\t$ln1\t$_\n"; }                      if ($ln{$id1} != $ln1) { print $logfh "badlen1\t$simfile, $.:\t$id1\t$ln{$id1}\t$ln1\t$sim\n"; }
163                    }
164                    else
165                    {
166                        if ($synfile)
167                        {
168                            if ($major{$id1})
169                            {
170                                print $logfh "synref1\t$simfile, $.:\t$id1\t\t\t$sim\n";
171              }              }
172              else              else
173              {              {
174                  print STDERR "undef1\t$id1\t\t\t$_\n";                              print $logfh "undef1\t$simfile, $.:\t$id1\t\t\t$sim\n";
175                            }
176                        }
177                        else
178                        {
179                            print $logfh "undef1\t$simfile, $.:\t$id1\t\t\t$sim\n";
180                        }
181              }              }
182    
183              if ($ln{$id2})              if ($ln{$id2})
184              {              {
185                  if ($ln{$id2} != $ln2) { print STDERR "badlen2\t$id2\t$ln{$id2}\t$ln2\t$_\n"; }                      if ($ln{$id2} != $ln2) { print $logfh "badlen2\t$simfile, $.:\t$id2\t$ln{$id2}\t$ln2\t$sim\n"; }
186                    }
187                    else
188                    {
189                        if ($synfile)
190                        {
191                            if ($major{$id2})
192                            {
193                                print $logfh "synref2\t$simfile, $.:\t$id2\t\t\t$sim\n";
194                            }
195                            else
196                            {
197                                print $logfh "undef2\t$simfile, $.:\t$id2\t\t\t$sim\n";
198                            }
199              }              }
200              else              else
201              {              {
202                  print STDERR "undef2\t$id2\t\t\t$_\n";                          print $logfh "undef2\t$simfile, $.:\t$id2\t\t\t$sim\n";
203                        }
204              }              }
205          }          }
206      }      }
207      else      else
208      {      {
209          print STDERR "INVALID FORMAT: $_\n";              print $logfh "INVALID FORMAT\t$simfile, $.:\t$sim\n";
210            }
211      }      }
212  }  }

Legend:
Removed from v.1.1  
changed lines
  Added in v.1.8

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3