[Bio] / FigKernelScripts / check_sims_basic.pl Repository:
ViewVC logotype

Annotation of /FigKernelScripts/check_sims_basic.pl

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.5 - (view) (download) (as text)

1 : overbeek 1.2 # -*- perl -*-
2 : overbeek 1.1
3 : overbeek 1.2 $SIG{HUP} = 'ignore';
4 :    
5 : overbeek 1.5 use FIG;
6 : overbeek 1.2 use File::Path;
7 :     use File::Basename;
8 :    
9 : overbeek 1.4 $usage = "usage: check_sims_basic [-delint_dir=Dir] [-logfile=log] NR [ < sims | - | SimsDir | Sims1 Sims2 Sims3 ...] > checked.sims [2> errors (recommended if a logfile isn't specified)]";
10 : overbeek 1.2
11 :     $outdir = "";
12 : overbeek 1.5 $logfile = "";
13 : overbeek 1.2 $trouble = 0;
14 :     for ($i=0; $i < @ARGV; )
15 :     {
16 :     if ($ARGV[$i] =~ m/-delint_dir=(\S+)/)
17 :     {
18 :     $outdir = $1;
19 :     splice @ARGV, $i, 1;
20 :     if (-d $outdir)
21 :     {
22 :     $trouble = 1;
23 :     warn "$outdir exists";
24 :     } else {
25 :     mkpath($outdir, 0, 0777) || die "Could not create $outdir";
26 :     }
27 :     }
28 :     elsif ($ARGV[$i] =~ m/-logfile=(\S+)/)
29 :     {
30 :     $logfile = $1;
31 :     splice @ARGV, $i, 1;
32 : overbeek 1.5 open($logfh, ">$logfile") || die "Could not open $logfile";
33 : overbeek 1.2 }
34 :     elsif (-s $ARGV[$i]) {
35 :     ++$i;
36 :     }
37 :     else {
38 : overbeek 1.4 $trouble = 1;
39 :     print STDERR "Invalid arg $ARGV[$i]\n";
40 : overbeek 1.2 ++$i;
41 :     }
42 :     }
43 : overbeek 1.4 die "aborting due to invalid args" if ($trouble);
44 : overbeek 1.2
45 :     (($nr = shift @ARGV) && (-s $nr))
46 : overbeek 1.1 || die $usage;
47 :    
48 : overbeek 1.4 if (@ARGV == 0)
49 :     {
50 :     if (-t STDIN)
51 :     {
52 :     push @ARGV, '-';
53 :     }
54 :     else
55 :     {
56 :     print STDERR "No arguments given --- checking $FIG_Config::data/Sims by default\n";
57 :     push @ARGV, "$FIG_Config::data/Sims";
58 :     }
59 :     }
60 :    
61 : overbeek 1.2 if ((@ARGV == 1) && (-d $ARGV[0]))
62 :     {
63 :     $sims_dir = shift @ARGV;
64 :     opendir(SIMS, $sims_dir) || die "Could not open $sims_dir";
65 :     @ARGV = grep !/^\./, readdir(SIMS);
66 :     @ARGV = map { $_ = "$sims_dir/$_" } @ARGV;
67 :     closedir(SIMS) || die "Could not close $sims_dir";
68 :     }
69 :    
70 :     $trouble = 0;
71 :     foreach $file (@ARGV)
72 :     {
73 :     next if ($file eq '-');
74 :     if (!-e $file) { print STDERR "Simfile $file does not exist"; $trouble = 1; }
75 :     }
76 :     die "There were nonexistent input files" if $trouble;
77 :    
78 : overbeek 1.5 unless ($logfile) { $logfh = \*STDERR; }
79 :     unless ($outdir) { $outfh = \*STDOUT; }
80 : overbeek 1.4
81 : overbeek 1.5 opendir(ORGS, "$FIG_Config::organisms") || die "Could not open dir $FIG_Config::organisms";
82 :     @env = grep s{^(9999999\.\d+)}{$FIG_Config::organisms/$1/Features/peg/fasta}, readdir(ORGS);
83 :     closedir(ORGS) || die "Could not close dir $FIG_Config::organisms";
84 : overbeek 1.1
85 : overbeek 1.5 foreach $file ($nr, @env)
86 : overbeek 1.1 {
87 : overbeek 1.5 open(TMP, "<$file") || die "Could not read-open $file";
88 :     print STDERR "Loading lengths from $file ...\n" if $ENV{FIG_VERBOSE};
89 :     while (($id, $seqP) = &FIG::read_fasta_record(\*TMP))
90 : overbeek 1.1 {
91 : overbeek 1.5 $ln{$id} = length($$seqP);
92 : overbeek 1.1 }
93 :     }
94 :    
95 : overbeek 1.2
96 : overbeek 1.4 foreach $simfile (@ARGV)
97 : overbeek 1.1 {
98 : overbeek 1.4 print STDERR "Processing $simfile\n" if $ENV{FIG_VERBOSE};
99 :    
100 :     open(SIMFILE, "<$simfile") || die "Could not open $simfile";
101 : overbeek 1.5 if ($outdir)
102 :     {
103 :     $outfile = "$outdir/" . basename($simfile);
104 :     open($outfh, ">$outfile") || die "could not write-open $outfile";
105 :     }
106 :    
107 : overbeek 1.4 while (defined($sim = <SIMFILE>))
108 : overbeek 1.1 {
109 : overbeek 1.4 chomp $sim;
110 : overbeek 1.1
111 : overbeek 1.5 if ($sim =~ m/^(\S+)\t(\S+)\t(\d+|\d+\.\d+)\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t\d+\t(\d+(\.\d*)?e[-+]?\d+|\d+\.\d+)\t(\d\.\d*e[-+]?\d+|\d+\.\d+|\d+)\t(\d+)\t(\d+)/o)
112 : overbeek 1.1 {
113 : overbeek 1.5 # die "$1, $2, $3, $4, $5, $6, $7, $8, $9\n";
114 :     ($id1, $id2, $ln1, $ln2) = ($1, $2, $7, $8);
115 :     # die "$id1, $id2, $ln1, $ln2";
116 : overbeek 1.1
117 : overbeek 1.4 if ($ln{$id1} && $ln{$id2} && ($ln{$id1} == $ln1) && ($ln{$id2} == $ln2))
118 : overbeek 1.1 {
119 : overbeek 1.4 print $outfh "$sim\n"; #...print valid sims to OUTPUT
120 : overbeek 1.1 }
121 :     else
122 :     {
123 : overbeek 1.4 if ($ln{$id1})
124 :     {
125 : overbeek 1.5 if ($ln{$id1} != $ln1) { print $logfh "badlen1\t$simfile, $.:\t$id1\t$ln{$id1}\t$ln1\t$sim\n"; }
126 : overbeek 1.4 }
127 :     else
128 :     {
129 : overbeek 1.5 print $logfh "undef1\t$simfile, $.:\t$id1\t\t\t$sim\n";
130 : overbeek 1.4 }
131 :    
132 :     if ($ln{$id2})
133 :     {
134 : overbeek 1.5 if ($ln{$id2} != $ln2) { print $logfh "badlen2\t$simfile, $.:\t$id2\t$ln{$id2}\t$ln2\t$sim\n"; }
135 : overbeek 1.4 }
136 :     else
137 :     {
138 : overbeek 1.5 print $logfh "undef2\t$simfile, $.:\t$id2\t\t\t$sim\n";
139 : overbeek 1.4 }
140 : overbeek 1.1 }
141 :     }
142 : overbeek 1.4 else
143 : overbeek 1.2 {
144 : overbeek 1.5 print $logfh "INVALID FORMAT\t$simfile, $.:\t$sim\n";
145 : overbeek 1.2 }
146 : overbeek 1.1 }
147 :     }

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3