[Bio] / FigKernelScripts / update_SSU_rRNAs.pl Repository:
ViewVC logotype

Annotation of /FigKernelScripts/update_SSU_rRNAs.pl

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.1 - (view) (download) (as text)

1 : overbeek 1.1
2 :     use FIG;
3 :     my $fig = new FIG;
4 :     use gjoseqlib;
5 :     use strict;
6 :    
7 :     my $function = "SSU rRNA";
8 :     my $user = "SSU_updates";
9 :     my $genome;
10 :     foreach $genome (grep { $fig->is_prokaryotic($_) } $fig->genomes('complete'))
11 :     {
12 :     print STDERR "processing $genome\n";
13 :     my @hits = map { ($_ =~ /^(\d+\.\d+)\t(\S+)/) ? $2 : () } `find_SEED_SSU_rRNA_genes $genome`;
14 :     if (@hits > 0)
15 :     {
16 :     my @tbl = map { chomp; [split(/\t/,$_)] } `cat $FIG_Config::organisms/$genome/Features/rna/tbl`;
17 :     my $next = &next(\@tbl);
18 :    
19 :     my @seqs = &gjoseqlib::read_fasta("$FIG_Config::organisms/$genome/Features/rna/fasta");
20 :     my($tuple,@no_overlap,@overlaps);
21 :     foreach $tuple (@tbl)
22 :     {
23 :     if (&overlap($tuple->[1],\@hits))
24 :     {
25 :     push(@overlaps,$tuple);
26 :     }
27 :     else
28 :     {
29 :     push(@no_overlap,$tuple);
30 :     }
31 :     }
32 :    
33 :     my($hit);
34 :     my($manual) = 0;
35 :     my $altered = 0;
36 :     foreach $hit (@hits)
37 :     {
38 :     my @tmp = grep { &overlap($_->[1],[$hit]) } @overlaps;
39 :     if (@tmp == 0)
40 :     {
41 :     my $new_id = "fig\|$genome\.rna\.$next";
42 :     $next++;
43 :     push(@no_overlap,[$new_id,$hit,$function]);
44 :     push(@seqs,[$new_id,'',$fig->dna_seq($genome,$hit)]);
45 :     $altered = 1;
46 :     }
47 :     elsif (@tmp == 1)
48 :     {
49 :     if ($hit ne $tmp[0]->[1]) { $altered = 1 }
50 :     push(@no_overlap,[$tmp[0]->[0],$hit,$function]);
51 :     my $i;
52 :     for ($i==0; ($i < @seqs) && ($seqs[$i]->[0] ne $tmp[0]->[0]); $i++) {}
53 :     if ($i == @seqs) { print STDERR &Dumper($genome,$hit,$tmp[0],\@seqs);
54 :     die "something is wrong"; }
55 :     $seqs[$i]->[2] = $fig->dna_seq($genome,$hit);
56 :     }
57 :     else
58 :     {
59 :     print STDERR "Handle manually: ",&Dumper($genome,$hit,\@tmp);
60 :     $manual = 1;
61 :     }
62 :     }
63 :    
64 :     if ((! $manual) && $altered)
65 :     {
66 :     @no_overlap = sort { &FIG::by_fig_id($a->[0],$b->[0]) } @no_overlap;
67 :     print STDERR "Installing update for $genome\n";
68 :     &update_data($fig,$genome,\@no_overlap,\@seqs);
69 :     }
70 :     }
71 :     }
72 :     &FIG::run("load_features");
73 :    
74 :     foreach $genome (grep { $fig->is_prokaryotic($_) } $fig->genomes('complete'))
75 :     {
76 :     &check_assertions($fig,$genome,$function,$user);
77 :     }
78 :    
79 :     sub overlap {
80 :     my($loc1,$locs) = @_;
81 :    
82 :     my $i;
83 :     for ($i=0; ($i < @$locs) && (! &overlap1($loc1,$locs->[$i])); $i++) {}
84 :     return ($i < @$locs);
85 :     }
86 :    
87 :     sub overlap1 {
88 :     my($loc1,$loc2) = @_;
89 :    
90 :     if ($loc1 =~ /^(\S+)_(\d+)_(\d+)$/)
91 :     {
92 :     my($c1,$b1,$e1) = ($1,$2,$3);
93 :     if ($loc2 =~ /^(\S+)_(\d+)_(\d+)$/)
94 :     {
95 :     my($c2,$b2,$e2) = ($1,$2,$3);
96 :     return (($c1 eq $c2) && (&FIG::between($b1,$b2,$e1) || &FIG::between($b2,$b1,$e2)));
97 :     }
98 :     }
99 :     return 0;
100 :     }
101 :    
102 :     sub next {
103 :     my($tbl) = @_;
104 :    
105 :     my $next = 1;
106 :     foreach $_ (@$tbl)
107 :     {
108 :     if (($_->[0] =~ /(\d+)$/) && ($1 >= $next))
109 :     {
110 :     $next = $1+1;
111 :     }
112 :     }
113 :     return $next;
114 :     }
115 :    
116 :     sub update_data {
117 :     my($fig,$genome,$tbl,$seqs) = @_;
118 :    
119 :     &update_tbl($fig,$genome,$tbl);
120 :     &update_fasta($fig,$genome,$seqs);
121 :     &cleanup_assigned_functions($fig,$tbl);
122 :     }
123 :    
124 :     sub update_tbl {
125 :     my($fig,$genome,$tbl) = @_;
126 :    
127 :     my $file = "$FIG_Config::organisms/$genome/Features/rna/tbl";
128 :     if (! -s $file)
129 :     {
130 :     print STDERR "CAREFUL: you are missing $file\n";
131 :     }
132 :     else
133 :     {
134 :     my $time = time;
135 :     rename($file,"$file.$time");
136 :     }
137 :     open(TMP,">$file") || die "could not open $file";
138 :     foreach my $tuple (@$tbl)
139 :     {
140 :     if (@$tuple < 3) { $#{$tuple} = 2 }
141 :     print TMP join("\t",@$tuple),"\n";
142 :     }
143 :     close(TMP);
144 :     system "chmod 777 $file";
145 :     }
146 :    
147 :     sub update_fasta {
148 :     my($fig,$genome,$seqs) = @_;
149 :    
150 :     my $file = "$FIG_Config::organisms/$genome/Features/rna/fasta";
151 :     if (! -s $file)
152 :     {
153 :     print STDERR "CAREFUL: you are missing $file\n";
154 :     }
155 :     else
156 :     {
157 :     my $time = time;
158 :     rename($file,"$file.$time");
159 :     }
160 :    
161 :     open(TMP,">$file") || die "could not open $file";
162 :     foreach my $tuple (@$seqs)
163 :     {
164 :     my($id,undef,$seq) = @$tuple;
165 :     print TMP ">$id\n$seq\n";
166 :     }
167 :     close(TMP);
168 :     system "chmod 777 $file";
169 :     }
170 :    
171 :     sub cleanup_assigned_functions {
172 :     my($fig,$tbl) = @_;
173 :    
174 :     my $file = "$FIG_Config::organisms/$genome/assigned_functions";
175 :    
176 :     if (-s $file)
177 :     {
178 :     my %rnas = map { $_->[0] => 1 } @$tbl;
179 :     my @bad_entries = grep { ($_ =~ /^(fig\|\d+\.\d+\.rna\.\d+)/) && (! $rnas{$1}) } `cat $file`;
180 :     if (@bad_entries > 0)
181 :     {
182 :     my $time = time;
183 :     rename($file,"$file.$time");
184 :     open(IN,"<$file.$time") || die "could not open $file.$time";
185 :     open(OUT,">$file") || die "could not open $file";
186 :     while (defined($_ = <IN>))
187 :     {
188 :     if (($_ =~ /^(\S+)/) && (! (($_ =~ /^(fig\|\d+\.\d+\.rna\.\d+)/) && (! $rnas{$1}))))
189 :     {
190 :     print OUT $_;
191 :     }
192 :     }
193 :     close(IN);
194 :     close(OUT);
195 :     system "chmod 777 $file";
196 :     }
197 :     }
198 :     }
199 :    
200 :     sub check_assertions {
201 :     my($fig,$genome,$function,$user) = @_;
202 :    
203 :     my $tbl = "$FIG_Config::organisms/$genome/Features/rna/tbl";
204 :     if (-s $tbl )
205 :     {
206 :     my @ssu = `grep '$function' $tbl`;
207 :     foreach $_ (@ssu)
208 :     {
209 :     if ($_ =~ /^(fig\|$genome\.rna\.\d+)/)
210 :     {
211 :     my $fid = $1;
212 :     my $func = $fig->function_of($fid);
213 :     if (! $func)
214 :     {
215 :     $fig->assign_function($fid,$user,$function);
216 :     }
217 :     }
218 :     }
219 :     }
220 :     }

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3