[Bio] / FigKernelScripts / get_neighbors_and_corr_to_ref.pl Repository:
ViewVC logotype

Annotation of /FigKernelScripts/get_neighbors_and_corr_to_ref.pl

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.5 - (view) (download) (as text)

1 : overbeek 1.1 ########################################################################
2 :    
3 :     use SeedHTML;
4 :     use strict;
5 :     use SeedEnv;
6 :     use ProtSims;
7 :     use gjoseqlib;
8 :    
9 :     my $usage = "usage: get_neighbors_and_corr_to_ref GenomeDir";
10 :     my $gdir;
11 :    
12 :     ($gdir = shift @ARGV)
13 :     || die $usage;
14 : overbeek 1.5 ($gdir =~ /(\d+\.\d+)$/) || die "Invalid Genome Directory: $gdir";
15 :     my $gdir_id = $1;
16 : overbeek 1.1
17 :     my @fasta = &gjoseqlib::read_fasta("$gdir/Features/peg/fasta");
18 : overbeek 1.4 my %id2seqH = map { ($_->[2] && (length($_->[2]) > 30)) ? ($_->[0] => $_->[2]) : () } @fasta;
19 : overbeek 1.1
20 :     &SeedUtils::verify_dir("$gdir/CorrToReferenceGenomes");
21 :     my @poss_pegs = &prioritize_pegs_used_to_find_neighbors($gdir);
22 :    
23 :     my %counts;
24 :     my $best = 0;
25 :     my $tuple;
26 :     while (($best < 500) && ($tuple = shift @poss_pegs))
27 :     {
28 : overbeek 1.4 my($role,$peg) = @$tuple;
29 :     if ($id2seqH{$peg} && (length($id2seqH{$peg}) > 30))
30 :     {
31 :     &compute_hits_and_set_best($tuple,\%id2seqH,\%counts,\$best);
32 :     }
33 : overbeek 1.1 }
34 :     if ($best == 0) { die "$gdir describes a genome without enough RAST-called genes to identify neighbors" }
35 :     my @reference = sort { $counts{$b} <=> $counts{$a} } keys(%counts);
36 :     if (@reference > 30) { $#reference = 29 }
37 :    
38 : overbeek 1.2 my $sapO = SAPserver->new;
39 : overbeek 1.1 my $genomesH = $sapO->all_genomes(-complete => 1);
40 :     open(CLOSE,">$gdir/closest.genomes") || die "could not open closest.genomes";
41 :     foreach my $g2 (@reference)
42 :     {
43 : overbeek 1.5 if ($g2 ne $gdir_id)
44 :     {
45 :     &generate_correspondence_table($g2,$gdir);
46 :     print CLOSE join("\t",($g2,$genomesH->{$g2})),"\n";
47 :     }
48 : overbeek 1.1 }
49 :     close(CLOSE);
50 :    
51 :     sub generate_correspondence_table {
52 :     my($g2,$gdir) = @_;
53 :    
54 :     ($gdir =~ /(\d+\.\d+)$/) || die "Invalid Genome Directory: $gdir";
55 :     my $g1 = $1;
56 : overbeek 1.5 if ($g1 ne $g2)
57 :     {
58 :     system "svr_corresponding_genes -d $gdir $g1 $g2 > $gdir/CorrToReferenceGenomes/$g2";
59 :     }
60 : overbeek 1.1 }
61 :    
62 :     sub prioritize_pegs_used_to_find_neighbors {
63 :     my($gdir) = @_;
64 :    
65 :     my %by_func;
66 :     (-s "$gdir/assigned_functions") || die "$gdir contains no assigned_functions";
67 :    
68 : overbeek 1.4 my %uniqH;
69 : overbeek 1.1 foreach my $line (`cat $gdir/assigned_functions`)
70 :     {
71 :     if ($line =~ /^(fig\|\d+\.\d+\.peg\.\d+)\t(\S[^\#]+\S)/)
72 :     {
73 : overbeek 1.4 $uniqH{$1} = $2;
74 : overbeek 1.1 }
75 :     }
76 : overbeek 1.4
77 :     foreach my $peg (keys(%uniqH))
78 :     {
79 :     my $func = $uniqH{$peg};
80 :     $func =~ s/\s*\#.*$//;
81 :     push(@{$by_func{$func}},$peg);
82 :     }
83 :    
84 : overbeek 1.1 my @synthetases = map {[$_,$by_func{$_}->[0]] } grep { @{$by_func{$_}} == 1 } grep { $_ =~ /tRNA synthetase/ } keys(%by_func);
85 :     my @ribosomal_proteins = map {[$_,$by_func{$_}->[0]] } grep { @{$by_func{$_}} == 1 } grep { $_ =~ /ribosomal protein/ } keys(%by_func);
86 :     my @ok_pegs = map {[$_,$by_func{$_}->[0]] } grep { @{$by_func{$_}} == 1 } keys(%by_func);
87 :     my @prioritized = ();
88 :     my %seen;
89 :     foreach my $tuple (@synthetases,@ribosomal_proteins,@ok_pegs)
90 :     {
91 :     if (! $seen{$tuple->[0]})
92 :     {
93 :     $seen{$tuple->[0]} = 1;
94 :     push(@prioritized,$tuple);
95 :     }
96 :     }
97 :     return @prioritized;
98 :     }
99 :    
100 :     sub compute_hits_and_set_best {
101 :     my($tuple,$id2seqH,$counts,$bestP) = @_;
102 :    
103 :     my($role,$peg) = @$tuple;
104 : overbeek 1.4
105 : overbeek 1.1 my $figfam_pegs = &figfam_pegs_for_role($role);
106 :    
107 :     my @sims = &ProtSims::blastP([[$peg,'',$id2seqH->{$peg}]],$figfam_pegs,10);
108 :     my $i;
109 :     for ($i=0; (($i < @sims) && ($i < 50)); $i++)
110 :     {
111 :     my $g2 = &SeedUtils::genome_of($sims[$i]->id2);
112 :     $counts->{$g2} += 50 - $i;
113 :     if ($counts->{$g2} > $$bestP) { $$bestP = $counts->{$g2} }
114 :     }
115 :     }
116 :    
117 : overbeek 1.4
118 : overbeek 1.1 sub figfam_pegs_for_role {
119 :     my($role) = @_;
120 :    
121 :     my %figfams;
122 : overbeek 1.3 foreach $_ (`cat $FIG_Config::FigfamsData/family.functions`)
123 : overbeek 1.1 {
124 :     if ((index($_,$role) >= 0) && ($_ =~ /^(FIG\d{6})/))
125 :     {
126 :     $figfams{$1} = 1;
127 :     }
128 :     }
129 :     my $sapO = SAPserver->new;
130 :     my $genomesH = $sapO->all_genomes(-complete => 1);
131 :     my @ids = grep { $genomesH->{&SeedUtils::genome_of($_)} }
132 :     map { (($_ =~ /^(\S+)\t(\S+)/) && $figfams{$1}) ? $2 : () }
133 : overbeek 1.3 `cat $FIG_Config::FigfamsData/families.2c`;
134 : overbeek 1.1 my $idsH = $sapO->ids_to_sequences(-ids => \@ids, -protein => 1);
135 : overbeek 1.4 return [map { my $seq = $idsH->{$_}; ($seq && (length($seq) > 30)) ? [$_,'',$seq] : () } keys(%$idsH)];
136 : overbeek 1.1 }

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3