[Bio] / FigKernelPackages / P2P.pm Repository:
ViewVC logotype

Annotation of /FigKernelPackages/P2P.pm

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.6 - (view) (download) (as text)

1 : olson 1.1 #
2 :     # This module contains the code for the P2P update protocol.
3 :     #
4 :     # Package P2P contains the namespace declarations, and possibly toplevel utility
5 :     # routines. (get_relay ?)
6 :     #
7 :     # Package P2P::Relay contains methods for contacting the P2P relay service. The actual
8 :     # implementation of the relay service is not contained here - it is a standalone module
9 :     # that can be installed on a web server that does not have a full SEED installed.
10 :     #
11 :     # Package P2P::Requestor contains the requestor-side code for the update protocol.
12 :     #
13 :     # Package P2P::Service contains the web service implementation routines for the
14 :     # protocol.
15 :     #
16 :    
17 :     package P2P;
18 :    
19 :     use FIG_Config;
20 :    
21 :     use strict;
22 :     use Exporter;
23 :     use base qw(Exporter);
24 :    
25 :     use Data::Dumper;
26 :    
27 :     use vars qw(@EXPORT @EXPORT_OK);
28 :     @EXPORT = ();
29 :     @EXPORT_OK = qw($ns_p2p $ns_relay);
30 :    
31 :     our $ns_p2p = "http://thefig.info/schemas/p2p_update";
32 :     our $ns_relay = "http://thefig.info/schemas/p2p_relay";
33 :    
34 :     =pod
35 :    
36 :     =head1 perform_update($peer)
37 :    
38 :     Perform a peer-to-peer update with the given peer. $peer is an instance of
39 :     P2P::Requestor which can connect to the peer. It is expected that the
40 :     SEED infrastructure will create this requestor appropriately for the
41 :     particular circumstance (direct connection, thru relay, etc).
42 :    
43 :     This code executes the high-level protocol, maintaining state between
44 :     calls to the peer to exchange the actual information.
45 :    
46 :     =cut
47 :    
48 :     sub perform_update
49 :     {
50 :     my($fig, $peer, $last_update) = @_;
51 :    
52 :     my $ret = $peer->request_update($last_update);
53 :    
54 :     if (!$ret or ref($ret) ne "ARRAY")
55 :     {
56 :     die "perform_update: request_updated failed\n";
57 :     }
58 :    
59 :     my($session, $target_release, $num_annos, $num_pegs, $num_genomes,
60 :     $target_time, $compatible) = @$ret;
61 :    
62 :     print "perform_update: session=$session target=$target_release num_annos=$num_annos\n";
63 :     print " num_pegs=$num_pegs num_genomes=$num_genomes target_time=$target_time compat=$compatible\n";
64 :    
65 :     #
66 :     # We have the information now to begin the update process. Retrieve the pegs.
67 :     #
68 :    
69 :     $ret = $peer->get_pegs($session, 0, $num_pegs);
70 :    
71 :     if (!$ret or ref($ret) ne "ARRAY")
72 :     {
73 :     die "perform_update: get_pegs failed\n";
74 :     }
75 :    
76 :     my($peg_list, $genome_list) = @$ret;
77 :    
78 :     #
79 :     # Walk the peg-list to and generate @pegs_to_finalize.
80 :     #
81 :    
82 :     my(%peg_mapping, %genome_map );
83 :    
84 :     for my $peg_info (@$peg_list)
85 :     {
86 :     my($key, $peg, @rest) = @$peg_info;
87 :    
88 :     if ($key eq 'peg')
89 :     {
90 :     #
91 :     # Peg id is directly usable.
92 :     #
93 : olson 1.6 $peg_mapping{$peg} = $peg;
94 : olson 1.1 }
95 :     elsif ($key eq 'peg_info')
96 :     {
97 :     #
98 :     # Peg id not directly usable.
99 :     #
100 :    
101 :     my($alias_list, $genome_id) = @rest;
102 :    
103 :     for my $alias (@$alias_list)
104 :     {
105 :     my $mapped = $fig->by_alias($alias);
106 : olson 1.3 if ($mapped)
107 : olson 1.1 {
108 :     print "$peg maps to $mapped via $alias\n";
109 :     $peg_mapping{$peg}= $mapped;
110 :     last;
111 :     }
112 :     }
113 :    
114 :     #
115 :     # If we didn't succeed in mapping by alias,
116 :     # stash this in the list of pegs to be mapped by
117 :     # genome.
118 :     #
119 :    
120 :     if (!defined($peg_mapping{$peg}))
121 :     {
122 :     push(@{$genome_map{$genome_id}}, $peg);
123 : olson 1.4 print "$peg did not map\n";
124 : olson 1.1 }
125 :     }
126 :     }
127 :    
128 :     #
129 :     # finished first pass. Now go over the per-genome mappings that need to be made.
130 :     #
131 : olson 1.6 # $genome_map{$genome_id} is a list of pegs that reside on that genome.
132 :     # the pegs and genome id are both target-based identifiers.
133 :     #
134 :    
135 :     my @finalize_req = ();
136 : olson 1.1
137 :     for my $genome_info (@$genome_list)
138 :     {
139 :     my($genome, $n_contigs, $n_nucs, $cksum) = @$genome_info;
140 :    
141 : olson 1.5 next unless defined($genome_map{$genome});
142 : olson 1.1
143 : olson 1.6 #
144 :     # Determine if we have a local genome installed that matches precisely the
145 :     # genome on the target side.
146 :     #
147 : olson 1.1 my $my_genome = $fig->find_genome_by_content($genome, $n_contigs, $n_nucs, $cksum);
148 :    
149 : olson 1.6 my $pegs = $genome_map{$genome};
150 :    
151 : olson 1.1 if ($my_genome)
152 :     {
153 :     #
154 : olson 1.6 # We do have such a local genome. Generate a peg_genome request to
155 :     # get the location information from the target side.
156 : olson 1.1 #
157 : olson 1.6 print "$genome mapped to $my_genome\n";
158 :     push(@finalize_req, map { ['peg_genome', $_] } @$pegs);
159 : olson 1.1
160 :     }
161 : olson 1.2 else
162 :     {
163 : olson 1.6 #
164 :     # We don't have such a genome. We need to retrieve the
165 :     # sequence data in order to finish mapping.
166 :     #
167 :     push(@finalize_req, map { ['peg_unknown', $_] } @$pegs);
168 :     }
169 :     }
170 :    
171 :     #
172 :     # If we need to finalize, make the call.
173 :     if (@finalize_req)
174 :     {
175 :     print Dumper(\@finalize_req);
176 :     $ret = $peer->finalize_pegs($session, \@finalize_req);
177 :    
178 :     if (!$ret or ref($ret) ne "ARRAY")
179 :     {
180 :     die "perform_update: finalize_pegs failed\n";
181 : olson 1.2 }
182 : olson 1.6
183 :     #
184 :     # The return is a list of either location entries or
185 :     # sequence data.
186 :     #
187 :    
188 :     print Dumper($ret);
189 : olson 1.1 }
190 :     }
191 :    
192 :    
193 :     #############
194 :     #
195 :     # P2P Relay
196 :     #
197 :     #############
198 :    
199 :    
200 :     package P2P::Relay;
201 :     use strict;
202 :    
203 :     use Data::Dumper;
204 :     use SOAP::Lite;
205 :    
206 :     use P2P;
207 :    
208 :     sub new
209 :     {
210 :     my($class, $url) = @_;
211 :    
212 :     my $proxy = SOAP::Lite->uri($P2P::ns_relay)->proxy($url);
213 :    
214 :     my $self = {
215 :     url => $url,
216 :     proxy => $proxy,
217 :     };
218 :     return bless($self, $class);
219 :     }
220 :    
221 :     sub enumerate_annotation_systems
222 :     {
223 :     my($self) = @_;
224 :    
225 :     return $self->{proxy}->enumerate_annotation_systems()->result;
226 :     }
227 :    
228 :     sub fetch_queries
229 :     {
230 :     my($self, $id) = @_;
231 :    
232 :     my $reply = $self->{proxy}->fetch_queries($id);
233 :    
234 :     if ($reply->fault)
235 :     {
236 :     print "Failed to fetch queries: ", $reply->faultcode, " ", $reply->faultstring, "\n";
237 :     return undef;
238 :     }
239 :    
240 :     return $reply->result;
241 :     }
242 :    
243 :     sub deposit_answer
244 :     {
245 :     my($self, $id, $key, $answer) = @_;
246 :    
247 :     my $reply = $self->{proxy}->deposit_answer($id, $key,
248 :     SOAP::Data->type('base64')->value($answer));
249 :    
250 :     if ($reply->fault)
251 :     {
252 :     print "deposit_answer got fault: ", $reply->faultcode, " ", $reply->faultstring, "\n";
253 :     return undef;
254 :     }
255 :    
256 :     return $reply;
257 :     }
258 :    
259 :     =pod
260 :    
261 :     =head1 await_result
262 :    
263 :     Await the result from a possibly-asynchronous soap request.
264 :    
265 :     Look at the reply that we have. If it's a deferred reply, loop polling
266 :     the relay for the actual result.
267 :    
268 :     We determine if the reply is a deferred reply by examining the namespace
269 :     URI of the response. A response will be generated from the relay's namespace,
270 :     rather than that of the application itself.
271 :    
272 :     =cut
273 :    
274 :     sub await_result
275 :     {
276 :     my($self, $reply) = @_;
277 :    
278 :     while (1)
279 :     {
280 :     #
281 :     # Retrieve the namespace of the response, which is the first
282 :     # element in the body of the message.
283 :     #
284 :     my $ns = $reply->namespaceuriof('/Envelope/Body/[1]');
285 :     print "Reply ns=$ns want $P2P::ns_relay\n";
286 :    
287 :     if ($ns eq $P2P::ns_relay)
288 :     {
289 :     my $val = $reply->result;
290 :     print "got val=", Dumper($val);
291 :     if ($val->[0] eq 'deferred')
292 :     {
293 :     #
294 :     # Sleep a little, then try to retrieve the response.
295 :     #
296 :    
297 :     sleep(1);
298 :     my $id = $val->[1];
299 :    
300 :     print "Retrieving reply\n";
301 :     $reply = $self->{proxy}->call_completed($id);
302 :     }
303 :     else
304 :     {
305 :     #
306 :     # We're not sure what to do here..
307 :     #
308 :     return undef;
309 :     }
310 :     }
311 :     else
312 :     {
313 :     #
314 :     # We got an actual response. Return it.
315 :     #
316 :    
317 :     return $reply;
318 :     }
319 :     }
320 :     }
321 :    
322 :     #############
323 :     #
324 :     # P2P Requestor
325 :     #
326 :     #############
327 :    
328 :     package P2P::Requestor;
329 :     use strict;
330 :    
331 :     use Data::Dumper;
332 :    
333 :     use SOAP::Lite;
334 :     use P2P;
335 :    
336 :     #
337 :     # Create a new Requestor. It contains a reference to the FIG instance
338 :     # so that we can run the protocol completely from in here.
339 :     #
340 :    
341 :     sub new
342 :     {
343 :     my($class, $fig, $url, $peer_id, $relay) = @_;
344 :    
345 :     my $proxy = SOAP::Lite->uri($ns_p2p)->proxy($url);
346 :    
347 :     my $self = {
348 :     fig => $fig,
349 :     url => $url,
350 :     peer_id => $peer_id,
351 :     proxy => $proxy,
352 :     relay => $relay,
353 :     };
354 :     return bless($self, $class);
355 :     }
356 :    
357 :     #
358 :     # First step: Request an update.
359 :     #
360 :     # We need to determine some notion of what our release is, since we are not
361 :     # currently tagging them explicitly. Until we delve into this more,
362 :     # I am going to return a null release, which means the same-release
363 :     # optimization won't be able to kick in.
364 :     #
365 :     # We also need to determine the last time we got an update from this
366 :     # system.
367 :     #
368 :    
369 :     sub request_update
370 :     {
371 :     my($self, $last_update) = @_;
372 :    
373 :     my $rel = $self->{fig}->get_release_info();
374 :    
375 :     if (!defined($last_update))
376 :     {
377 :     $last_update = $self->{fig}->get_peer_last_update($self->{peer_id});
378 :     }
379 :    
380 :     my $reply = $self->{proxy}->request_update($rel, $last_update);
381 :    
382 :     if ($self->{relay})
383 :     {
384 :     $reply = $self->{relay}->await_result($reply);
385 :     }
386 :    
387 :     if ($reply->fault)
388 :     {
389 :     print "request_update triggered fault: ", $reply->faultcode, " ", $reply->faultstring, "\n";
390 :     return undef;
391 :     }
392 :    
393 :     return $reply->result;
394 :     }
395 :    
396 :     =pod
397 :    
398 :     =head1 get_pegs($session_id, $start, $length)
399 :    
400 :    
401 :     =cut
402 :    
403 :     sub get_pegs
404 :     {
405 :     my($self, $session_id, $start, $length) = @_;
406 :    
407 :     return $self->call("get_pegs", $session_id, $start, $length);
408 :     }
409 :    
410 : olson 1.6 sub finalize_pegs
411 :     {
412 :     my($self, $session_id, $request) = @_;
413 :    
414 :     return $self->call("finalize_pegs", $session_id, $request);
415 :     }
416 :    
417 : olson 1.1 sub call
418 :     {
419 :     my($self, $func, @args) = @_;
420 :    
421 :     my $reply = $self->{proxy}->$func(@args);
422 :    
423 :     if ($self->{relay})
424 :     {
425 :     $reply = $self->{relay}->await_result($reply);
426 :     }
427 :    
428 :     if ($reply->fault)
429 :     {
430 :     print "$func triggered fault: ", $reply->faultcode, " ", $reply->faultstring, "\n";
431 :     return undef;
432 :     }
433 :    
434 :     return $reply->result;
435 :     }
436 :    
437 :    
438 :     #############
439 :     #
440 :     # P2P Service
441 :     #
442 :     # Code in this module is invoked on the target on behalf of a requestor.
443 :     #
444 :     #############
445 :    
446 :     package P2P::Service;
447 :    
448 :     use Data::Dumper;
449 :    
450 :     use FIG;
451 :     use FIG_Config;
452 :     use strict;
453 :    
454 :     use File::Temp qw(tempdir);
455 :     use File::Basename;
456 :    
457 :     sub request_update
458 :     {
459 :     my($class, $his_release, $last_update)= @_;
460 :    
461 :     #
462 :     # Verify input.
463 :     #
464 :    
465 :     if ($last_update !~ /^\d+$/)
466 :     {
467 :     die "request_update: last_update must be a number (not '$last_update')\n";
468 :     }
469 :    
470 :     #
471 :     # Create a new session id and a spool directory to use for storage
472 :     # of information about it. This can go in the tempdir since it is
473 :     # not persistent.
474 :     #
475 :    
476 :     &FIG::verify_dir("$FIG_Config::temp/p2p_spool");
477 :     #my $spool_dir = tempdir(DIR => "$FIG_Config::temp/p2p_spool");
478 :    
479 :     my $spool_dir = "$FIG_Config::temp/p2p_spool/test";
480 :     &FIG::verify_dir($spool_dir);
481 :    
482 :     my $session_id = basename($spool_dir);
483 :     my $now = time;
484 :    
485 :     #
486 :     # Gather the list of pegs and annotations for the update.
487 :     #
488 :    
489 :     my $fig = new FIG;
490 :    
491 :     my $all_genomes = [$fig->genomes];
492 :    
493 :     my %all_genomes = map { $_ => 1 } @$all_genomes;
494 :    
495 :     my %pegs;
496 :    
497 :     my $num_annos = 0;
498 :     my $num_genomes = 0;
499 :     my $num_pegs = 0;
500 :    
501 :     my $anno_fh;
502 :     open($anno_fh, ">$spool_dir/annos");
503 :    
504 :     my $peg_fh;
505 :     open($peg_fh, ">$spool_dir/pegs");
506 :    
507 :     my $genome_fh;
508 :     open($genome_fh, ">$spool_dir/genomes");
509 :    
510 :     for my $genome (@$all_genomes)
511 :     {
512 :     my $num_annos_for_genome = 0;
513 :    
514 :     my $genome_dir = "$FIG_Config::organisms/$genome";
515 :     next unless -d $genome_dir;
516 :    
517 :     my $afh;
518 :     if (open($afh, "$genome_dir/annotations"))
519 :     {
520 :     my($fid, $anno_time, $who, $anno_text);
521 :     local($/);
522 :     $/ = "//\n";
523 :     while (my $ann = <$afh>)
524 :     {
525 :     chomp $ann;
526 :    
527 :     if ((($fid, $anno_time, $who, $anno_text) =
528 :     ($ann =~ /^(fig\|\d+\.\d+\.peg\.\d+)\n(\d+)\n(\S+)\n(.*\S)/s)) and
529 :     $anno_time > $last_update)
530 :    
531 :     {
532 :     #
533 :     # Look up aliases if we haven't seen this fid before.
534 :     #
535 :    
536 :     if (!defined($pegs{$fid}))
537 :     {
538 :     my @aliases = $fig->feature_aliases($fid);
539 :    
540 :     print $peg_fh join("\t", $fid, $genome, @aliases), "\n";
541 :     $num_pegs++;
542 :     }
543 :    
544 :     print $anno_fh "$ann//\n";
545 :    
546 :     $pegs{$fid}++;
547 :    
548 :     $num_annos_for_genome++;
549 :     $num_annos++;
550 :     }
551 :     }
552 :     close($afh);
553 :     }
554 :    
555 :     #
556 :     # Determine genome information if we have annotations for this one.
557 :     #
558 :    
559 :     if ($num_annos_for_genome > 0)
560 :     {
561 :     $num_genomes++;
562 :     if (open(my $cfh, "<$genome_dir/COUNTS"))
563 :     {
564 :     if ($_ = <$cfh>)
565 :     {
566 :     chomp;
567 :     my($cgenome, $n_contigs, $total_nucs, $cksum) = split(/\t/, $_);
568 :     if ($cgenome ne $genome)
569 :     {
570 :     warn "Hm, $genome has a COUNTS file with genome=$cgenome that does not match\n";
571 :     }
572 :     else
573 :     {
574 :     print $genome_fh join("\t",
575 :     $genome, $num_annos_for_genome, $n_contigs,
576 :     $total_nucs, $cksum), "\n";
577 :     }
578 :     }
579 :     }
580 :     }
581 :    
582 :     }
583 :     close($anno_fh);
584 :     close($peg_fh);
585 :     close($genome_fh);
586 :    
587 :     print "Pegs: $num_pegs\n";
588 :     print "Genomes: $num_genomes\n";
589 :     print "Annos: $num_annos\n";
590 :    
591 :     #
592 :     # Check compatibility.
593 :     #
594 :    
595 :     my $my_release = $fig->get_release_info();
596 :     my $compatible = (defined($my_release) && ($my_release == $his_release)) ? 1 : 0;
597 :    
598 :     open(my $fh, ">$spool_dir/INFO");
599 :     print $fh "requestor_release\t$his_release\n";
600 :     print $fh "last_update\t$last_update\n";
601 :     print $fh "cur_update\t$now\n";
602 :     print $fh "target_release\t$my_release\n";
603 :     print $fh "compatible\t$compatible\n";
604 :     print $fh "num_pegs\t$num_pegs\n";
605 :     print $fh "num_genomes\t$num_genomes\n";
606 :     print $fh "num_annos\t$num_annos\n";
607 :     close($fh);
608 :    
609 :     return [$session_id, $my_release, $num_annos, $num_pegs, $num_genomes, $now, $compatible];
610 :     }
611 :    
612 :    
613 :     sub get_pegs
614 :     {
615 :     my($self, $session_id, $start, $len) = @_;
616 :     my(%session_info);
617 :    
618 :     my $spool_dir = "$FIG_Config::temp/p2p_spool/$session_id";
619 :    
620 :     -d $spool_dir or die "Invalid session id $session_id";
621 :    
622 :     #
623 :     # Read in the cached information for this session.
624 :     #
625 :    
626 :     open(my $info_fh, "<$spool_dir/INFO") or die "Cannot open INFO file: $!";
627 :     while (<$info_fh>)
628 :     {
629 :     chomp;
630 :     my($var, $val) = split(/\t/, $_, 2);
631 :     $session_info{$var} = $val;
632 :     }
633 :     close($info_fh);
634 :    
635 :     #
636 :     # Sanity check start and length.
637 :     #
638 :    
639 :     if ($start < 0 or $start >= $session_info{num_pegs})
640 :     {
641 :     die "Invalid start position $start";
642 :     }
643 :    
644 :     if ($len < 0 or ($start + $len - 1) >= $session_info{num_pegs})
645 :     {
646 :     die "Invalid length $len";
647 :     }
648 :    
649 :     #
650 :     # Open file, spin to the starting line, then start reading.
651 :     #
652 :    
653 :     open(my $peg_fh, "<$spool_dir/pegs") or die "Cannot open pegs file: $!";
654 :    
655 :     my $peg_output = [];
656 :     my $genome_output = [];
657 :    
658 :     my $peg_num = 0;
659 :     my $genomes_to_show = [];
660 :     my %genomes_to_show;
661 :    
662 :     my($fid, $genome, @aliases);
663 :    
664 :     while (<$peg_fh>)
665 :     {
666 :     next if ($peg_num < $start);
667 :    
668 :     last if ($peg_num > ($start + $len));
669 :    
670 :     chomp;
671 :    
672 :     #
673 :     # OK, this is a peg to process.
674 :     # It's easy if we're compatible.
675 :     #
676 :    
677 :     ($fid, $genome, @aliases) = split(/\t/, $_);
678 :    
679 :     if ($session_info{compatible})
680 :     {
681 :     push(@$peg_output, ['peg', $fid]);
682 :     }
683 :     else
684 :     {
685 :     if (!$genomes_to_show{$genome})
686 :     {
687 :     push(@$genomes_to_show, $genome);
688 :     $genomes_to_show{$genome}++;
689 :     }
690 :     push(@$peg_output, ['peg_info', $fid, [@aliases], $genome]);
691 :     }
692 :     }
693 :     continue
694 :     {
695 :     $peg_num++;
696 :     }
697 :    
698 :     #
699 :     # Read the genomes file, returning information about genomes referenced
700 :     # in the pegs returned.
701 :     #
702 :    
703 :     my $n_left = @$genomes_to_show;
704 :    
705 :     open(my $gfh, "<$spool_dir/genomes") or die "Cannot open genomes file: $!";
706 :     while ($n_left > 0 and $_ = <$gfh>)
707 :     {
708 :     chomp;
709 :    
710 :     my($genome, $n_annos, $n_contigs, $n_nucs, $cksum) = split(/\t/);
711 :    
712 :     if ($genomes_to_show{$genome})
713 :     {
714 :     push(@$genome_output, [$genome, $n_contigs, $n_nucs, $cksum]);
715 :     $n_left--;
716 :     }
717 :     }
718 :     close($gfh);
719 :    
720 :     return [$peg_output, $genome_output];
721 :     }
722 : olson 1.6
723 :     sub finalize_pegs
724 :     {
725 :     my($self, $session, $request) = @_;
726 :     my($out);
727 :    
728 :     my $fig = new FIG;
729 :    
730 :     #
731 :     # Walk the request handling appropriately. This is fairly easy, as it
732 :     # is just a matter of pulling either sequence or location/contig data.
733 :     #
734 :    
735 :     for my $item (@$request)
736 :     {
737 :     my($what, $peg) = @$item;
738 :    
739 :     if ($what eq "peg_genome")
740 :     {
741 :     #
742 :     # Return the location and contig checksum for this peg.
743 :     #
744 :    
745 :     my $loc = $fig->feature_location($peg);
746 :     my $contig = $fig->contig_of($loc);
747 :     my $cksum = $fig->contig_checksum($contig);
748 :    
749 :     push(@$out, ['peg_loc', $peg,
750 :     $fig->strand_of($loc),
751 :     $fig->beg_of($loc), $fig->end_of($loc),
752 :     $cksum]);
753 :    
754 :     }
755 :     elsif ($what eq "peg_seq")
756 :     {
757 :     my $seq = $fig->get_translation($peg);
758 :     push(@$out, ['peg_seq', $peg, $seq]);
759 :     }
760 :     }
761 :     return $out;
762 :     }
763 :    

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3