[Bio] / FigKernelScripts / FFB2_create_binary_kmers.pl Repository:
ViewVC logotype

Annotation of /FigKernelScripts/FFB2_create_binary_kmers.pl

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.3 - (view) (download) (as text)

1 : overbeek 1.1 ########################################################################
2 :     #
3 :     # Copyright (c) 2003-2006 University of Chicago and Fellowship
4 :     # for Interpretations of Genomes. All Rights Reserved.
5 :     #
6 :     # This file is part of the SEED Toolkit.
7 :     #
8 :     # The SEED Toolkit is free software. You can redistribute
9 :     # it and/or modify it under the terms of the SEED Toolkit
10 :     # Public License.
11 :     #
12 :     # You should have received a copy of the SEED Toolkit Public License
13 :     # along with this program; if not write to the University of Chicago
14 :     # at info@ci.uchicago.edu or the Fellowship for Interpretation of
15 :     # Genomes at veronika@thefig.info or download a copy from
16 :     # http://www.theseed.org/LICENSE.TXT.
17 :     #
18 :     ########################################################################
19 :    
20 :    
21 :     use KmersC;
22 :     use strict;
23 :     use Data::Dumper;
24 : olson 1.2 use Getopt::Long;
25 : overbeek 1.1
26 :     #
27 :     # Scan input once to determine the max value of the value fields. Then create
28 :     # the output file and scan again, writing values.
29 :     #
30 :    
31 :     my @max;
32 :     my @lens;
33 : olson 1.2 my $motif_len;
34 :     my $column_sizes;
35 :    
36 : olson 1.3 #
37 :     # Multiline input is of the form
38 :     # motif column value
39 :     # where the column field defines the column into which the data should go.
40 :     # It is 1-based.
41 :     #
42 :     my $multiline;
43 :    
44 : olson 1.2 my $rc = GetOptions("size=s" => \$column_sizes,
45 : olson 1.3 "multiline" => \$multiline,
46 :     "length=s" => \$motif_len);
47 : overbeek 1.1
48 : olson 1.2 if (!$rc || @ARGV < 2)
49 : overbeek 1.1 {
50 : olson 1.2 die "Usage: $0 [-s column-sizes] [-l motif-len] input-data-file output-binary-file [cols]\n";
51 :     }
52 :    
53 :     if ($column_sizes)
54 :     {
55 :     @lens = split(/,/, $column_sizes);
56 : overbeek 1.1 print "Set column lengths to @lens\n";
57 :     }
58 :    
59 :     my $in_file = shift;
60 :     my $out_file = shift;
61 :     my @cols = @ARGV;
62 :    
63 : olson 1.2 my $input_fh;
64 :     if ($in_file eq '-')
65 : overbeek 1.1 {
66 : olson 1.2 if (@lens == 0 || !defined($motif_len))
67 : overbeek 1.1 {
68 : olson 1.2 die "In order to read from stdin, both the -s and the -l arguments must be specified\n";
69 : overbeek 1.1 }
70 : olson 1.2 $input_fh = \*STDIN;
71 :     }
72 :     else
73 :     {
74 :     open($input_fh, "<", $in_file) or die "Cannot open $in_file: $!";
75 : overbeek 1.1
76 : olson 1.2 while (<$input_fh>)
77 : overbeek 1.1 {
78 : olson 1.2 chomp;
79 :     my($motif, @vals) = split(/\t/);
80 :     if (!defined($motif_len))
81 :     {
82 :     $motif_len = length($motif);
83 :     }
84 :    
85 :     if (@lens)
86 :     {
87 :     last;
88 :     }
89 :    
90 :     if (@cols)
91 :     {
92 :     @vals = @vals[@cols];
93 :     }
94 :    
95 :     for my $i (0 .. $#vals)
96 :     {
97 :     $max[$i] = $vals[$i] if $vals[$i] > $max[$i];
98 :     }
99 : overbeek 1.1 }
100 :    
101 : olson 1.2 seek($input_fh, 0, 0);
102 : overbeek 1.1 }
103 :    
104 :     if (!@lens)
105 :     {
106 :     for my $m (@max)
107 :     {
108 :     my $l;
109 :     if ($m < 128)
110 :     {
111 :     $l = 1;
112 :     }
113 :     elsif ($m < 32768)
114 :     {
115 :     $l = 2;
116 :     }
117 :     elsif ($m < 2147483648)
118 :     {
119 :     $l = 4;
120 :     }
121 :     else
122 :     {
123 :     die "Max value $m is greater than a 4-byte signed int";
124 :     }
125 :     push(@lens, $l);
126 :     }
127 :     }
128 : olson 1.3
129 :     my $num_keys = @lens;
130 :    
131 : overbeek 1.1 print STDERR "Computed max lengths: @max and byte sizes: @lens\n";
132 :    
133 :     my $cr = new KmersFileCreator(0xfeedface, $motif_len, 0, \@lens);
134 :     $cr->open_file($out_file);
135 :     $cr->write_file_header();
136 :    
137 :     my $count = 0;
138 : olson 1.3
139 :     if ($multiline)
140 : overbeek 1.1 {
141 : olson 1.3 my @blank_val = map { -1 } 1..$num_keys;
142 :     my @val = @blank_val;
143 :    
144 :     my $cur;
145 :     while (defined(my $l = <$input_fh>))
146 :     {
147 :     if ($l =~ /^(\S+)\t(\d+)\t(\d+)/)
148 :     {
149 :     my($motif, $col, $val) = ($1, $2, $3);
150 :     if ($cur ne $motif)
151 :     {
152 :     if (defined($cur))
153 :     {
154 :     if (@val != $num_keys)
155 :     {
156 :     die "Val became invalid: " . Dumper($val);
157 :     }
158 :     if ($val[0] >= 0)
159 :     {
160 :     $cr->write_entry($cur, \@val);
161 :     $count++;
162 :     }
163 :     @val = @blank_val;
164 :     }
165 :     $cur = $motif;
166 :     }
167 :     $val[$col - 1] = 0 + $val;
168 :     }
169 :     else
170 :     {
171 :     warn "Badly formatted input at $.: $l\n";
172 :     }
173 :     }
174 :     if ($val[0] >= 0)
175 : overbeek 1.1 {
176 : olson 1.3 $cr->write_entry($cur, \@val);
177 :     $count++;
178 :     }
179 :     }
180 :     else
181 :     {
182 :     while (<$input_fh>)
183 :     {
184 :     chomp;
185 :     my($motif, @vals) = split(/\t/);
186 :     if (@cols)
187 :     {
188 :     @vals = @vals[@cols];
189 :     }
190 :     $cr->write_entry($motif, \@vals);
191 :     $count++;
192 : overbeek 1.1 }
193 :     }
194 :     $cr->close_file();
195 :    
196 :     print "Loaded $count oligos\n";

MCS Webmaster
ViewVC Help
Powered by ViewVC 1.0.3