pdbrust/examples/batch_processing.rs at main · HFooladi/pdbrust · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
//! Batch Processing Example
//!
//! This example demonstrates how to process multiple PDB files
//! in batch and export results to CSV. Common use cases:
//! - Dataset characterization
//! - Quality filtering
//! - Feature extraction for ML
//!
//! Run with:
//! ```bash
//! cargo run --example batch_processing --features "descriptors,summary"
//! ```

use pdbrust::parse_structure_file;
use pdbrust::summary::{StructureSummary, batch_summarize, summaries_to_csv};
use std::error::Error;
use std::fs;

fn main() -> Result<(), Box<dyn Error>> {
    println!("=== PDBRust Batch Processing ===\n");

    let pdb_dir = "examples/pdb_files";

    // ========== Step 1: Find PDB Files ==========
    println!("Step 1: Finding PDB files in '{}'", pdb_dir);

    let pdb_files: Vec<_> = fs::read_dir(pdb_dir)?
        .filter_map(|entry| entry.ok())
        .map(|entry| entry.path())
        .filter(|path| {
            path.extension()
                .is_some_and(|ext| ext == "pdb" || ext == "cif")
        })
        .collect();

    println!("Found {} structure files:", pdb_files.len());
    for path in &pdb_files {
        println!("  - {}", path.file_name().unwrap().to_string_lossy());
    }

    // ========== Step 2: Parse All Structures ==========
    println!("\nStep 2: Parsing structures...");

    let mut structures = Vec::new();
    let mut filenames = Vec::new();

    for path in &pdb_files {
        let filename = path.file_name().unwrap().to_string_lossy().to_string();
        print!("  Parsing {}... ", filename);

        match parse_structure_file(path) {
            Ok(structure) => {
                println!("{} atoms", structure.atoms.len());
                structures.push(structure);
                filenames.push(filename);
            }
            Err(e) => {
                println!("ERROR: {}", e);
            }
        }
    }

    println!("Successfully parsed {} structures", structures.len());

    if structures.is_empty() {
        println!("\nNo structures to process. Exiting.");
        return Ok(());
    }

    // ========== Step 3: Compute Summaries ==========
    println!("\nStep 3: Computing summaries...");

    let summaries = batch_summarize(&structures);

    // Print summary table
    println!(
        "\n{:<15} {:>8} {:>8} {:>8} {:>10}",
        "File", "Atoms", "Residues", "Chains", "Rg (A)"
    );
    println!("{}", "-".repeat(55));

    for (filename, summary) in filenames.iter().zip(summaries.iter()) {
        println!(
            "{:<15} {:>8} {:>8} {:>8} {:>10.2}",
            truncate_filename(filename, 15),
            summary.num_atoms,
            summary.num_residues,
            summary.num_chains,
            summary.radius_of_gyration
        );
    }

    // ========== Step 4: Quality Filtering ==========
    println!("\nStep 4: Quality filtering...");

    let analysis_ready: Vec<_> = summaries
        .iter()
        .zip(filenames.iter())
        .filter(|(s, _)| s.is_analysis_ready())
        .collect();

    println!(
        "Structures ready for analysis: {}/{}",
        analysis_ready.len(),
        summaries.len()
    );

    for (_, filename) in &analysis_ready {
        println!("  - {}", filename);
    }

    // Filter by specific criteria
    let high_quality: Vec<_> = summaries
        .iter()
        .zip(filenames.iter())
        .filter(|(s, _)| s.num_residues >= 50 && s.radius_of_gyration > 10.0)
        .collect();

    println!(
        "\nStructures with >= 50 residues and Rg > 10A: {}",
        high_quality.len()
    );

    // ========== Step 5: Export to CSV ==========
    println!("\nStep 5: Exporting to CSV...");

    // Add filename column manually
    let csv_output = create_csv_with_filenames(&filenames, &summaries);

    let output_file = "batch_results.csv";
    fs::write(output_file, &csv_output)?;
    println!("Saved to: {}", output_file);

    // Also create standard CSV (without filenames)
    let standard_csv = summaries_to_csv(&summaries, true);
    fs::write("batch_summaries.csv", &standard_csv)?;
    println!("Saved standard format to: batch_summaries.csv");

    // ========== Step 6: Statistics ==========
    println!("\nStep 6: Dataset statistics");

    if !summaries.is_empty() {
        let total_atoms: usize = summaries.iter().map(|s| s.num_atoms).sum();
        let total_residues: usize = summaries.iter().map(|s| s.num_residues).sum();
        let avg_rg: f64 =
            summaries.iter().map(|s| s.radius_of_gyration).sum::<f64>() / summaries.len() as f64;
        let avg_hydrophobic: f64 =
            summaries.iter().map(|s| s.hydrophobic_ratio).sum::<f64>() / summaries.len() as f64;

        println!("  Total atoms: {}", total_atoms);
        println!("  Total residues: {}", total_residues);
        println!("  Average Rg: {:.2} A", avg_rg);
        println!(
            "  Average hydrophobic ratio: {:.1}%",
            avg_hydrophobic * 100.0
        );

        // Size distribution
        let sizes: Vec<usize> = summaries.iter().map(|s| s.num_residues).collect();
        let min_size = sizes.iter().min().unwrap_or(&0);
        let max_size = sizes.iter().max().unwrap_or(&0);
        println!("  Size range: {} - {} residues", min_size, max_size);
    }

    println!("\n=== Batch Processing Complete ===");

    Ok(())
}

/// Truncate filename for display
fn truncate_filename(s: &str, max_len: usize) -> String {
    if s.len() <= max_len {
        s.to_string()
    } else {
        format!("{}...", &s[..max_len - 3])
    }
}

/// Create CSV with filename as first column
fn create_csv_with_filenames(filenames: &[String], summaries: &[StructureSummary]) -> String {
    let mut output = String::new();

    // Header
    output.push_str("filename,");
    output.push_str(&StructureSummary::field_names().join(","));
    output.push('\n');

    // Data rows
    for (filename, summary) in filenames.iter().zip(summaries.iter()) {
        output.push_str(filename);
        output.push(',');
        output.push_str(&summary.to_csv_values().join(","));
        output.push('\n');
    }

    output
}