microsoft
diff --git a/‎datasets/gigaref/Snakefile‎
Lines changed: 166 additions & 0 deletions b/‎datasets/gigaref/Snakefile‎
Lines changed: 166 additions & 0 deletions
diff --git a/‎datasets/gigaref/dedup.py‎
Lines changed: 89 additions & 0 deletions b/‎datasets/gigaref/dedup.py‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎datasets/gigaref/extract_private.py‎
Lines changed: 127 additions & 0 deletions b/‎datasets/gigaref/extract_private.py‎
Lines changed: 127 additions & 0 deletions
@@ -0,0 +1,166 @@
+
+rule parent:
+    input:
+        "/data/final/final_seqs.fasta"
+    shell:
+        """
+        echo "Parent rule"
+        """
+
+rule mgnify_db:
+    input: 
+        "/data/mgnify/mgnify.fasta"
+    output: 
+        "/data/mgnify/db/mgnify_db"
+    shell:
+        """
+        mmseqs createdb {input} {output}
+        """
+
+rule mgnify_clu:
+    input: 
+        "/data/mgnify/db/mgnify_db"
+    output: 
+        "/data/mgnify/clu/mgnify_clu"
+    shell:
+        """
+        mmseqs linclust {input} {output} /data/mgnify/tmp --cluster-mode 2 --cov-mode 2 -c 0.8 --min-seq-id 0.7 
+        """
+
+rule mgnify_rep_db
+    input:
+        "/data/mgnify/db/mgnify_db",
+        "/data/mgnify/clu/mgnify_clu"
+    output:
+        "/data/mgnify/clu/mgnify_reps"
+    shell:
+        """ 
+        mmseqs createsubdb {input[1]} {input[0]} {output}
+        """
+
+rule mgnify_reps:
+    input:
+        "/data/mgnify/clu/mgnify_reps"
+    output:
+        "/data/mgnify/clu/mgnify_reps.fasta"
+    shell:
+        """
+        mmseqs convert2fasta {input} {output}
+
+        """
+
+rule merc_src_db:
+    input: 
+        "/data/merc_and_src/merc_src.fasta"
+    output: 
+        "/data/merc_and_src/db/merc_src_db"
+    shell:
+        """
+        mmseqs createdb {input} {output}
+        """
+
+rule merc_src_clu:
+    input:  
+        "/data/merc_and_src/db/merc_src_db"
+    output:
+        "/data/merc_and_src/clu/merc_src_clu"
+    shell:
+        """
+        mmseqs linclust {input} {output} /data/merc_and_src/tmp --cluster-mode 2 --cov-mode 2 -c 0.8 --min-seq-id 0.7
+        """
+
+rule merc_src_rep_db
+    input:
+        "/data/merc_and_src/db/merc_src_db",
+        "/data/merc_and_src/clu/merc_src_clu"
+    output:
+        "/data/merc_and_src/clu/merc_src_reps"
+    shell:
+        """ 
+        mmseqs createsubdb {input[1]} {input[0]} {output}
+        """
+
+rule merc_src_reps:
+    input:
+        "/data/merc_and_src/clu/merc_src_reps"
+    output:
+        "/data/merc_and_src/clu/merc_src_reps.fasta"
+    shell:
+        """
+        mmseqs convert2fasta {input} {output}
+        """
+
+rule concat:
+    input:
+        "/data/merc_and_src/clu/merc_src_reps.fasta",
+        "/data/mgnify/clu/mgnify_reps.fasta",
+        "/data/remainder/remainder.fasta"
+    output:
+        "/data/all/all.fasta"
+    shell:
+        """
+        cat {input[0]} {input[1]} {input[2]} > {output}
+        """
+
+rule all_db:
+    input:
+        "/data/all/all.fasta"
+    output:
+        "/data/all/db/all_db"
+    shell:
+        """
+        mmseqs createdb {input} {output}
+        """
+
+rule all_clu:
+    input:
+        "/data/all/db/all_db"
+    output:
+        "/data/all/clu/all_clu"
+    shell:
+        """
+        mmseqs linclust {input} {output} /data/all/tmp --cluster-mode 2 --cov-mode 2 -c 0.8 --min-seq-id 0.9
+        """
+
+rule all_rep_db:
+    input:
+        "/data/all/db/all_db",
+        "/data/all/clu/all_clu"
+    output:
+        "/data/all/clu/all_reps"
+    shell:
+        """
+        mmseqs createsubdb {input[1]} {input[0]} {output}
+        """
+
+rule final_clu:
+    input:
+        "/data/all/clu/all_reps"
+    output:
+        "/data/final/clu/final_clu"
+    shell:
+        """
+        mmseqs linclust {input} {output} /data/final/tmp --cluster-mode 2 --cov-mode 2 -c 0.8 --min-seq-id 0.5
+        """
+
+rule final_seq_db:
+    input:
+        "/data/all/clu/all_reps",
+        "/data/final/clu/final_clu"
+    output:
+        "/data/final/final_seqs"
+    shell:
+        """
+        mmseqs createseqfiledb {input[0]} {input[1]} {output}
+        """
+
+rule final_seqs:
+    input:
+        "/data/all/clu/all_reps",
+        "/data/final/final_seqs"
+    output:
+        "/data/final/final_seqs.fasta"
+    shell:
+        """
+        mmseqs result2flat {input[0]} {input[0]} {input[1]} {output}
+        """
@@ -0,0 +1,89 @@
+import json
+import numpy as np
+from datasets import load_dataset, Dataset
+
+DATA = ['rtest', 'valid']
+seqs = set()
+for data in DATA:
+    with open('/data/intermediate/new_'+data+'.fasta', 'r') as f:
+        for line in f:
+            if not line.startswith('>'):
+                seqs.add(line)
+
+# def fasta_generator(filepath):
+#     with open(filepath, 'r') as f:
+#         seq_id = None
+#         sequence = None
+#         cluster = []
+#         prev_line = None
+#         for line in f:
+#             if prev_line and prev_line == line:
+#                 if cluster:
+#                         yield {"representative": cluster[0], "members": cluster}
+#                 cluster = []
+#             if line.startswith('>'):
+#                 if seq_id and sequence:
+#                     cluster.append({"id": seq_id, "sequence": sequence})
+#                 seq_id = line.strip()
+#                 sequence = None
+#             else:
+#                 sequence = line.strip()
+#             prev_line = line
+#         if seq_id and sequence:
+#             cluster.append({"id": seq_id, "sequence": sequence})
+#         if cluster:
+#             yield {"representative": cluster[0], "members": cluster}
+
+# dataset = Dataset.from_generator(fasta_generator, num_proc=128, gen_kwargs={"filepath": "/data/all_new/db/inner_db/final_seqs.fasta"})
+
+# Filter out clusters with any IDs in the ids list
+# def filter_clusters(cluster):
+#     for member in cluster['members']:
+#         if member['id'] in ids:
+#             return False
+#     return True
+
+# filtered_dataset = dataset.filter(filter_clusters, num_proc=128)
+
+with open("/data/pre_dedup/final_clusters.fasta", 'r') as f, open('/data/post_dedup/dedup_clusters.fasta', 'w') as outfile:
+    cluster = []
+    prev_line = None
+    valid = True
+    sequence = None
+    seq_id = None
+    for line in f:
+        if prev_line and prev_line == line:
+            if cluster and valid:
+                    outfile.write(cluster[0])
+                    outfile.writelines(cluster)
+            cluster = []
+            valid = True
+        if line.startswith('>'):
+            if seq_id and sequence:
+                cluster.append(seq_id)
+                cluster.append(sequence)
+            seq_id = line
+            sequence = None
+        else:
+            sequence = line
+            if sequence in seqs:
+                seqs.remove(sequence)
+                print("match")
+                valid = False
+        prev_line = line
+
+    if seq_id and sequence:
+        cluster.append(seq_id)
+        cluster.append(sequence)
+    if cluster and valid:
+        outfile.write(cluster[0])
+        outfile.writelines(cluster)
+
+# Write the filtered sequences to the output file in cluster format
+# with open('/data/final/dedup.fasta', 'w') as outfile:
+#     for cluster in filtered_dataset:
+#         representative = cluster['representative']
+#         outfile.write(f"{representative['id']}\n{representative['sequence']}\n")
+        
+
+   
@@ -0,0 +1,127 @@
+import random
+import json
+
+with open("/data/post_dedup/dedup_clusters.fasta", 'r') as f, open("/data/gigaref/private/consensus.fasta", 'w') as private, open("/data/gigaref/consensus.fasta", 'w') as consensus:
+    current_cluster = []
+    prev = None
+    id = None
+    seq = None
+    size = 0
+    indices = []
+    index = 0
+    private_index = 0
+    public_index = 0
+    private_clu_json = {'test': []}
+    private_rep_json = {'test': []}
+    clu_json = {'train': [], 'test': []}
+    clu_no_singles_json = {'train': [], 'test': []}
+    rep_json = {'train': [], 'test': []}
+    rep_no_singles_json = {'train': [], 'test': []}
+
+    for line in f:
+        if prev == line:
+            if current_cluster:
+                if size > 1:
+                    rand = random.random()
+                    if (rand < 4.1e-5):
+                        private.writelines(current_cluster)
+                        private_clu_json['test'].append([i + private_index for i in range(len(indices))])
+                        private_rep_json['test'].append(private_index)
+                        private_index += len(indices)
+                    elif(rand < 8.2e-5):
+                        consensus.writelines(current_cluster)
+                        clu_json['test'].append([i + public_index for i in range(len(indices))])
+                        clu_no_singles_json['test'].append([i + public_index for i in range(len(indices))])
+                        rep_json['test'].append(public_index) 
+                        rep_no_singles_json['test'].append(public_index)
+                        public_index += len(indices)
+                    else:
+                        consensus.writelines(current_cluster)
+                        clu_json['train'].append([i + public_index for i in range(len(indices))])
+                        clu_no_singles_json['train'].append([i + public_index for i in range(len(indices))])
+                        rep_json['train'].append(public_index) 
+                        rep_no_singles_json['train'].append(public_index)
+                        public_index += len(indices)
+                else:
+                    consensus.writelines(current_cluster)
+                    clu_json['train'].append([i + public_index for i in range(len(indices))])
+                    rep_json['train'].append(public_index)
+                    public_index += len(indices)
+            current_cluster = []
+            size = 0
+            indices = []
+        if line.startswith('>'):
+            if id and seq:
+                current_cluster.append(id)
+                current_cluster.append(seq)
+                size += 1
+            id = line
+            seq = None
+        else:
+            indices.append(index)
+            seq = line
+            index+=1
+        prev = line
+
+    print("Done reading file")
+
+    if id and seq:
+        current_cluster.append(id)
+        current_cluster.append(seq)
+        size += 1
+    if current_cluster:
+        if size > 1:
+            rand = random.random()
+            if (rand < 4.1e-5):
+                private.writelines(current_cluster)
+                private_clu_json['test'].append([i + private_index for i in range(len(indices))])
+                private_rep_json['test'].append(private_index)
+                private_index += len(indices)
+            elif(rand < 8.2e-5):
+                consensus.writelines(current_cluster)
+                clu_json['test'].append([i + public_index for i in range(len(indices))])
+                clu_no_singles_json['test'].append([i + public_index for i in range(len(indices))])
+                rep_json['test'].append(public_index) 
+                rep_no_singles_json['test'].append(public_index)
+                public_index += len(indices)
+            else:
+                consensus.writelines(current_cluster)
+                clu_json['train'].append([i + public_index for i in range(len(indices))])
+                clu_no_singles_json['train'].append([i + public_index for i in range(len(indices))])
+                rep_json['train'].append(public_index) 
+                rep_no_singles_json['train'].append(public_index)
+                public_index += len(indices)
+        else:
+            consensus.writelines(current_cluster)
+            clu_json['train'].append([i + public_index for i in range(len(indices))])
+            rep_json['train'].append(public_index)
+            public_index += len(indices)
+
+    print("Finished last cluster")
+
+    consensus.flush()
+    consensus.close()
+    private.flush()
+    private.close()
+
+    print("Closed files")
+
+    with open("/data/gigaref/private/clustered_splits.json", 'w') as f:
+        json.dump(private_clu_json, f)
+
+    with open("/data/gigaref/private/splits.json", 'w') as f:
+        json.dump(private_rep_json, f)
+
+    with open("/data/gigaref/with_singletons/clustered_splits.json", 'w') as f:
+        json.dump(clu_json, f)
+
+    with open("/data/gigaref/with_singletons/splits.json", 'w') as f:    
+        json.dump(rep_json, f)
+
+    with open("/data/gigaref/no_singletons/clustered_splits.json", 'w') as f:
+        json.dump(clu_no_singles_json, f)
+
+    with open("/data/gigaref/no_singletons/splits.json", 'w') as f:
+        json.dump(rep_no_singles_json, f)
+
+    print("Done writing json files")