Biohack exemplary tasks

*English version below

1. Analiza genomów bakteriofagowych pod kątem ich lityczności/lizogenności

Celem zadania będzie opracowanie ścieżki analitycznej w oparciu o oprogramowanie open source oraz samodzielnie przygotowane skrypty pozwalającej na maksymalnie dokładne zidentyfikowanie bakteriofaga jako litycznego bądź lizogennego w oparciu o sekwencję jego DNA. Ważnym etapem będzie także zautomatyzowanie procesu analiz np. w oparciu o framework Luigi.

2. Implementacja algorytmu „balance tree” dla analizy różnic obfitości w badaniach metagenomicznych

Analiza różnorodności taksonów znajdujących się w różnych próbkach jest istotnym problemem w badaniach metagenomicznych. Obecnie najpopularniejszą metodą analiz tego typu jest ANCOM (ANalysis of Composition Of Microbiomes) która posiada wiele dobrych implementacji. Z drugiej jednak strony wykazano, że lepszą metodą do analiz różnic taksonomicznych jest metoda „balance tree” zapożyczona z geologii. Celem zadania jest odpowiednie dostosowanie oraz implementacja metody „balance tree” dla analizy różnic obfitości w badaniach metagenomicznych.

3. Analiza danych GWAS w oparciu o algorytmy uczenia maszynowego.

Celem zadania będzie przygotowanie ścieżki analitycznej wykorzystującej metody uczenia maszynowego pozwalającej na wyszukanie interesujących wzorców w dostarczonym zestawie danych z analiz GWAS. Uczestnicy poszukiwać będą zależności pomiędzy cechami fenotypowymi takimi jak np. kolor oczu, kolor włosów, różnego rodzaju choroby a ok. 500 000 wariantów genetycznych badanych na mikromacierzach. Możliwe do przeprowadzenia analizy obejmują także badania powiązania występowania poszczególnych wariantów z danymi geograficznymi dotyczącymi osób od których pobrane były próbki.

4. Opracowanie algorytmu do tłumaczenia nazw zwyczajowych/słownych jednostek chorobowych na kody ICD-10 (preferowane podejście NLP).

W świecie medycyny istnieje wiele określeń na opisanie jednej i tej samej jednostki chorobowej. Jest to istotny problem z punktu widzenia analizy danych pochodzących z wielu ośrodków pomiędzy którymi nie określono jednolitego nazewnictwa jednostek chorobowych. Problem ten dotyka w dużej mierze także badań populacyjnych, gdzie choroby dotykające pacjentów wprowadzane są przez nich samodzielnie lub przez ankieterów, którzy nie zawsze mają przygotowanie medyczne. Sposobem na rozwiązanie tego problemu jest stworzenie translatora na jednorodny system nazewnictwa jednostek chorobowych a mianowicie ICD-10. Z racji na wielorakość stosowanych nazw zwyczajowych optymalnym rozwiązaniem jest zastosowanie metod NLP.

5. Opracowanie lokalnego narzędzia do adnotacji genomów bakteriofagowych.

Adnotacja genomów bakteriofagowych jest problemem w dzisiejszej biotechnologii. Istnieje wiele aplikacji pozwalających na wykonanie tego zadania. Istnieje jeszcze jednak duże pole do rozwoju tego typu narzędzi poprzez lepsze metody poszukiwania ORF dostosowane do bakteriofagów oraz przygotowanie bogatszych baz danych genów, na podstawie których genomy będą adnotowane.

6. Opracowanie metody uporządkowanego przechowywania danych pochodzących z sekwencjonowania NGS.

Przechowywanie i przetwarzanie danych powstałych w wyniku sekwencjonowania NGS stanowi istotny problem w świecie badań wykorzystujących tą metodę. Każda tura sekwencjonowania generuje dziesiątki gigabajtów danych które należy przechowywać w sposób uporządkowany i umożliwiający ich sprawne wykorzystanie w późniejszym czasie. Celem zadania jest opracowanie systemu pozwalającego na przechowywanie danych w formie łatwej do wykorzystania oraz pozwalającego na archiwizację próbek które zostały zanalizowane i prawdopodobnie nie będą wykorzystywane w najbliższym czasie.

 

 

1. The analysis of bacteriophage genomes considering their lytic/lysogenic potential

The aim of the task is to develop analytical pathway using open source software and self-prepared scripts which would allow the maximum of accuracy in the identification of bacteriophages as lytic or lysogenic  ones based on DNA sequence. Vital part of the process of analysis e.g. using Luigi framework.

2. Implementation of balance tree algorithm for abundance difference analysis in metagenomic research

Analysis of taxons diversity obtained from different samples is considerable obstacle in metagenomic research. At present,  ANCOM (ANalysis of COMposition of Microbiome) is most popular tool with many successful implementations. However, better method for analysis of taxonomic differences is balance tree method, firstly used in geology. The aim of the task is correct adjustment and implementation of balance tree method for analysis of abundance differences in metagenomic research.

3. Analysis of GWAS data using machine learning algorithms

The aim of the task is preparation of analytical pathway which relies on machine learning methods allowing to search for motifs of interest in post-GWAS analysis data. Participants are examining the dependence between phenotype features (eye and hair color, various illnesses ) and circa 500 000 genetic variants from microarray analysis. It is possible to include research on co-occurring of such variants with geographical data of sample donors within this project.

4. Development of algorithm for translation of common names of disease entities into ICD-10 units (NLP approach preferred)

Medicine uses multiple names for the same disease entity. It is problematic when data from many research centres without uniform nomenclature system is analyzed.  Also, population research is hindered by this fact as diseases are introduced into the system either by patients or by survey-conducting staff without medical background. To solve this problem, translator to uniform nomenclature system for disease entities (ICD-10) shall be developed. Due to multiplicity of common names, NLP is the optimal approach to be used.

5. Development of local tool for annotation of bacteriophage genomes

Annotation of bacteriophage genomes is a problem of modern biotechnology. Many applications for this aim already exist. There is still a great potential in the development of such tools by enhancing the methods of ORF detection, tailored to bacteriophages, and preparation of improved gene databases being the backbone of genomic annotation.

6. Development of method for ordered storage of NGS-obtained data

Storage and processing of NGS-obtained data is the major problem in research that uses this method. Each turn of sequencing generates tens of gigabytes of data that has to be stored in ordered and ready-to-use manner. The task aims to develop the system that allows to store data in an easy-to-use form and to direct the analyzed one to the repository if it is not used for a while.