Περίληψη
H παρούσα διδακτορική διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της Βιοπληροφορικής και της Ανάλυσης Μεγάλων Δεδομένων με Μηχανική Μάθηση. Πρωταρχικό στόχο αποτελεί η ανάπτυξη υπολογιστικών μοντέλων ικανών να εξάγουν χρήσιμες πληροφορίες από την επεξεργασία βιολογικών δεδομένων, που θα οδηγήσουν στη διεύρυνση της γνώσης σε ανοιχτά βιολογικά ζητήματα. Η έρευνα εστιάζει σε δύο βιολογικούς στόχους, στην αναγνώριση μικρών ανοικτών παραθύρων ανάγνωσης (sORFs) που κωδικοποιούν πρωτεΐνες και στη ρύθμιση της έκφρασης κωδικών και μη κωδικών γονιδίων. Τα τελευταία χρόνια έχει αναγνωριστεί μια αυξανόμενη ποικιλία πεπτιδίων μικρότερων των 100 κωδικονίων σε διάφορους οργανισμούς, από βακτήρια έως ανθρώπους, τα οποία δρουν ως ρυθμιστές πολλών κρίσιμων διαδικασιών όπως ο μεταβολισμός, η ανάπτυξη, και ο κυτταρικός θάνατος. Επιπρόσθετα με τις αλληλουχίες που κωδικοποιούν μεγάλες πρωτεΐνες, υπάρχουν πολλά μικρά ανοιχτά πλαίσια ανάγνωσης που επεξεργάζονται από τον μεταφραστικό μηχανισμό τ ...
H παρούσα διδακτορική διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της Βιοπληροφορικής και της Ανάλυσης Μεγάλων Δεδομένων με Μηχανική Μάθηση. Πρωταρχικό στόχο αποτελεί η ανάπτυξη υπολογιστικών μοντέλων ικανών να εξάγουν χρήσιμες πληροφορίες από την επεξεργασία βιολογικών δεδομένων, που θα οδηγήσουν στη διεύρυνση της γνώσης σε ανοιχτά βιολογικά ζητήματα. Η έρευνα εστιάζει σε δύο βιολογικούς στόχους, στην αναγνώριση μικρών ανοικτών παραθύρων ανάγνωσης (sORFs) που κωδικοποιούν πρωτεΐνες και στη ρύθμιση της έκφρασης κωδικών και μη κωδικών γονιδίων. Τα τελευταία χρόνια έχει αναγνωριστεί μια αυξανόμενη ποικιλία πεπτιδίων μικρότερων των 100 κωδικονίων σε διάφορους οργανισμούς, από βακτήρια έως ανθρώπους, τα οποία δρουν ως ρυθμιστές πολλών κρίσιμων διαδικασιών όπως ο μεταβολισμός, η ανάπτυξη, και ο κυτταρικός θάνατος. Επιπρόσθετα με τις αλληλουχίες που κωδικοποιούν μεγάλες πρωτεΐνες, υπάρχουν πολλά μικρά ανοιχτά πλαίσια ανάγνωσης που επεξεργάζονται από τον μεταφραστικό μηχανισμό των κυττάρων παράγοντας μικρά πεπτίδια. Οι μικρές πεπτίδικές αλυσίδες συνήθως δεν καταγράφονται στους σχολιασμούς πρωτεομικής καθώς λόγω του μικρού τους μεγέθους θεωρείται ότι συμβαίνουν τυχαία και αποτυγχάνουν να πετύχουν υψηλές βαθμολογίες σε δείκτες λειτουργικότητας όπως για παράδειγμα η συντήρηση. Το ανοιχτό ζήτημα της πιθανότητας κωδικοποίησης πεπτιδίων από μικρά ανοιχτά πλαίσια ανάγνωσης προσεγγίστηκε στην παρούσα διατριβή με την ανάπτυξη του D-sORF, ενός αλγορίθμου μηχανικής μάθησης που προβλέπει την ικανότητα των sORFs να κωδικοποιούν πρωτεΐνες, ενσωματώνοντας στατιστικά στοιχεία της νουκλεοτιδικής αλληλουχίας και πληροφορίες μοτίβου γύρω από το κωδικόνιο μεταγραφικής έναρξης. Ο αλγόριθμος βαθμολογεί τις αλληλουχίες εισόδου με τρόπο ανάλογο της πιθανότητας που αποδίδει το μοντέλο πρόβλεψης στην κωδικοποίηση πεπτιδίων από πραγματικά κωδικοποιητικά ORFs. Χρησιμοποιεί αποκλειστικά την υποκείμενη γονιδιωματική αλληλουχία, αποφεύγοντας την ενσωμάτωση παραμέτρων όπως η συντήρηση (conservation), η οποία στην περίπτωση των sORFs μπορεί να μειώσει την ποιότητα των αποτελεσμάτων. Το επόμενο βιολογικό ζήτημα που απασχόλησε την παρούσα διατριβή αποτελεί ο χαρακτηρισμός των υποκινητών κωδικών και μη κωδικών RNAs. Το πρωτόκολλο CAGE έχει αναδειχθεί ως μία εξαιρετικά αποδοτική πειραματική τεχνική στην αναγνώριση θέσεων έναρξης της μεταγραφής και κατ’ επέκταση των υποκινητών. Παρά την αυξανόμενη δημοτικότητά του ως πειραματικό πρωτόκολλο αναγνώρισης υποκινητών, η εξειδίκευση του CAGE σχετικά με την αναγνώριση συμβάντων έναρξης μεταγραφής στο γονιδίωμα έχει αρκετούς περιορισμούς. Υπάρχουν ισχυρές ενδείξεις ότι εκτός από τις περιοχές υποκινητών, το CAGE αναγνωρίζει θέσεις προσθήκης καλύπτρας (capping sites) σε διάφορες άλλες περιοχές όπως υποπροϊόντα ματίσματος (splicing byproducts) και εναλλακτικές ισομορφές (alternative isoforms), που μπορούν να συνοψιστούν ως μεταγραφικός θόρυβος. Ως αποτέλεσμα, μόνο ένα υποσύνολο των εμπλουτισμένων περιοχών σε σήμα CAGE βρέθηκε να αλληλεπικαλύπτεται με την περιβάλλουσα περιοχή σχολιασμένων TSS. Αυτό αποτελεί σημαντικό εμπόδιο στις ερευνητικές μελέτες που στοχεύουν στον εμπλουτισμό των βιολογικών μονοπατιών με τις ρυθμιστικές περιοχές των γονιδίων. Στοχεύοντας στον διαχωρισμό των πραγματικών γεγονότων μεταγραφής, αναπτύχθηκε το ADAPT-CAGE, ένα αλγοριθμικό πλαίσιο με υψηλή διακριτική ικανότητα που χρησιμοποιεί ένα πολύ-επίπεδο μοντέλο μηχανικής μάθησης. Εκμεταλλεύεται δομικά χαρακτηριστικά της ακολουθίας DNA, μοτίβα πρόσδεσης της POL II και την γονιδιακή έκφραση, για την απόδοση βαθμολογίας στην κάθε μία κορυφή CAGE. Πέρα του μοντέλου μηχανικής μάθησης αναπτύχθηκε και ένα πολυδιάστατο πλαίσιο αξιολόγησης, βασισμένο τόσο σε πειραματικά δεδομένα όσο και υπολογιστικές μεθόδους. Η σύγκριση με αντίστοιχους αλγόριθμους επεξεργασίας CAGE δεδομένων για την ταυτοποίηση TSS σέ όλες τις επιμέρους αξιολογήσεις ανέδειξε την ποιότητα των αποτελεσμάτων του αλγόριθμου. Στη συνέχεια της παρούσας ο αλγόριθμος ADAPT CAGE εφαρμόστηκε σε μεγάλο πλήθος δειγμάτων από κυτταρικές σειρές, πρωτογενή κύτταρα και ιστούς για την ταυτοποίηση των υποκινητών των miRNA. Η αναγνώριση υποκινητών των miRNA είναι μια θεμελιώδης προσπάθεια για την κατανόηση και τον χαρακτηρισμό των υποκείμενων μηχανισμών τόσο των φυσιολογικών όσο και των παθολογικών καταστάσεων. Ο αναλυτικός σχολιασμός των θέσεων έναρξης της μεταγραφής και των υποκινητών συνδυάστηκε με πειραματικά αλλά και υπολογιστικά ταυτοποιημένες θέσεις πρόσδεσης μεταγραφικών παραγόντων για κάθε δείγμα, τροφοδοτώντας ένα αποθετήριο δεδομένων ρύθμισης των miRNAs. Το αποθετήριο miRGen v4 είναι δημοσίως προσβάσιμο από την επιστημονική κοινότητα. Συνέχεια της έρευνας στον τομέα της ανίχνευσης των κορυφών του σήματος CAGE που αντιστοιχεί σε πραγματικά γεγονότα μεταγραφής αποτέλεσε ο Dis-TSS αλγόριθμος. Σε αυτή την έρευνα συγκεράστηκαν τεχνικές επεξεργασίας σήματος με Μηχανική Μάθηση. Χαρακτηριστικά από τα πεδία του χώρου και των συχνοτήτων εξήχθησαν από τις κορυφές CAGE. Η σημασία κάθε χαρακτηριστικού εκτιμήθηκε και διατηρήθηκαν μόνο εκείνα που εμφάνιζαν υψηλή προγνωστική ικανότητα. Στη συνέχεια αποτέλεσαν το σύνολο εκπαίδευσης ενός συστήματος μηχανικής μάθησης που διαχωρίζει τα γεγονότα έναρξης της μεταγραφής από τον θόρυβο. Η ανάπτυξη αξιόπιστων αλγορίθμων και αποθετηρίων στα πλαίσια της παρούσας διατριβής μπορεί να διαδραματίσουν θεμελιώδη ρόλο στην αποκάλυψη βιολογικών συμπερασμάτων, ωθώντας τον ορίζοντα της επιστημονικής γνώσης ακόμη περισσότερο.
περισσότερα