Dedico este trabalho a todos que me ajudaram e me apoiaram nestes 7 anos de UnB. Primeiramente a Deus, pois nunca me deixou na mão, principalmente nestes tempos de mestrado, onde sempre senti sua companhia em todos os momentos. Também dedico a minha família, por todo incentivo a continuar estudando e, por fim, a minha namorada, amigos e professores, especialmente a professora Maria Emília, por sempre acreditar em meu potencial. "Comece fazendo o que é necessário, depois o que é possível, e em breve estarás fazendo o impossível." São Francisco de Assis iv Agradecimentos Agradeço as instituições de ensino que me deram a chance de fazer esta dissertação de mestrado: as universidades de Brasília, de Leipzig e de Freiburg, das quais me deram a chance de ver o mundo com outros olhos, melhorando o meu eu cientista e o meu eu humano. Também agradeço ao grupo de bioinformática da UnB e da Universidade de Freiburg, pela amizade e apoio nestes tempos de pesquisa e muito estudo. Por fim agradeço as pessoas que com pequenos gestos e atitudes me ajudaram a seguir em frente, em especial o Dr. Christian Schulz-Huotari e os professores Fabrizio Costa, Rolf Backofen e Jana Hertel. Obrigado!! v Resumo Métodos de aprendizagem de máquina vêm sendo amplamente usados na identificação e classificação de diferentes famílias de RNAs não-codificadores (ncRNAs). Muitos desses métodos são baseados na aprendizagem supervisionada, onde atributos anteriormente conhecidos, chamados features, são extraídos de uma sequência e usados em um classificador. Nesta dissertação, apresentamos dois métodos para a identificação das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs: snoReport 2.0, uma melhoria significativa da primeira versão do snoReport; e o snoRNA-EDeN, um novo método baseado no EDeN, que é um kernel decomposicional de grafos. O snoReport 2.0 é um método que, usando features extraídas de sequências candidatas em genomas, combina predição de estrutura secundária de ncRNAs com Máquina de Vetores de Suporte (Support Vector Machine-SVM), para identificar C/D box e H/ACA box snoRNAs. Seu classificador de H/ACA box snoRNA mostrou um F-score de 93% (uma melhoria de 10% em relação à primeira versão do snoReport), enquanto o classificador de C/D box snoRNA obteve F-score de 94% (melhoria de 14%). Alem disso, ambos os classificadores tiveram todas as medidas de performances acima de 90%. Na fase de validação, o snoReport 2.0 identificou 67,43% dos snoRNAs de vertebrados de ambas as classes. Em Nematóides, o snoReport 2.0 identificou 29,6% dos C/D box snoRNAs e 69% dos H/ACA box snoR-NAs. Para as Drosofilídeas, foram identificados 3,2% dos C/D box snoRNAs e 76,7% dos H/ACA box snoRNAs. Esses resultados mostram que o snoReport 2.0 é eficiente na identificação de snoRNAs em organismos vertebrados, e também para H/ACA box snoRNAs de organismos invertebrados. Por outro lado, em vez de usar features de uma sequência (em geral, difíceis de identificar), uma abordagem recente de aprendizagem de máquina é descrita a seguir. Dada uma região de ...