Montagem de Genomas ‘De Novo’

por nov 2, 2020

O sequenciamento do genoma é um marco na história de vida de uma espécie. Com as informações acumuladas ao longo de quase 100 anos de biologia molecular para diferentes organismos, podemos fazer muitas inferências para uma determinada espécie simplesmente olhando para a sequencia do seu DNA.

O montagem do genoma de um organismo pela primeira vez é chamada de ‘De Novo’. O processo começa com estimativas do tamanho do genoma por comparação com o genoma conhecido de outros organismos, como o nosso próprio, utilizando uma técnica chamada citometria.

Com a estimativa do tamanho do genoma, estimamos a quantidade de sequenciamento que será necessária para fazer a montagem. O sequenciamento ainda é um processo estocástico: não há como prever que parte do genoma será sequenciada e para garantir que não teremos muito da mesma parte e nada de uma outra, temos que sequenciar o correspondente a várias vezes o tamanho do genoma. Entre 10 e 100 vezes, dependendo da tecnologia de sequenciamento.

O sequenciamento pode ser feito em fragmentos curtos (entre 150 e 400 pares de base) ou longos (até 10.000 pares de base), mas o primeiro passo é a montagem de uma ‘biblioteca’: o DNA, que é muito longo, é fragmentado em pedaços de tamanhos diferentes e esses fragmentos são circularizados com o auxílio de adaptadores (pequenas moléculas de DNA com 10 pares de base conhecidos) e então fragmentados novamente para o sequenciamento.

O sequenciamento digitaliza a informação química e biológico que está no DNA.

A montagem é feita por algoritmos que sobrepõe os fragmentos com base na identidade das bases nitrogenadas na sequencia. A montagem de pequenos fragmentos gera fragmentos maiores, que se juntam para formar fragmentos ainda maiores, que chamamos em inglês de scaffolds, e que devem ser tão grandes quanto o tamanho de um cromossoma do organismo. Fazemos esse processo até termos um número de scaffolds igual ao número de cromossomos do organismo. Assim, recuperamos digitalmente a sequencia original do genoma.

E aí começa o processo mais incerto e trabalhoso que é a anotação do genoma: identificar que sequencias são genes, promotores, transposomos, micro e macrostélites, SNP e… que sequencias não são nada. Usamos aprendizagem de máquina aqui, treinando um algoritmo a encontrar padrões de bases nitrogenadas que estão associados com genes em outros organismos, para mapear esses possíveis genes no nosso genoma de novo.

E, finalmente, através de um trabalho de revisão bibliográfica extensivo, fazemos a curadoria manual dessa anotação automática.

Eventualmente, vamos para a bancada para fazer in vitro a confirmação que um gene tem a função que esperávamos que tivesse. Essa validação é mais cara e demorada, mas é a única validação que pode confirmar sem sombra de dúvidas a função de um gene.

Montar um genoma de novo ainda é um feito científico relevante e o primeiro passo para o desenvolvimento de soluções biotecnológicas para o controle e a conservação de espécies ou a criação de produtos e serviços para a bioeconomia. E é por isso que nos especializamos nisso.

Essa é a lista de alguns genomas que sequenciamos:

Mexilhão Dourado – Limnoperna fortunei (hiperlink)

  • Marcela Uliano-Silva, Francesco Dondero, Thomas Dan Otto, Igor Costa, Nicholas Costa Barroso Lima, Juliana Alves Americo, Camila Junqueira Mazzoni, Francisco Prosdocimi, Mauro de Freitas Rebelo, A hybrid-hierarchical genome assembly strategy to sequence the invasive golden mussel, Limnoperna fortuneiGigaScience, Volume 7, Issue 2, February 2018, gix128, https://doi.org/10.1093/gigascience/gix128

Breu branco – Protium kleinii (hiperlink)

  • First Draft Genome of a Brazilian Atlantic Rainforest Burseraceae reveals commercially-promising genes involved in terpenic oleoresins synthesis Luana Ferreira Afonso, Danielle Amaral, Marcela Uliano-Silva, André Luiz Quintanilha Torres, Daniel Reis Simas, Mauro de Freitas Rebelo bioRxiv 467720; doi: https://doi.org/10.1101/467720

Coral Sol – Tubastraea tagusensis, Tubastraea coccinea e Tubastraea sp (hiperlink)

  • Draft genome of the invasive coral Tubastraea sp. Giordano Bruno Soares-Souza, Danielle Amaral, André Q. Torres, Daniela Batista, Aline Silva Romão-Dumaresq, Luciana Leomil, Marcela Uliano-Silva, Francesco Dondero, Mauro de Freitas Rebelo bioRxiv 756999; doi: https://doi.org/10.1101/756999
  • The genomes of invasive coral Tubastraea spp. (Dendrophylliidae) as tool for the development of biotechnological solutions Giordano Bruno Soares-Souza, Danielle Amaral, Daniela Batista, André Q. Torres, Anna Carolini Silva Serra, Marcela Uliano-Silva, Luciana Leomil, Aryane Camos Reis, Elyabe Monteiro de Matos, Emiliano Calderon, Vriko Yu, Francesco Dondero, Saulo Marçal de Sousa, David Baker, Aline Dumaresq, Mauro F. Rebelo bioRxiv 2020.04.24.060574; doi: https://doi.org/10.1101/2020.04.24.060574