Pesquisa genômica demanda capacidade exponencial de dados

A medicina genômica e de precisão transforma vidas / Hanneke Wetzer/Creative Commons
Compartilhe

A medicina genômica e de precisão transforma vidas /  Hanneke Wetzer/Creative Commons
A medicina genômica e de precisão transforma vidas /  Hanneke Wetzer/Creative Commons

Pergunte a qualquer pesquisador. Quando o assunto é lentidão no processo de inovação, o vilão é sempre a falta de recursos.

Esse é um fenômeno muito comum na pesquisa genômica e medicina de precisão, disciplinas que progrediram rapidamente na última década e apresentam tremendo potencial para transformar a maneira como entendemos, tratamos e, no futuro, poderemos curar doenças complexas.

Diante desse cenário promissor, há consenso de que as infraestruturas de dados – incluindo armazenamento – estão com dificuldades e, em muitos casos, inaptas a acompanhar os requisitos crescentes gerados pelo crescimento exponencial de dados e a demanda dos algoritmos e pipelines de próxima geração.

Para piorar ainda mais o problema, a maioria das organizações não está bem posicionada para adotar de forma ágil tecnologias emergentes como aprendizado de máquina e inteligência artificial (IA), que abrem fronteiras na jornada para medicina de precisão.

Com os dados como direcionador indiscutível da medicina do século 21, é claro que não podemos suportar nossa infraestrutura de dados de última geração em tecnologias do século passado – que não foram planejadas para lidar com volumes massivos de informações ou cargas de trabalho atuais.

Muito potencial

Até 2020, com base em sua taxa atual de aceleração, o sequenciamento e análise genômica produzirão 1 exabyte de dados armazenados anualmente. Até 2025, os requisitos de dados aumentarão para 1 zettabyte – ou seja, um trilhão de bilhões de bytes – por sequência, por ano.

A partir de esforços conjuntos de várias universidades e parceiros da indústria privada, bem como outros especialistas em dados de saúde, cerca de 500 mil sequências do genoma humano foram disponibilizadas até 2017.

Entretanto, esse número deve dobrar a cada 12 meses, com instituições estabelecendo metas para a obtenção de até 2 milhões de sequências genômicas exclusivas.

Considerando que são necessários 5 terabytes de armazenamento de dados brutos para sequenciar um único genoma, torna-se fácil entender a pressão urgente que circula nas plataformas que suportam a escalabilidade exagerada, a redução de dados e um custo total de propriedade que permitirá às instituições perceberem o valor dos dados que geram, processam e retêm.

Hora de acelerar

Embora o número de plataformas de grandes volumes de dados e sistemas de armazenamento tenha aumentado nos últimos anos, colocando o potencial do poder computacional nas mãos das instalações de pesquisa, muitos desses ambientes ainda precisam oferecer um desempenho ágil, com alta atuação, custos baixos e gerenciáveis.

Um dos fatores que contribuem para esse cenário é a contínua dependência de tecnologias legadas, especialmente de armazenamento.

As tecnologias legadas – baseadas em disco mecânico e criadas na década de 1950 – não foram projetadas para essas cargas de trabalho e são gargalo crescente para pesquisadores.

Além disso, não estão equipadas para suportar exigências de tecnologias como inteligência artificial, deep learning e unidades de processamento gráfico.

No caso da deep learning, forma de aprendizado de máquina que imita a maneira como a informação é processada no sistema nervoso, as tecnologias de armazenamento herdadas foram projetadas com um conjunto totalmente diferente de expectativas em torno de fatores como velocidade, capacidade e densidade.

As operações de computação e rede têm explorado continuamente as recompensas de desempenho proporcionadas pela duplicação a cada dois anos de transistores que podem caber em um chip (Lei de Moore).

Agora, é hora de os data centers aproveitarem o mesmo potencial em seus sistemas de armazenamento e começarem a construir uma nova fundação, com plataformas de dados reinventadas do zero para nova era da análise inteligente.

Dito isso, encontramos diversas características-chave que definem a arquitetura centrada em dados e os requisitos de armazenamento para a era genômica da próxima geração:

  • Armazenamento otimizado para silício x armazenamento otimizado para disco, para suportar gigabytes. O desempenho da tecnologia SSD excede em muito o armazenamento baseado em unidades de disco rígido.
  • Arquitetura de aplicativos altamente paralela, que suporta de milhares a dezenas de milhares de aplicativos compostos, compartilhando petabytes de dados x dezenas a centenas de aplicativos monolíticos, consumindo terabytes de dados em silos para cada aplicativo.
  • Escala elástica para petabytes, que permitem que as organizações paguem à medida que crescerem com compatibilidade perpétua.
  • Automação completa para minimizar recursos de gerenciamento necessários para manter a plataforma.
  • Capacidade de suportar e abranger vários ambientes de nuvem, de data centers centrais a data centers de ponta, bem como em provedores de infraestrutura como serviço (IaaS) e software como serviço (SaaS), com várias nuvens.
  • Plataforma de desenvolvimento aberta x ecossistema fechado baseado em soluções complexas de software de armazenamento.
  • Modelo de consumo de assinatura, que suporta inovação constante e elimina a rotatividade e a corrida sem fim para expandir o armazenamento e atender às crescentes necessidades, com atualização a cada três a cinco anos.

Sem dúvida, a medicina genômica e de precisão transforma vidas. A partir de agora, o desejo da comunidade médica e de pesquisa é acelerar com segurança o progresso e o impacto positivo que essas abordagens terão nos resultados dos pacientes.

A capacidade de reunir, gerenciar, analisar e obter informações de forma massiva e eficiente, a partir de armazenamentos massivos de dados é fundamental para essa busca.

É hora de avançar na jornada com uma infraestrutura centrada em dados e projetada para a era do genoma.

  • Paulo de Godoy é gerente geral de vendas da Pure Storage no Brasil


Compartilhe
Publicação Anterior

Start Eldorado: Como está a segurança da urna eletrônica

Próxima Publicação

Start Eldorado: Qual é o impacto da tecnologia no cotidiano

Veja também

Melhores filmes: O camponês Franz Jägerstätter se recusa a entrar para o exército nazista / Reprodução

Quais foram os melhores filmes de 2020

Compartilhe

CompartilheNum ano em que ficamos quase todo tempo impedidos de frequentar salas de cinema, a maior parte da lista abaixo foi vista no streaming. Apesar de A vida oculta e O farol terem sido lançados […]


Compartilhe
A segunda edição do workshop sobre inovação na mídia será realizado no CO.W Berrini / Renato Cruz/inova.jor

Inscreva-se no workshop sobre inovação na mídia

Compartilhe

Compartilhe O mercado de comunicação tem mudado rapidamente. Avanços tecnológicos tornam possíveis novos modelos de comunicação, ao mesmo tempo em que colocam em risco negócios estabelecidos. Conduzido por Renato Cruz, editor do inova.jor, o workshop vai apresentar conceitos de inovação e […]


Compartilhe