Pesquisa genômica demanda capacidade exponencial de dados

A medicina genômica e de precisão transforma vidas / Hanneke Wetzer/Creative Commons
Compartilhe

A medicina genômica e de precisão transforma vidas /  Hanneke Wetzer/Creative Commons
A medicina genômica e de precisão transforma vidas /  Hanneke Wetzer/Creative Commons

Pergunte a qualquer pesquisador. Quando o assunto é lentidão no processo de inovação, o vilão é sempre a falta de recursos.

Esse é um fenômeno muito comum na pesquisa genômica e medicina de precisão, disciplinas que progrediram rapidamente na última década e apresentam tremendo potencial para transformar a maneira como entendemos, tratamos e, no futuro, poderemos curar doenças complexas.

Diante desse cenário promissor, há consenso de que as infraestruturas de dados – incluindo armazenamento – estão com dificuldades e, em muitos casos, inaptas a acompanhar os requisitos crescentes gerados pelo crescimento exponencial de dados e a demanda dos algoritmos e pipelines de próxima geração.

Para piorar ainda mais o problema, a maioria das organizações não está bem posicionada para adotar de forma ágil tecnologias emergentes como aprendizado de máquina e inteligência artificial (IA), que abrem fronteiras na jornada para medicina de precisão.

Com os dados como direcionador indiscutível da medicina do século 21, é claro que não podemos suportar nossa infraestrutura de dados de última geração em tecnologias do século passado – que não foram planejadas para lidar com volumes massivos de informações ou cargas de trabalho atuais.

Muito potencial

Até 2020, com base em sua taxa atual de aceleração, o sequenciamento e análise genômica produzirão 1 exabyte de dados armazenados anualmente. Até 2025, os requisitos de dados aumentarão para 1 zettabyte – ou seja, um trilhão de bilhões de bytes – por sequência, por ano.

A partir de esforços conjuntos de várias universidades e parceiros da indústria privada, bem como outros especialistas em dados de saúde, cerca de 500 mil sequências do genoma humano foram disponibilizadas até 2017.

Entretanto, esse número deve dobrar a cada 12 meses, com instituições estabelecendo metas para a obtenção de até 2 milhões de sequências genômicas exclusivas.

Considerando que são necessários 5 terabytes de armazenamento de dados brutos para sequenciar um único genoma, torna-se fácil entender a pressão urgente que circula nas plataformas que suportam a escalabilidade exagerada, a redução de dados e um custo total de propriedade que permitirá às instituições perceberem o valor dos dados que geram, processam e retêm.

Hora de acelerar

Embora o número de plataformas de grandes volumes de dados e sistemas de armazenamento tenha aumentado nos últimos anos, colocando o potencial do poder computacional nas mãos das instalações de pesquisa, muitos desses ambientes ainda precisam oferecer um desempenho ágil, com alta atuação, custos baixos e gerenciáveis.

Um dos fatores que contribuem para esse cenário é a contínua dependência de tecnologias legadas, especialmente de armazenamento.

As tecnologias legadas – baseadas em disco mecânico e criadas na década de 1950 – não foram projetadas para essas cargas de trabalho e são gargalo crescente para pesquisadores.

Além disso, não estão equipadas para suportar exigências de tecnologias como inteligência artificial, deep learning e unidades de processamento gráfico.

No caso da deep learning, forma de aprendizado de máquina que imita a maneira como a informação é processada no sistema nervoso, as tecnologias de armazenamento herdadas foram projetadas com um conjunto totalmente diferente de expectativas em torno de fatores como velocidade, capacidade e densidade.

As operações de computação e rede têm explorado continuamente as recompensas de desempenho proporcionadas pela duplicação a cada dois anos de transistores que podem caber em um chip (Lei de Moore).

Agora, é hora de os data centers aproveitarem o mesmo potencial em seus sistemas de armazenamento e começarem a construir uma nova fundação, com plataformas de dados reinventadas do zero para nova era da análise inteligente.

Dito isso, encontramos diversas características-chave que definem a arquitetura centrada em dados e os requisitos de armazenamento para a era genômica da próxima geração:

  • Armazenamento otimizado para silício x armazenamento otimizado para disco, para suportar gigabytes. O desempenho da tecnologia SSD excede em muito o armazenamento baseado em unidades de disco rígido.
  • Arquitetura de aplicativos altamente paralela, que suporta de milhares a dezenas de milhares de aplicativos compostos, compartilhando petabytes de dados x dezenas a centenas de aplicativos monolíticos, consumindo terabytes de dados em silos para cada aplicativo.
  • Escala elástica para petabytes, que permitem que as organizações paguem à medida que crescerem com compatibilidade perpétua.
  • Automação completa para minimizar recursos de gerenciamento necessários para manter a plataforma.
  • Capacidade de suportar e abranger vários ambientes de nuvem, de data centers centrais a data centers de ponta, bem como em provedores de infraestrutura como serviço (IaaS) e software como serviço (SaaS), com várias nuvens.
  • Plataforma de desenvolvimento aberta x ecossistema fechado baseado em soluções complexas de software de armazenamento.
  • Modelo de consumo de assinatura, que suporta inovação constante e elimina a rotatividade e a corrida sem fim para expandir o armazenamento e atender às crescentes necessidades, com atualização a cada três a cinco anos.

Sem dúvida, a medicina genômica e de precisão transforma vidas. A partir de agora, o desejo da comunidade médica e de pesquisa é acelerar com segurança o progresso e o impacto positivo que essas abordagens terão nos resultados dos pacientes.

A capacidade de reunir, gerenciar, analisar e obter informações de forma massiva e eficiente, a partir de armazenamentos massivos de dados é fundamental para essa busca.

É hora de avançar na jornada com uma infraestrutura centrada em dados e projetada para a era do genoma.

  • Paulo de Godoy é gerente geral de vendas da Pure Storage no Brasil


Compartilhe
Publicação Anterior

Start Eldorado: Como está a segurança da urna eletrônica

Próxima Publicação

Start Eldorado: Qual é o impacto da tecnologia no cotidiano

Veja também

Turistas exigem mais ofertas e pacotes relevantes e contextuais / Renato Cruz/inova.jor

Uma era em que os turistas têm mais poder do que nunca

Compartilhe

CompartilheA distribuição para hotéis tornou-se cada vez mais complexa ao longo dos anos. Costumava ser limitada, mas era simples: para atrair hóspedes bastava colocar uma placa grande numa rua movimentada, ou talvez distribuir panfletos na […]


Compartilhe
Darwin: Programas de incubação e aceleração de startups têm crescido exponencialmente / Divulgação

O que Charles Darwin tem a ensinar às empresas inovadoras

Compartilhe

CompartilheCriar soluções diferentes para necessidades globais tornou-se atividade essencial no século 21. A demanda por novidades e evoluções tecnológicas fez com que a palavra inovação fosse disseminada em mercados e setores diversos, ampliando conceitos como […]


Compartilhe