Um lago de dados

Volta e meia abordamos aqui o conceito de “ big data ”, o armazenamento e processamento da brutal quantidade de dados cuja geração vem aumentando com uma rapidez quase inacreditável. E há boas razões para este crescimento. Para começar, a enorme quantidade de sensores e dispositivos inteligentes que hoje são encontrados em quase tudo, e que fornecem dados – literalmente – sem parar. Dados estes que se somam, como seria de esperar, aos gerados pelos aplicativos, tanto os modernos quanto os tradicionais. Isto sem falar na enxurrada de dados produzidos diuturnamente pelas redes sociais, alguns deles de imenso valor para as empresas que desejam conhecer a opinião de seus clientes sobre elas quase que de forma sub-reptícia – já que eles nem sabem que sua opinião está sendo sondada, armazenada e analisada a partir de um emaranhado de dados públicos. Enfim, a quantidade de dados que mal nos damos conta que são produzidos e armazenados vem crescendo de forma exponencial. Veja todas as colunas do B. Piropo Mas a simples existência desta quantidade crescente de dados pouco significa do ponto de vista prático caso eles não venham a ser armazenados e processados. Imagine um grande hospital geral que procurou se manter em dia com a tecnologia da informação à medida que ela evoluía. Durante este período foram armazenados registros médicos de milhões de pacientes, notas avulsas de médicos e pessoal especializado, planilhas eletrônicas com a especificação e o custo do material médico usado em cada procedimento de cada paciente e outros tantos dados alfanuméricos. Agora, junte a eles alguns milhões de imagens digitalizadas provenientes de radiografias, tomografias computadorizadas e outras tantas “grafias” que vêm se tornando cada vez mais indispensáveis para efetuar diagnósticos e acompanhar a evolução de tratamentos. Que por sua vez vêm acompanhadas de seus respectivos laudos. Junte a tudo isto os dados referentes à administração do hospital, salários, custos diretos, indiretos e congêneres. Agora jogue tudo em um repositório de dados e procure tirar algum proveito deles. Provavelmente quem se dispuser a isto sem as ferramentas adequadas nada conseguirá exceto uma possível internação – quem sabe no próprio hospital – devido a um distúrbio nervoso causado por pura exaustão de tanto mexer nos dados sem conseguir nada que preste. Quer dizer: o simples fato de mantê-los armazenados não significa que se tire algum proveito dos dados. Mas certamente é o primeiro passo. Até poucos anos armazenar dados era caro. Mas o que vem acontecendo ultimamente é que os custos de armazenamento estão caindo cada vez mais rapidamente e deixaram de ser um empecilho para a formação de repositórios de dados com capacidades quase incomensuráveis. E os grandes fornecedores de dispositivos de armazenamento, como a EMC, oferecem equipamentos cada vez de maior porte capazes de armazenar quantidades de dados impensáveis há alguns anos a custos mais e mais acessíveis. Mas, como vimos, não basta acumular dados, é preciso ainda saber o que fazer com eles e como fazê-lo para que deles se tire algum proveito. Ou seja, há que prepará-los para que sejam processados e analisados usando o software adequado. Quer dizer: para que sejam úteis os dados devem ser extraídos, transformados e carregados (um procedimento denominado ETL, de “extract-transform-load”) nos programas que os processarão. A forma ideal de fazer isso é jogar os dados em um imenso repositório e lá acumulá-los até o momento em que seja necessário processá-los, da mesma forma que um grande lago nas montanhas acumula a água que para ele flui de centenas de afluentes e milhares de afluentes de seus afluentes e assim por diante. O que fez com que nosso imenso repositório de dados fosse batizado de “ Data Lake ”, ou “Lago de dados”. Segundo a definição do dicionário técnico da TechTarget, “ A data lake is a large object-based storage repository that holds data in its native format until it is needed ” (Um “ data lake ” é um grande repositório de armazenamento baseado em objetos que armazena dados em seu formato original até que seja necessário usá-los”). E, naturalmente, seu respectivo ETL, composto por novas tecnologias desenvolvidas especificamente para tal fim que permitam análise em tempo real e conexão direta com novos produtos de software, também desenvolvidos para lidar com o material que se recupera do repositório de armazenamento. Porque o conceito de Data Lake engloba não apenas o imenso conjunto de dados armazenados como também a lógica usada para analisá-los e as tecnologias de armazenamento capazes se receberem e lidarem com dados estruturados e não estruturados de diferentes naturezas e origens. Karin Breitman, Diretora e Cientista Chefe do Centro de Pesquisa e Desenvolvimento da EMC (Foto: Reprodução/B. Piropo) Com um conjunto suficientemente grande de dados armazenados e usando a lógica de análise correta, os Data Lakes podem ser vistos como máquinas de prever o futuro. Pois a mais importante utilização dos Data Lakes mantidos por empresas bem sucedidas é gerar modelos preditivos que auxiliam a criar novos produtos, aplicativos e modelos de negócios adotados para corrigir seus rumos ao navegarem nos revoltos mares do mercado. Pois bem: nesta última terça-feira, 24 de março, a empresa EMC reuniu a imprensa especializada em seu magnífico Centro de Pesquisa e Desenvolvimento em Big Data, localizado no Parque Tecnológico da UFRJ, na Ilha do Fundão, Rio de Janeiro, para anunciar o lançamento de seu Federation Business Data Lake, um Data Lake totalmente projetado em nível empresarial. O anúncio foi feito por Karin Breitman, Diretora e Cientista Chefe do Centro de Pesquisa e Desenvolvimento, mostrada na foto obtida no evento. Segundo a EMC, um Data Lake eficiente deve oferecer três funções críticas. Três funções básicas A primeira consiste no armazenamento de dados estruturados e não estruturados para todos os tipos de lógica de análise, provenientes de diferentes fontes e capaz de combinar capacidade com desempenho na medida das necessidades do uso da lógica analítica. A segunda se consubstancia no oferecimento de um moderno ferramental de gerenciamento de dados que possa ser usado com qualquer tipo de lógica analítica, aí incluindo os baseados em “ hadoop ” (plataforma em Java voltada para processamento de grandes massas de dados armazenados em “ clusters ”), em memória, não SQL e processamento MPP. Finalmente, a terceira função crítica pode ser resumida em duas palavras: Revelar e Agir . Ela consiste no fornecimento de dados aos usuários e aplicativos de forma a que possam ser usados para alterar os resultados em tempo real e exercer influência no processo de tomada de decisões. Em geral a criação de um Data Lake eficaz é um procedimento que exige grande empenho das empresas e consome muito tempo – algo em torno de seis a nove meses. Isto porque, além de organizar e implementar o armazenamento, é preciso ainda encontrar a plataforma correta de lógica analítica, implantá-la, configurá-la e executá-la. Isto inclui a criação do ambiente, captura de dados, estabelecimento dos devidos direitos de acesso e governança dos dados. Em resumo: trata-se de uma tarefa complexa e demorada. saiba mais Windows 10: afinal, um menu Iniciar que preste… Cuidado com o Grêmio Internet: o que temem os especialistas? Pois bem: a grande vantagem do Federation Business Data Lake da EMC é que, nos clientes que já possuem equipamentos e utilizam soluções EMC, pode ser implantado em uma semana. Isto porque a EMC é uma “Federação de Empresas” (daí a origem do nome de seu Data Lake ). As empresas adquiridas pelo grupo funcionam de forma interligada harmonicamente, porém mantendo sua independência tecnológica. São elas a EMC Information Infrastructure, Pivotal e VMWare que, em conjunto, fornecem praticamente tudo o que é necessário para implementar um Data Lake eficiente em um período extremamente curto. A camada de lógica analítica é fornecida pelo Pivotal Big Data Suite e funciona totalmente virtualizada com o software VMWare rodando nos enormes dispositivos de armazenamento VBlock. E assim, sempre com produtos já disponíveis nas empresas que formam a federação ou com outros desenvolvidos especificamente por ela para este fim, o Federation Business Data Lake pode ser estabelecido em pouquíssimo tempo e, ainda assim, funcionar de modo eficaz, integrado e harmônico. Resumindo: o Federation Business Data Lake é uma nova solução concebida pela federação de empresas formada pela EMC Information Infrastructure, Pivotal e VMWare para implementar Data Lakes rapidamente e de forma praticamente automatizada. Ela permite que as empresas implementem em uma semana todos os recursos necessários de Hadoop e lógica analítica em tempo real para gerir o Data Lake . E as empresas da federação estão capacitada a oferecer um conjunto completo de serviços de Data Lake em qualquer estágio do gerenciamento de Big Data. Uma solução que pode implicar em uma notável economia de tempo sem perda de eficácia. Ainda segundo a EMC, o Federation Business Data Lake estará disponível a partir de abril no Brasil e em alguns outros países. Interessado? Então veja na página oficial da EMC ( brazil.emc.com/video-collateral/demos/microsites/mediaplayer-video/emc-data-lake-foundation.htm ) um curto vídeo de menos de cinco minutos (em inglês) com mais informações sobre o Federation Business Data Lake. B. Piropo PS: depois de mais de vinte e cinco anos escrevendo colunas semanais sobre tecnologia para diversos veículos de comunicação, no próximo mês vou me dar ao luxo de tirar férias pela primeira vez. Portanto não estranhem a ausência desta vossa coluna durante o mês de abril. Mas não pretendo deixar vocês em paz por muito tempo: em maio estarei de volta e com a corda toda. Até lá.

Comentários no Facebook