BIG DATA
Introdução
A quantidade de dados que são gerados todos os dias pelas mais diversas ações diárias do ser humano, como por exemplo manifestações de usuários em redes sociais, registros em sites ou até movimentações financeiras, cresce drasticamente diariamente.
A demanda de dados tem crescido exponencialmente com o avanço das tecnologias, e em torno desse aumento acentuado de dados globais, o termo "big data" é usado para se referir a grandes "datasets". Em comparação com "datasets" comuns, big data representa uma grande quantidade de dados desestruturados, onde sua manipulação e análise podem acarretar em novas descobertas de dados escondidos.[1]
Não há uma definição formal para o que é o Big Data, mas falando de uma forma geral o Big Datapode ser explicado como uma coleção de dados muito grande e variados que necessitam de processamento e armazenamento de forma rápida.
Big data
O Big Data tem como objetivos principais trazer uma possibilidade de melhorar a estratégia de análise dentro do Banco de Dados. Com esse grande volume de informações e o acesso de forma rápida e eficiente, é possível garantir que dados qualificados para o seu uso final. Para isso, ele se baseia em 3 principais valores:
Desafios do big data
Em se tratando de volumes comuns de dados, como aqueles manipulados diariamente por softwares de baixo a médio porte, uma abordagem plausível para o gerenciamento de dados se baseia no uso de SGBDs. Esses dados em geral encontram-se estruturados. Em contrapartida, big data oferece desafios nesse sentido. A heterogeneidade e o grande volume torna incompatível o uso de tais tecnologias. Desafios comuns ao se trabalhar com big data incluem:
- Representação de dados: A heterogeneidade em tipo, estrutura, granularidade demandam meios de trabalhar um representação que agregue sentido e valor ao big data.
- Redução de redundância e compressão de dados: Um problema recorrente em grandes datasets é a redundância de dados, que degrada o valor de possíveis análises. Além disso, o custo acarretado pelo armazenamento de grandes volumes de dados pode ser reduzido ao ser usar de estratégias e tecnologias de compreensão de dados eficientes.
- Mecanismos de análise: Como exposto anteriormente, tecnologias como SGBDs são inefetivos para realizar o gerencimento e análise de big data. Soluções como bancos de dados não relacionais apresentam uma grande melhora nesse sentido, porém ainda apresentando problemas de performance.
- Gerenciamento de energia: O tratamento, armazenamento e análise dessa quantidade massiva de dados, gera um grande custo energético. Pesquisas nessa área podem trazer uma diminuição de custo nesse sentido.
- Escalabilidade: As tecnologias adotadas para manipulação de big data devem suportar tanto dados atuais, como possíveis dados maiores e estruturalmente diferentes.
O que fazer com essa grande quantidade de dados
Atualmente o desafio está na dificuldade que as empresas e profissionais possuem em como utilizar essa quantidade de dados de maneira que contribua efetivamente para as decisões de negócio
Mas de que forma é possível aplicar Big Data na prática e transformar dados em ações estratégicas?
Fontes de dados: antes de mais nada é preciso entender qual o universo de Big Data que seu objetivo está inserido, ou seja, quais são as fontes de dados disponíveis: ferramentas para analises de dados, dados de monitoramento, ferramentas de integração de dados, etc.
Integração: se for possível integração entre essas ferramentas fica mais fácil fazer as análises posteriores, visto que os dados estarão integrados e será possivel, por exemplo, mapear o comportamento do sua "entidade alvo" e identificar padrões com mais facilidade. Caso seu objetivo não possua essas integrações a recomendação é que seja gerado insights de cada fonte de dados separadamente para que seja possível cruzar as informações posteriormente.
Tratamento de dados: analisar dados agrupados e não isolados, pois decisões devem ser tomadas através de uma amostragem considerável e não de dados de comportamento de um usuário específico, por exemplo. A partir do momento que os dados estão agrupados por segmentos, sejam estes demográficos, perfil de compra, perfil de navegação, ou outro, fica mais fácil entender e analisar, pois tenderão a seguir um padrão. Em muitos casos é recomendado inclusive que se use mais de um segmento, já que apenas um pode ser insuficiente para identificar padrões de comportamento.
Atividade de Fixação
No intuito de fixar a aprendizagem iniciada por meio deste módulo e verificar como está sua compreensão sobre o mesmo, são sugeridos alguns exercícios de fixação para serem resolvidos. Clique no link de exercícios ao lado, pois será por meio dele iniciada a lista de exercícios sobre os conteúdos estudados até este momento. Boa revisão sobre os mesmos!!