O que é big data? Conceitos, Definição, Exemplos.
Sabe aquelas recomendações de filmes e séries que serviços de streaming como a Netflix ou a Amazon apresentam quando você termina de assistir algo? Já pensou em como este processo é realizado? Como a Netflix ?advinha? seu gosto? Bem, entender o que é Big Data será importante para que você compreenda esse processo de recomendação de filmes e séries.
Mas o que é BIG DATA?
Big data é um volume gigante (mas gigante mesmo) de dados que vão sendo coletados sistematicamente de várias fontes e que podem ser usados - a depender de seu objetivo - para tomadas de decisões de negócios, para escolhas estratégicas ou para sugestão de ação para um determinado usuário. É desta forma que o serviço de streaming consegue entender o seu gosto por determinados filmes, séries, músicas, ou qualquer outra coisa.
Big Data vem sendo continuamente utilizada por empresas para entender seus consumidores, seus usuários, e a compreensão se dá através da utilização de um número gigantesco de dados, que organizam de diversas formas milhões de informações fornecidas a todo instante por todos nós quando entramos em sites, realizamos compras virtuais, lemos um artigo na internet (como este por exemplo). Qualquer ação que você realize e esteja sendo monitorada, se transforma em dados analíticos.
Quais dados são esses que o BIG DATA coleta?
Vamos entender o processo de uma forma mais simples: ao entrar em um site de turismo, o usuário digita Salvador, buscando informações sobre a capital baiana, e sobre pacotes de turismo para esta cidade. Neste instante, todo o sistema de dados já capta mais esta informação, e agrupa com todo o volume já existente para direcionar aquele usuário para algo que ele demonstrou interesse.
Assim, pouco tempo depois você começa a observar em outros sites visitados que tem uma publicidade da prefeitura de Salvador incentivando o turismo na cidade, ou o banner de uma empresa de aviação ofertando vôos diretos para lá, ou propaganda de hotéis, ou serviços de hospedagens, indicando pacotes especiais cinco estrelas. Enfim, você passa a receber informações direcionadas com base em uma visita feita em um site de turismo.
Tudo que você faz ou não faz na internet acaba sendo armazenado de uma forma ou de outra, sendo coletados dados e costumes de consumo de todos que seguem um perfil parecido com o seu, criando assim um padrão. Esse processo é o fio condutor para se entender a função do BIG DATA.
Os tipos de dados
Agora que você entendeu um pouco mais sobre o que é BIG DATA, vamos aprender como ele pode ser dividido. Existem 3 formas que separam essas informações, são eles: estruturados, semiestruturados e não estruturados.
ESTRUTURADOS: são armazenados em bancos de dados tradicionais, organizados em tabelas. Eles possuem um padrão pré definido e uma estrutura rígida, que é pensada antes da existência do próprio dado. Podemos usar como exemplos as Planilhas eletrônicas (Excel),bancos de dados, arquivos XML e arquivos CSV.
SEMIESTRUTURADOS: eles podem seguir diversos padrões, de forma heterogênea. Acaba sendo uma mistura, um meio termo, dos dados estruturados e dos dados não estruturados, que ainda veremos. Em banco de dados semiestruturado, eles não são guardados em tabelas e sim em outras formas, como o XML por exemplo.
NÃO ESTRUTURADOS: é uma mescla de dados originários de diversas fontes, como vídeo, texto, imagem, XML, dentre outras. Eles não possuem uma estrutura definida e não podem ser, por exemplo, organizados em tabelas. Há de destacar que a grande maioria dos dados que são gerados é deste tipo. Analisar este tipo de dado requer muito mais trabalho, pois eles são de difícil processamento, já que não contam com componentes para identificá-los.
Os três Vs do Big Data: suas características
Inicialmente podemos caracterizar Big Data por três aspectos dos dados, o chamado os cincos Vs (volume, variedade, velocidade,veracidade e valor). Não são somente estes três, mas vamos começar com eles.
Volume: volume se refere, claro, à quantidade gigante de dados envolvidos. Esses números já ultrapassaram 35 ZB de dados no mundo, e para quem não sabe, 1 ZB equivale a 1 bilhão de terabytes.
Variedade: Os dados de que dispomos atualmente são provenientes das mais diversas fontes, tais como:
- Páginas WEB
- Índices de pesquisa
- Arquivos de log
- Fóruns
- Mídias sociais
- E-mails
- Dados de sensores variados
- Aplicativos
- Cookies
- IoT
- Áudio e vídeo
Como os sistemas tradicionais não conseguem armazenar, processar e entender esse número gigante de dados, deve-se usar assim novas tecnologias, algoritmos e técnicas para realizar a análise de tais dados, tanto os estruturados, quanto os não estruturados, em conjunto.
Velocidade: sim, os dados são gerados em grande velocidade, isso já deve ser imaginado e podemos definir essas velocidades de acordo com o quão rápidos esses dados são resgatados. Falamos assim em taxa de fluxo quando nos referimos à sua velocidade.
O fluxo de dados pode se tornar tão elevado que os sistemas mais tradicionais de análise não conseguem manipulá-los.
Veracidade - Se refere a confiabilidade dos dados, que para serem confiáveis devem ter algumas características, tais como qualidade e consistência, origem conhecida, serem verdadeiros, e não fabricados ou originários de opiniões.
Valor - nesse caso, temos a questão: estes dados agregam valor à empresa? Mas voltando, valor é uma aplicação do Big Data que permite aumentar receita, identificar novas oportunidades, diminuir custos, melhorar a qualidade de um produto, enfim, sua função é melhorar os resultados.
Big Data e as suas questões político sociais
É importante entendermos que o conceito de Big Data não envolve política ou ideologia, mas seu uso pode ser feito para tal.
Em 2016 uma empresa britânica de marketing político usou um teste de personalidade no Facebook para coletar dados dos usuários e a partir daí direcionou propaganda específica para os eleitores que estavam indecisos. Estamos falando de 2016, nos Estados Unidos, no ano das eleições para presidente.
Tal como o exemplo que usamos do usuário que pesquisou a palavra Salvador no site de turismo, os usuários envolvidos no teste de personalidade passaram a receber conteúdos sobre Donald Trump, então candidato à presidência dos Estados Unidos, e conteúdos bem específicos para o comportamento que cada pessoa indicou no teste. Os grupos formados eram de pessoas: mente aberta, conscientes, extrovertidos, amáveis e neuróticos.
Bem, Donald Trump foi eleito, e é consenso que muito se deve a este direcionamento de mensagens feitas a partir do uso de Big Data.
Tecnologias envolvidas em Big Data
- Sistemas de arquivos distribuídos
- Processamento paralelo massivo
- Computação em nuvem
- Grids de mineração de dados
- Redes de alta velocidade
- Sistemas de armazenamento escaláveis
- Algoritmos específicos
- Técnicas de Inteligência artificial
Quais as aplicações que envolvem Big Data?
São inúmeras as aplicações, e das mais diversas áreas. Vamos ver alguns exemplos:
- Recomendação de filmes e séries por parte de serviços de streaming, como já falamos no início do artigo.
- Monitoramento de redes sociais, como Facebook, Instagram e Twitter.
- Análise de dados financeiros, para evitar fraudes.
- Publicidade e propaganda direcionadas, como nós vimos no exemplo do usuário que pesquisou por Salvador no site de turismo.
- Informações sobre o tempo.
- Informações sobre tráfego e trânsito.
- Análises de dados médicos.
- Uso de telefones celulares.
- Web Analytics (E-commerce).
- Muitas outras aplicações.
CONCLUSÃO
Saber o que é Big Data, conhecer seus conceitos e exemplo de aplicação é fundamental não apenas como profissionais da área que precisam tomar decisão baseado em dados, mas para pessoas comuns que fazem uso de programas e aplicativos e disponibilizam suas informações sem saber para qual finalidade elas serão utilizadas.
Como vimos neste guia, Big Data é reflexo de um novo mundo que vem se apresentando nas últimas décadas. Com cada vez mais dados na internet, há a necessidade de se armazenar, agrupar e entender tais dados, para aperfeiçoar nossas vidas, melhorar a capacidade comercial de empresas, facilitar a busca de informações e milhares de outras funcionalidades.
Suas aplicações são muito diversas, e vão desde jogos de videogames, até reconhecimento de fala e escrita. É um mundo gigante, mas em constante expansão. Até onde chegaremos ? Só o tempo irá dizer!