O que é Ciência de Dados



Bem, como já vimos no nosso artigo sobre De onde vem a Ciência de Dados, atualmente o volume de dados disponíveis é enorme, existe uma grande competitividade em todos os setores do mercado e o poder computacional para sintetizar tudo isso para obter melhores oportunidades e negócios é real e disponível, temos então o por que o termo Data Science se popularizar tanto nos últimos anos.


Então podemos agora partir para o melhor entendimento sobre o que de fato é Ciência de Dados, discutir sobre algumas características e também analisar alguns itens que tem gerado alguma confusão no mercado atualmente.


Essa disciplina do conhecimento, inclui em si alguns temas um pouco diversos como:


- Bancos de dados, sejam eles relacionais ou não.

- Big Data.

- Matemática, Estatística e Probabilidade.

- Programação.

- Negócios.

- Machine Learning / IA.

- Storytelling.


Cada um desses itens acima mencionado merece especial atenção, pois é muito provável que retirando um ou alguns deles deixe de existir «Ciência» nos dados, vamos então começar pelo core ou coração disto.


Bancos de dados e Big Data


Pode haver grande discussão sobre como classificar o que é de fato um banco de dados ou se isso é Big Data ou não, contudo não há como negar que sem dados, essa área do conhecimento de nada serve, estejam eles em um simples Excel ou num sistema de dados distribuído como o HDFS (falaremos do HDFS e Hadoop em outro artigo).


Para fazer uma análise de dados é necessário ter os dados, sei que parece absurdo dizer isso mas, o faço para aprofundar a discussão sobre a necessidade de a Ciência de Dados ter como disciplina Bancos de dados.


É necessário enfim, que um bom Cientista de Dados tenha algum conhecimento sobre como obter os dados de diferentes plataformas como SQL Server, Oracle, HDFS e talvez algumas outras.


Ótimo! Temos os dados, e agora?


Matemática, Estatística e Probabilidade



Bem, com dados em mãos agora é hora de descobrir o que estes amigos podem nos contar, que segredos tem e qual valor podem nos entregar.

Talvez algumas (penso que a maioria) das descobertas mais importantes da humanidade tenham passado por um desses três temas, pois estudos dos mais variados, desde os da área da saúde até os de astronomia necessitam utilizar ao menos a matemática para de fato funcionar, imagine calcular por exemplo a renda média de um país para determinada faixa etária sem ela.


A estatística então, complementa a matemática de maneira formidável, nos auxiliando a descrever o que vemos nos dados, entender melhor o que vemos e ainda nos dando noções de como esses dados estão distribuídos, dispersados e acima de tudo nos dando o poder de inferir algumas coisas particularmente interessantes como por exemplo que: muito provavelmente você que está lendo, se for homem deve ter entre 165cm e 185cm de altura e se for mulher tem entre 145cm e 175cm.


A probabilidade por sua vez, nos auxilia de forma a entender melhor o mundo a nossa volta quando queremos saber mais sobre eventos, então é possível afirma que a probabilidade de termos acertado sua altura conforme o parágrafo acima é de 90%! A probabilidade é muito utilizada em algoritmos, então para a Ciência de Dados é fundamental.


Agora temos os dados e um meio para os analisar e entender melhor, mas como fazer isso com milhares ou milhões de registos?


Programação



Desde que notamos que é possível tirar grande proveito dos dados, nos os humanos, temos criado ferramentas para faze-lo, então existem no disponíveis no mercado algumas linguagens de programação para se analisar dados, fazer experimentos, criar algoritmos complexos e visualizar suas descobertas.


Imagine gerar estatísticas e fazer um estudo detalhado de 2 milhões de registos manualmente, ou no Excel talvez, é inviável e mesmo que viável fosse, talvez seria uma tarefa lenta e desagradável pois a cada novo comando teria de se esperar talvez horas para que fosse finalizado, desta forma temos então para solucionar esse problema, a programação!


Existem hoje duas linguagens particularmente avançadas em trabalhar com dados: Python e R. Cada uma delas leva vantagem em algum item específico sobre a outra, mas no final quem leva maior vantagem com as duas somos nós, que precisamos fazer grandes análises e por vezes criar algoritmos complexos.


De fato há outras linguagens como por exemplo Scala, Java e C# que podem sim fazer o que se é preciso quando da análise de dados, mas no momento as mais avançadas são as mencionadas R e Python.


Excelente, temos agora os dados, um meio para os analisar e entender melhor e também uma ou mais ferramentas poderosas para fazer isso realmente funcionar, mas onde aplicar isso?


Negócios


Temos agora muito poder em nossas mãos, mas sem ter onde aplicar e sem o conhecimento de como ou por que o faze,r esse poder todo acaba por ser uma Ferrari no trânsito, não tem lá muita utilidade.


Sabemos que grandes empresas aplicam diariamente tudo que mencionamos acima para fazer melhor o seu trabalho, gerar mais receita e também agregar mais valor aos seus produtos, e tudo isso só é possível se a parceria entre as áreas de negócio e Ciência de Dados for realmente muito forte, pois se um dos lados deixar de passar a informação correta para o outro, talvez estejamos próximos de ver um desastre financeiro ou dependendo da área de atuação da empresa, algo muito pior.


Não é necessário que um Cientista de Dados conheça tudo sobre o negócio e nem que a área de negócios conheça de Ciência de dados, mas um bom compartilhamento de informações é funtamental.


Agora que já temos onde aplicar nosso poder de análise elevado, como comunicar isso a quem toma decisões?




Storytelling


Agora é a vez de uma palavra forte e que talvez está tão na moda quanto a outra que dá nome a esse site.

Storytelling é a habilidade ou o método de comunicar informações importantes e descobertas importantes de maneiras simples e eficaz, com isso quero dizer que é mostrar o valor do uso de todas as ferramentas, tecnologias e técnicas que falamos até agora.


Para os que sabem bem do assunto, o resultado de um algoritmo de Machine Learning com 80% de uma métrica qualquer ou um belo gráfico da curva ROC pode ser excelente, mas o que isso realmente quer dizer para quem toma decisões? Uma maneira mais simples de explicar talvez seja apenas dizer que com esse algoritmo pode-se reduzir em X% as perdas com fraudes no mês em um e-commerce por exemplo.


É necessário saber contar a história com o final feliz para quem a escuta, é preciso saber cativar a atenção, explicar o porque a análise foi feita, como foi feita e qual o resultado de maneira que todos os presentes na sala irão entender.


Essa talvez seja a habilidade mais importante a Ciência de Dados.



De volta a Ciência de Dados


Agora que falamos sobre as áreas de conhecimento que envolvem essa ciência, podemos concluir que é algo complexo, que requer habilidades aprofundadas de diversos temas e que também pode ser explicada de maneira que leigos entendam seu valor, podemos concluir que de fato a Ciência de dados veio para ficar e trará com certeza inúmeros benefícios para negócios onde houver disposição e paciência para a utilizar.