De onde vem a Ciência de Dados


Um dos termos mais falados atualmente, Ciência de Dados, é relacionado a uma séria de tarefas, desenvolvimentos, serviços, produtos e profissionais, uma vez que é tão abrangente quanto se pode esperar de uma ciência, como de fato é. Não há atualmente definição mais apropriada para o que essa disciplina do conhecimento é, tendo em vista que reúne diversos tipos diferentes de matérias de áreas distintas e que para os que não as conhecem, podem parecer completamente distantes.


Mas a Ciência de Dados na verdade não é tão atual como parece, tendo sido atribuída uma das primeiras aparições do nome ao William S. Cleveland, que em 2001 escreveu o livro Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics.

Ora, vemos então que há pelo menos 20 anos já temos discutido sobre esse tema, então por que nos últimos anos este ganhou tanto apelo e importância?


duvidas-sobre-ciencia-de-dados

Dúvidas sobre Ciência de dados


Dados e mais dados


Há na verdade mais de uma explicação possível para esse fenômeno do Data Science na opinião deste site, sim esse site tem opinião própria e talvez seja um algoritmo a escrever esse texto.


Segundo a Gartner, em até 2020 teríamos 40 trilhões de gigabytes de dados gerados no mundo, e esse crescimento tem ocorrido de forma exponencial. Como o termo «exponencial» costuma aparecer diversas vezes, mas pode ser um pouco obscuro de entender, o gráfico abaixo ilustra o que é o crescimento desta maneira.


cres_exp

O que é crescimento exponencial?


Então podemos observar que a quantidade de dados realmente avança a passos largos, inclusive enquanto lê esse texto.


Sabendo disso, alguns bons anos atrás os pioneiros da Ciência de Dados começaram a desenvolver novas técnicas para trabalhar, organizar, tratar, armazenar e principalmente gerar valor dessa enorme quantidade de dados.


É verdade que a maioria das técnicas utilizadas já existia há muito tempo, principalmente quando pensamos na parte matemática e estatística, mas foi necessário realizar diversas adaptações e melhorias em algoritmos, hardwares e softwares para que fosse possível trabalhar com um volume muito maior de dados e que ainda estavam a crescer.


Então uma boa explicação para a popularização do tema é que temos muitos dados e precisamos desenvolver técnicas e métodos para trabalhar com tudo iso. Mas talvez outros motivos nos levem a entender melhor o contexto por trás tanto do fenômeno, quanto da sua fama atual.

Competitividade


Talvez outra abordagem para esse fenômeno seja a necessidade de as empresas se adaptarem as novas concorrências e grande volatilidade do mercado, seja ele qual for.


Atualmente com a popularização da internet e tecnologia de modo geral, surgem diversas ideias novas todos os dias e algumas empresas também, então é necessário que seja possível tirar proveito de cada nova possibilidade de estar a frente do concorrente. Com isso e a grande quantidade de dados que temos disponíveis a nossa porta, temos então um vasto terreno a explorar em busca de novas oportunidades de negócio.


Temos alguns bons exemplos de como a concorrência está a aumentar rapidamente no mundo. A Blockbuster por exemplo era se não a maior, uma das maiores redes de locadoras de vídeos do mundo, seja em fita ou DVD. Sua posição era tão forte no mercado que seus executivos acreditavam que não poderiam ser ameaçados, mas o surgimento do streaming fez isso mudar rapidamente, e tão rápido quanto a Blockbuster foi se afastando da liderança hoje surgem mais serviços de vídeo on-demand.


E algo que os serviços de streaming já fazem há algum tempo e muito bem, é trabalhar com dados para não só atrair mais clientes, mas também para agradar os que já estão sob seus cuidados. Os novos filmes e séries oferecidos para você por exemplo são selecionados com um algoritmo de recomendação. Mais uma vez: os dados a elevar o nível da concorrência.



competitividade-em-ciencia-de-dados

Grande competitividade pede medidas inteligentes



Poder computacional


Quando falamos de algoritmos de machine learning, redes neurais e outros tipos de tecnologias voltadas para dados, muitas vezes imaginamos algo tão recente como um pão recém-saído do forno, mas não é bem assim.


Muitos dos algoritmos que hoje utilizamos são antigos, para que tenhas uma ideia na década de 50 a IBM já trabalhava em redes neurais em seus laboratórios no Projeto Dartmouth.


Contudo o poder computacional da época inviabilizava o uso das técnicas recém idealizadas em larga escala, então estas ficaram «aguardando» até que fosse possível utilizar de todas as suas possibilidades quando as máquinas evoluíssem.


Então o que estamos agora a conseguir realizar com todos os nossos dados já estava em processo de criação e a amadurecer há algumas décadas, sendo possível apenas talvez nas últimas 2 se fazer o proveito de todo esse conhecimento e tecnologia para alancar uma nova revolução.


Hoje é possível com um notebook de boa configuração, carregar uma quantidade considerável de dados, os tratar, prepará-los para um algoritmo e o rodar sem muito sofrer, levando em conta é claro que talvez se demore um pouco no processo todo. Mas ter todo esse poder em mãos literalmente é algo realmente fantástico se olharmos para todo o tempo que a humanidade já passou a preparar esse futuro em que vivemos agora.



poder-computaciona-ciencia-de-dados

Com maior poder computacional a Ciência de Dados ganha vida



E então?


Com certeza é possível listar mais alguns motivos para o «BOOM» da Ciência de Dados que temos hoje, mas podemos afirmar que o seu surgimento não é tão recente e também que talvez o que melhor explique o seu surgimento seja a necessidade que temos sempre de inovar, crescer e superar desafios.


Temos então hoje equipes de Engenheiros de Dados, Cientistas de Dados, Arquitetos, Analistas, Especialistas de Machine Learning e outros a trabalhar para superar esses limites que temos hoje, e empresas cada vez mais entendendo e aprendendo como tirar proveito desse mundo novo «nem tanto».