Dados e o futuro - Cientista de dados, e depois?


image



Se esse título te chamou atenção é muito provável que você trabalhe com dados, já tenha trabalhado ou ao menos reconheça o grande valor que eles tem e sempre tiveram na sociedade, vamos tomar como exemplo o surgimento da ‘Estatística’, termo esse denominado por: “O termo estatística deriva do neolatim statisticum collegium (“conselho de Estado”) e do Italiano statista (“estadista” ou “político”). O termo alemão Statistik, introduzido pela primeira vez por Gottfried Achenwall (1749), designava originalmente a análise de dados sobre o Estado, significando a “ciência do Estado”” (Fonte: Wikipédia, nossa amiga do dia a dia que as vezes nos engana). Vemos aqui que a análise de dados já está presente em nosso dia a dia há algumas centenas de anos, não podendo ser ignorada com mais veemência nos últimos 30 ou 40, com surgimento de máquinas com poder de processamento para nos auxiliar nessa árdua tarefa e também com a expansão da globalização, que levou a concorrência em todos os ramos geradores de valor a outro nível, sendo necessário cada vez mais ser possível extrair vantagem competitiva de cada pequena porta aberta.


É fato que nas duas últimas décadas, com o lançamento de smartphones acessíveis e expansão avassaladora da internet, o volume de dados gerados pela humanidade alcançou patamares que estão tornando sua análise, muitas vezes, um grande gargalo nas empresas. Imagine um pequeno e-commerce que fatura alguns milhares de reais e que tem à sua disposição dados de acessos, clientes, compras, abandono de carrinho, pesquisas por região referente a todos os seus produtos, financeiro, fornecedores e vários outros que poderiam ser elencados aqui. Somente com a menção desses, um cientista de dados experiente começa a elencar diversas técnicas que poderiam ser utilizadas para auxiliar essa pequena empresa em tomadas de decisão, que possivelmente levariam a bons resultados tanto financeiros quanto para o negócio, pensando também no pós venda por exemplo.


Podemos ver que com algum trabalho essa empresa poderia ter um bom ganho de performance em algumas frentes diferentes, contudo, para esse trabalho é necessário um profissional com a combinação de alguns conhecimentos que por si só já são complexos o bastante para tornar a tarefa custosa demais para um pequeno negócio. Pode ser que seja necessário ter conhecimentos em:


· Estatística;

· Computação;

· Programação;

· Dados (banco de dados por exemplo, pensando é obvio, que para um pequeno trabalho o Excel pode ser o suficiente);

· Internet;

· E principalmente, conhecimento sobre o negócio.





Esse profissional, com conhecimentos tão diversos e ao mesmo tempo obviamente tão relacionados, é o Cientista de Dados, o tal que virou unicórnio e agora é tão necessário as empresas quanto um programador era na década de 80/90, e ainda é! Vivemos hoje o momento de ascensão desse profissional como poucas vezes vimos de outros, e todo esse frenesi casa perfeitamente com o volume de dados cada vez maior que eu e você geramos todos os dias usando nossos Smartphones, computadores, Smartwatches, Smart TVs e alguns outros que reforçam esse time de geradores de dados incansáveis.


Atualmente, há uma guerra silenciosa das empresas por cientistas de dados, mas não somente por eles, também pelos Engenheiros, Arquitetos e Especialistas em Machine Learning. E sim, os nomes dos cargos nos sugerem que estamos construindo algo, engenheiros e arquitetos por exemplo, e estamos mesmo. Sistemas de dados são muitas vezes tão complexos que podem demorar mais que a construção de um prédio, e muitas vezes se mal feito, podem causar um problema tão grande quanto uma construção mal realizada ou planejada.


Essa batalha por profissionais tem um motivo claro: dados. Hoje é impensável em grandes empresas tomar uma decisão sem “analisar os dados”, todos os diretores, gerentes e outros que decidem olham gráficos, planilhas ou dashboads inteiras antes de dizer sim ou não para qualquer ideia que seja que poderá trazer risco ou benefício a empresa que formam.


Imagine você pensando em comprar um carro, não olharia antes sua conta bancária, informações de consumo e até mesmo valor do seguro?

Colocando isso em larga (e extremamente larga) escala, temos dados tão diversos nos negócios que muitas vezes e na maioria delas, são necessários profissionais especializados em como gerar valor de dezenas ou centenas de tabelas, que as vezes chegam a terabytes, para possibilitar um “Sim” ou “Não”.


Tamanha demanda e volume trazem a mesa não apenas a necessidade de profissionais de dados, mas também de ferramentas para auxiliar na engenharia, modelagem e visualização do objeto de estudo. Essas ferramentas tem amadurecido e evoluído de forma rápida e eficiente nos últimos anos, algumas delas inclusive são tão antigas que deixariam muitos surpresos ao descobrir que, há algumas décadas existe um software que permite a criação e execução de uma regressão linear com apenas alguns cliques e que já era capaz de lidar com um volume relativamente grande de dados em suas primeiras versões. Aqui os colegas de área já têm um nome em mente.


Claro que esse ancião de Ciência de dados não é o único, nos últimos anos surgiram tantas ferramentas quanto se pode contar em uma mão, cada uma com suas qualidades e defeitos, mas todas elas pensadas para resolver um problema apenas: como gerar valor com os dados que minha empresa gera? 


Elas são muitas e muito diferentes em aparência, mas tem em seu core muitas semelhanças, como por exemplo utilizar técnicas de força bruta para gerar modelos de Machine Learning que atendam a expectativa do usuário, e também, realizar o tratamento dos dados para que a execução do modelo seja possível. Em algumas delas não é necessário entender muito sobre as técnicas (regressão logística ou árvore de decisão por exemplo), apenas é preciso carregar seus dados, mostrar qual seu objetivo (para os mais chegados a variável resposta) e rodar o programa, assim, dentro de alguns minutos você terá um modelo treinado que poderá ser executado e talvez lhe trazer algum ganho, seja ele de dinheiro ou performance de qualquer tipo.


Sou Cientista de Dados ou quero ser, e agora?


Tantas ferramentas e tamanha facilidade para utilizá-las trás algumas perguntas e até preocupações inclusive para os mais experientes da área, algumas delas são pontos de frequentes discussões em congressos e fóruns que acompanho, e uma delas motiva esse artigo e seu título: e o futuro da ciência de dados?


Penso que com a evolução de algoritmos e também com o aumento exponencial do poder de processamento (tomemos a lei de Moore como exemplo), cada vez mais esses sistemas inteligentes poderão ser utilizados por quase leigos no assunto para gerar modelos rapidamente e atender demandas cada vezes mais rapidamente. Contudo, é necessário fazer algumas reflexões importantes:

 

· Eu preciso de um modelo?

· Qual risco se corre em utilizar um modelo de dados sem entender de fato o seu funcionamento?

· Quão resiliente é meu negócio?

· Quanto eu posso errar sem prejudicar a empresa?

· Qual seria o custo desse eventual erro versus o custo de um cientista de dados?

· Eu consigo realmente extrair valor dessa ferramenta?


Todas essas perguntas podem ter suas respostas simplificadas com a ajuda de um cientista de dados, que poderá, com algum tempo para o estudo sobre o caso em questão e análise dos dados disponíveis, auxiliar no entendimento e tomada de decisão de forma mais direcionada ao objetivo buscado.

E pasmem, muitas vezes inclusive a resposta da última é NÃO, um simples encadeamento de regras IF/ELSE resolve o problema de forma exemplar na maioria dos casos dos problemas mais simples.


Desta forma, penso que o papel do cientista/analista de dados ainda será necessário e explorado por muitos e muitos anos, assim como as ferramentas de Auto ML e modelagem. O ponto é que, cada vez mais será necessário por parte dos negócios entender o papel e a necessidade desses profissionais e que estes precisarão incansavelmente se adaptar e aprender a utilizar ferramentas que facilitem seu trabalho, o tornem mais produtivo e mais escalável, seja em pequenas ou grandes empresas.


Cada vez mais, nós, os cientistas de dados, precisaremos focar em responder perguntas, entender diversos problemas de negócios e aplicar soluções rápidas e eficazes. Fazendo tudo isso é claro, com o conhecimento que já nos é costumeiro das técnicas e todo aparato empírico e acadêmico que tantos anos de estudo e prática nos trouxe.


Deixo ainda uma pergunta provocativa afim de estimular o debate da principal questão levantada aqui:


Seremos tão necessários nos próximos 20 ou 30 anos? E o que deveremos aprender para que isso se torne realidade a cada um?