Data Science não é Estatística 2.0

Resumo de uma discussão em grupo de cientistas de dados (iniciantes e seniors), a pauta estava girando em torno da conceitualização do trabalho de cientista de dados, suas vertentes, desafios e profissionalização a partir de um post no Linkedin.

Os nomes dos debatedores não serão divulgados porém os pontos conversados e as conclusões estarão transcritas de modo intacto.

Opinião 1

A grande questão é que não dá pra diminuir a importância tanto do conhecimento computacional quanto do conhecimento estatística pra se fazer ciência de dados. Conheço muita gente que saiu de TI pra trabalhar com “data science” mas que no fundo, só roda algoritmo e não entende uma única vírgula dos conceitos por trás do que tá fazendo. Qualquer modelo de machine learning tem um profundo desenvolvimento matemático e estatístico que permitiu que ele exista. A maior prova que a maioria dos profissionais ignora esses conceitos é a forma que perpetuamos a própria seleção de parâmetros dos modelos na base da tentativa e erro.

Ignorar a importância do domínio estatístico, computacional, da capacidade de comunicação e transformação de dados em insights é construir uma carreira míope em ciência de dados.

Opinião 2

Data science é multidisciplinar.

O profissional de estatística naturalmente vai ver maior importância na sua área, assim como o profissional de negócios vai dizer que o maior desafio é aplicar a técnica para resolver problemas reais de negócio, ao mesmo tempo que o profissional de TI vai dizer que o maior desafio é fazer x coisa pra chegar ao resultado.

Opinião 3

Uma ciência essencialmente com o objetivo de responder perguntas, por isso o Science no nome.

Estatísticos são treinados para conduzir experimentos e ajustar modelos/algoritmos, cientistas da computação são treinados para criar/pensar na melhor estrutura de dados possível que garanta performance nas análises, segurança no acesso, etc e a pessoa do negócio tem uma visão estratégica sobre quais são as perguntas fundamentais que devem ser priorizadas.

Não consigo ver nenhum dos 3 atuando sozinho, querer uma única pessoa que saiba bem tudo é irreal ( ou na melhor das hipóteses muito cara), pra mim existe sim uma carência de rigor sim, isso não inviabiliza o trabalho mas pra mim é evidente que temos muito a caminhar no sentido de criar um ferramental teórico que suporte um monte de regras de bolso que usamos na prática.

Opinião 4

Pelo ponto de vista de muitos empresários não importa se o cientista tem mestrado ou fez cursos pela internet, o resultado sendo positivo ele continua no trabalho se não der resultado é trocado, assim o próprio mercado absorve e faz a melhor seleção dos profissionais.

[sociallocker]

Opinião 5

Sou bacharel em matemática aplicada em federal e tenho mestrado em economia aplicada. Trabalho há 20 anos com data míning e soluções de dados em geral. Comecei a programar com 10 anos, O mestrado (e imagino pequisa/doutorado) hoje vejo, compartilhando com pares e grupos de discussões mais avançados, que trás uma competência essencial para data science: perseverança, determinação de chegar em algum lugar mesmo sem saber se o lugar existe. Resiliência talvez.

Vejo que equipes de Data Science de altaperformance são compostas por pessoas com competências complementares: há espaço para formação mais clássica de estatística (e é necessario), mas também o é uma formação computacional que consiga implementar e escalar soluções. De nada vai adiantar colocar o estatístico e o cientista da computação juntos na mesma sala se eles não souberem conversar sobre Data science: o estatístico tem que sair um pouco da zona de conforto (e não é fazer um curso e sim todos os dias sair da zona) bem como o cientista da computação.

Falar sobre Data Science na vida real e passar 80% do tempo treinando modelos e fazendo previsões , isso é praticamente irreal.

Há muito trabalho de preparação de dados que não deve ser feito só por engenheiro de dados com especificacões nem somente estatísticos. Há certamente um grande gap na modelagem de problemas; aparentemente vejo matemáticos abordando bem problemas com soluções interessantes, talvez pela capacidade de abstração. Físicos tem uma capacidade ímpar, a meu ver, de tratar com estatística baysiana, isto ajuda resolver problemas de certa complexidade.

Montar uma equipe de Data Science que trabalhe bem é um grande desafio, aproveitando o melhor de cada membro.

O componente “Science” sempre me trás um pensamento e vejo na prática como algo valioso; a ciência pede rigor, observação empírica, experimentos, anotar resultados parciais, comparar resultados antes e depois (testes A/B), planejar bons testes que sejam o mais conclusivos possíveis, tudo isto na velocidade do mundo atual, ou seja, não dá pra resolver um problema no tempo de uma dissertação de mestrado ou tese de doutorado.

Dá pra comparar um mestrado ou doutorado com uma porção de livros muito bons e cursos on-line muito bons, de altíssimo nível?

Não dá. São coisas diferentes. (Não vá fazer um mestrado ou doutorado esperando aulas).

Não dá para comparar porque ao fazer os cursos e ler os livros você provavelmente absorverá muito conhecimento. Mas ao escrever uma dissertação ou tese, você estará produzindo material próprio. Escrevendo, melhorando argumentação, colocando a prova de avaliação uma linha de raciocínio.

Está compartilhando conhecimento (vejam o documento da NSF Core Big Data Sciences!) e será avaliando por uma banca, está fazendo uma coisa maravilhosa que é pegar um ou mais fatos científicos e dar uma.nova visão ou aplicação para estes conhecimentos outrora apresentados de outra forma ou com outro propósito.

Inevitavelmente vai ler muito, mas muito mesmo!

Então se você está lendo muitos livros muito bons e fazendo vários cursos on-line muito bons (eu adoro eles, fiz quase uns 40, os do Andrew e outros inumeros), por que não dar um passo adiante e começar a escrever sobre isto que você está estudando buscando um propósito? Um objetivo. Descobrir uma nova aplicação. Tentar demonstrar algo que empíricamente já está aos seus olhos. Certamente este passo adicional trará um complemento ao componente “science” do data science que garanto será útil. E isto pode ser um artigo (científico).

Muitos comentam que a pesquisa é a única forma de aprender de fato sobre um tema. São horas, dias, noites, finais de semana…

Não há resultado em ciência sem (extrema) dedicação. Quem faz a pesquisa não é um professor nem daqui do BR, nem de qualquer outro canto do mundo; é o aluno, que se torna, durante o processo, um pesquisador, nem todos em uma equipe de Data Science precisam do componente “Science” agudo, bem desenvolvido.

Opinião 6

Concordo no peso de se estudar no MIT ou Stanford.

O problema é: estamos no Brasil, faculdades públicas daqui não estão tão preocupadas em aumentar seu nível de satisfação nas aulas, meu professor de estatística da Unb era argentino, falava um portunhol ilegível e faltava uma de cada 4 aulas.

Odiava estatística, fiz a especialização de datascience do coursera da John Hopkins com excelentes professores e alto nível de ensino, passei a gostar muito da área, depois embarquei em tentar aprender deep learning, também no coursera, com o Andrew NG(referência em IA).

Absurdo a diferença de didática e conteúdo. Não troco o que aprendi no Coursera com o que to vendo nas aulas de mestrado.

A persistência é fundamental, só acredito que pegar bons materiais como esses e aplicar o conhecimento para ganhar experiência é um caminho mais pragmático.

Opinião 7

Acho que uma conclusão dessa discussão é a certeza de que você tem que ir a fundo no assunto, aprofundar nas bases do conhecimento, sem dúvidas vai ser um diferencial na carreira e no desempenho, isso um mestrado/doutorado te ensina muito bem.

Você aprende a descobrir e a formular novas soluções baseado num critério sólido. Não da para se conformar em juntar caixinhas que supostamente resolvem o problema, sempre dentro das caixinhas tem o cara que sabe da ciência por trás e é quem define o caminho dessa disciplina. Se a gente não vai a fundo, sempre será um seguidor, nunca vai poder propor nada novo.

Eu fiz doutorado, porém em outra área de conhecimento e estou entrando aos poucos nesse mundo do DS, mas uma coisa que observo é a rapidez que se desenvolvem as técnicas e algoritmos nos coloca numa carreira contra o tempo porque o mercado quer a solução mais rápida sempre, nem necessariamente ser a melhor.

Por isso google e outras grandes empresas estão construindo sistemas cada dia mais para juntar caixinhas.

Opinião 8

É compreensível e aceitável que existam “script kiddie” em DS / ML pois é parte do aprendizado no assunto.

Isto acelera a disseminação mas não amplia o conhecimento, o mercado tem pressa em incorporar isto em seus produtos e o preço a pagar com esta velocidade é contratar pessoas que não sabem o que está por trás dos modelos.

Ainda assim é parte do aprendizado de ambos, contratante e contratado, isto vai ficar claro quando a solução começar a apresentar problemas de escala e de produção, temos mesmo que buscar o enquadramento do agile em DS mas sempre ciente que a verdadeira evolução vai ocorrer muito mais nos algoritmos de suporte do que na pura aplicação dos mesmos.

Opinião 9

Existe uma avalanche de pessoas entrando no mundo do DS por muitas causas, o mercado esta com muita vaga, muito bem remunerada, e o fato de ter muita ferramenta e cursos prontos e livres na internet passa a impressão errada de que é fácil e rápido o aprendizado. Tanto para o recrutador como para o recrutado, se a tendencia continuar pode ter um efeito contario, porque se as pessoas que ocupam as vagas realmente não chegam a dominar bem o conhecimento as empresas vão se decepcionar do DS (ou do contratado) e vão achar que essa tecnologia promete muito mas não entrega, é certo que aprender fazendo é quase sempre a melhor forma, porém você deve ter a bases para assimilar bem o que você aprende e não andar a cegas nem reinventar a roda.

Opinião 10

Já vi amigos com doutorado que não sabiam montar uma boa sql, eles são muito bons para sua área de pesquisa e especialidade, mas pra mim a área é multifacetada, talvez uma empresa mais parruda precise de um perfil mais especialista, já a maioria deve correr atrás de generalistas que saibam o que é uma sprint, consigam identificar um outlier em um dataset mas não necessariamente saiba todo background teórico de porque um gradiente descendente converge.

Acho que o “Full Stack Data Scientist Unicórnio“ não existe.

Às vezes vão precisar de um cara de desempenho que saiba spark, em outro caso um matemático ou físico para criar um modelo mais específico, mas pode bastar um cara que saiba ligar caixinhas de formas bem feita para modelos simples como predição de churn.

Os artigos na minha área de estudo do mestrado, NLP, todos usam datasets padrões da academia, justamente para ser ter uma boa base de comparação, mas na realidade e no mercado vão aparecer cada trolha de dataset que estão em um lado oposto do que é praticado na academia.

Opinião 11

Hoje em dia, o conhecimento está em todo lugar! Antes existiam “limitações físicas” do conhecimento, livros de autores renomados, centros acadêmicos renomados, os quais possuíam grande parte(ou quase todo) do conhecimento de qualidade.

Temos conhecimento de qualidade em podcasts, blogs, sites, YouTube e nas mais diversas fontes que vocês possam imaginar, bastando você se organizar e selecionar os conteúdos a serem assistidos, ser autodidata antigamente era um diferencial, hoje em dia é quase um pré requisito de melhoria contínua.

Não acredito que graduação, mestrado e doutorado, sejam condições suficientes e necessárias para atuar em data Science, aprendemos com qualidade de diversas fontes e a prática ganhamos no mercado, ou por si só mesmo, prestando consultorias, desenvolvendo projetos pessoais, participando de competições.

Na minha opinião, o mestrado e doutorado serve para você aprender com profissionais especializados naqueles assuntos e com indicações dos melhores materiais para se aprofundar naquele tema desejado, mas isso não exclui a nossa capacidade de aprendizagem por conta própria, conheço pessoas que nem sequer tem graduação e são exímios profissionais, assim como conheço exímios profissionais possuidores de graduação (e/ou) mestrado (e/ou) doutorado.

Conclusão

Como esta área é muito nova ainda todas as idéias são bem vindas e todo tipo de formação é valido, a vontade de acertar e ter uma posição digna é o que vai elevar a profissionalização de nossos cientistas de dados e esse movimento acaba melhorando nossas empresas, governo e cidadania.

[/sociallocker]

2 Comments

Deixe um comentário

O seu endereço de e-mail não será publicado.