Data Science é um guarda chuva tecnológico e de conhecimentos sobre como tirar proveito dos dados e ter uma vantagem competitiva em várias áreas do saber humano, está revolucionando a maneira como obtemos informações e está se tornando a grande diferença mercadológica do século XXI. Vamos entender mais sobre isso a seguir.
Neste artigo você vai ter informações sobre:
- A Quantidade de dados no mundo está aumentando exponencialmente,
- Conceito geral de Data Science,
- Mercado de trabalho para o cientista de dados,
- Como se tornar um cientista de dados,
- Qual é o conteúdo que você deve aprender,
- Resumo do livro “Data Science do zero”
- Estatística X Data Science
Fique por dentro + Artigos sobre Data Science
- Data Science não é Estatística 2.0
- Bolha no mercado de Data Science
- Python e a Ciência de Dados
- Quem pode ser um Cientista de Dados?
Um estudo estarrecedor publicado em 2013 mostrou que 90% de todos os dados do mundo foram criados nos dois anos anteriores.
Apenas reflita sobre isso por um momento.
Isso quer dizer que, em apenas dois anos, coletamos e processamos 9 vezes a quantidade de informações que os 92.000 anos anteriores da humanidade juntos.
E não estamos diminuindo a velocidade.
Mas, o que realmente fazemos com todos esses dados? Como podemos torná-los úteis para nós?
Quais são as aplicações do mundo real? Essas perguntas são do domínio do Data Science, ou Ciência de Dados.
O que é Data Science?
Data Science, em seus termos mais básicos, pode ser definida como ganho de informações e inspirações, além de tudo que possa ter valor, sempre a partir dos dados.
Como qualquer campo novo, muitas vezes é tentador, mas contraproducente, tentar colocar limites concretos em sua definição.
Na realidade, a Data Science está evoluindo tão rápido e já mostrou uma gama tão grande de possibilidades que uma definição mais ampla é essencial para entendê-la.
Podemos dizer que esta capacidade – de coletar dados, entendê-los, processá-los, e deles extrair o valor possível, além de visualizarmos e os comunicarmos de forma eficiente será uma habilidade fundamental, não apenas no futuro e nos anos vindouros, mas hoje mesmo.
Data Science, portanto, está sendo chamada de “Petróleo do século 21” por muitos especialistas de mercado.
Mercado de Data Science
Estamos cercados de dados por todos os lados, tanto recebendo quanto emitindo. Por isso que a Data Science tem benefícios incalculáveis para negócios, na pesquisa e em nossa vida cotidiana.
Seu caminho para o trabalho, sua pesquisa mais recente no Google, mesmo sua postagem no Instagram seja ela sobre o que você comeu, e até os dados de saúde do seu rastreador de fitness, são importantes para diferentes cientistas de dados de maneiras diferentes.
Benefícios práticos do Data Science
Analisando enormes conjuntos de dados, procurando conexões e padrões, a Data Science é responsável por nos trazer novos produtos, fornecer insights inovadores e tornar nossa vida mais conveniente.
Então, pessoas que trabalham neste meio conseguem identificam entre a miríade de dados, questões que possuem relevância, a partir de dados coletados das mais diversas fontes.
Sendo assim, com as informações devidamente organizadas, em seguida é necessário traduzir todos os resultados obtidos em soluções que auxiliam as decisões de negócios de maneira positiva.
Enfim, não é à toa que praticamente todos os setores estão investindo em Data Science, para otimizar seus processos e agregar cada vez mais valor.
Como se tornar um cientista de dados
Primeiramente, considere se isto é mesmo o que deseja. Imediatamente, considere experimentar alguns cursos em plataformas digitais sobre o tema.
Em seguida, você pode partir para um caminho acadêmico, por exemplo. Existem cursos de pós graduação que você pode fazer que lhe prepararão para ser um cientista de dados.
Depois, escolha sua área de especialização, como engenharia de dados ou desenvolvedor de algoritmos de machine learning e busque por posições na sua área.
Esta tecnologia é exclusividade de grandes empresas?
Mas é claro que não: empresas de pequeno porte também pode trabalhar com Data Science.
Existem corporações, especializadas inclusive, em prestar este tipo de serviço para pequenas e médias empresas e veja bem, indiferente do ramo. Ou seja, quem possui, por exemplo, uma academia, também pode se aproveitar de todo conhecimento pertinente a ciência de dados. Muitos acham que podemos estar vivendo uma bolha neste mercado de data science, mas cada um vê a oportunidade de uma maneira.
******** Esta parte do artigo foi redigida por nossa autora Cristiane Massena *********
A ciência de dados envolve diversas disciplinas
Matemática e estatística, ciência da computação, aprendizado máquina, Software e pesquisa tradicional, e a especialização cientifica, e o conhecimento dos negócios ou do universo no quais os dados estão inseridos.
E se diferencia das analises estatísticas e também da ciência da computação por unir métodos científicos e tecnologias aptas para quantidades massivas de dados estruturados e não estruturados para identificar padrões, com uso de machine learning e inteligência artificial. Atualmente não existe mecanismos anti-fraudes que não use essas técnicas.
E suas aplicações são beneficas a diversas areas como mencionam Baudisch (2016) e Andrade (2018):
- Astronomia: busca e reconhecimento de planetas e estrelas como tivemos recentemente a imagem do buraco negro.
- E-commerce: personalização e recomendação
- Energia: eficiência de uso e redução de apagões
- Entretenimento: personalização, recomendação, retenção, riscos
- Logística: otimização de fluxos e estoques;
- Marketing: anúncios multiplataforma, segmentação de mercado, descoberta e detecção de padrões comportamentais em nichos de mercado, previsões de novos cenários e tendências de mercado, melhor alocação de recursos.
- Mídias Sociais: aumento da retenção de usuários, habilidade para detectar padrões de comportamento e sentimento do usuário, reconhecimento facial
- Produção: otimização de recursos, maior eficiência produtiva e controle de qualidade;
- Recursos Humanos: alocação de recursos e avaliações de perfil.
- Saúde: personalização de tratamentos, detecção antecipada através de análise genética
- Serviços financeiros: detecção de risco de fraudes, análise de crédito, gerenciamento de risco, análise de mercado e previsões de inadimplência;
- TI: monitoramento de informações, aumento da segurança, detecção de invasões; análise sentimental
=> Se quiser ler sobre o assunto recomendamos o livro “Data Science do Zero”
Resumo do livro “Data Science do Zero”
Primeiramente o livro nos traz um contexto de negócio, nos mostra qual é a empresa que vamos trabalhar e qual é o nosso produto, ai de cara percebemos que o conhecimento de negócio é muito importante para o cientista de dados.
No segundo capítulo temos uma revisão da linguagem Python , programação mais adequada para trabalhar com ciência de dados no momento em que o livro foi escrito. Depois o autor ensina a biblioteca matplotlib para criar alguns gráficos.
Temos também uma revisão de matemática base para ciência de dados, assuntos tais como:
- Álgebra Linear,
- Estatística,
- Probabilidade e
- Hipóteses.
*************************************
O livro possui várias técnicas de ciência de dados: aprendizado de máquina, K-means, Bayes, árvores de decisão, redes neurais, agrupamentos (clustering), processamento de linguagem natural, sistemas de recomendação, bancos de dados relacionais/não-relacionais e MapReduce.
A abordagem usada para apresentar essas técnicas é “Faça você mesmo!” ou SVM (Se vira malandro), bem prático e didático não pode faltar na sua prateleira, segue link para comprar agora.
DEPOIMENTO:
“Joel lhe leva em uma jornada desde a curiosidade sobre dados até a completa compreensão de algoritmos que todo cientista de dados deveria ter.”
―Rohit Sivaprasad, Cientista de Dados na Soylent
Enfim, se gostou deste conteúdo, lembre de compartilhar e interaja trazendo até nós suas dúvidas sobre Data Science.
Aproveite e ouça um capitulo do nosso podcast “Sala de Comando”
[Atualização] Dicas enviadas por nosso colunista Thiago Marques
Esta parte do artigo é resultado de várias perguntas que me enviam sobre como ingressar nesta área tão promissora: a ciência de dados, seja por querer mudar de área de atuação ou até mesmo um amor a primeira vista quando ouviram falar da mesma.
Eu resolvi consolidar as respostas em um único texto para que sirva de orientação aos ingressantes na área.
Meu conselho para ingressar nessa área:
Existem muitos cursos gratuitos e muito bons no Coursera, edX, Datacamp, Data Science Academy, assim como pagos também, comece por ai.
Nesse outro Post, eu falo um pouco como foi essa transição depois da faculdade, indico alguns caminhos possíveis a seguir:
Segue o link :https://www.linkedin.com/pulse/reflex%C3%A3o-thiago-marques/
Explicando um pouco como vocês vão usar a Estatística na Ciência de dados:
A Estatística por si só, não é nada, contudo aliada a uma área de conhecimento ou alguma ciência, se torna uma ferramenta poderosíssima de tomada de decisões!
Amostragem, Estatística Descritiva e Probabilidade:
Você precisa aprender o básico, como coletaros dados, de forma que essa amostra seja representativa da sua população, como resumiros dados, como se estuda o comportamento deles, que distribuição de probabilidade esses dados são provenientes, para que você consiga elaborar hipóteses que serão confirmadas ou refutadas lá na frente, na chamada inferência Estatística.
Inferência Estatística
Você irá expandir os resultados que obteve por meio de uma amostra, por isso é importante que a amostra seja representativa da população, ou seja resguarde em termos de proporções as características da população, que nada mais é que a coleção de dados , que possuem determinadas características, as quais você quer estudar.
Modelagem Estatística
Você formulará modelos, que nada mais são que uma redução da realidade, os quais poderão estimar valores futuros(fazer predições), baseados no histórico dos seus dados, observados alguns pressupostos.
Resumindo, você precisará de:
Estatística descritiva, Amostragem, Probabilidade, Inferência Estatística, Modelos lineares, Regressão logística, Árvores de decisão, Random forest, gradient boosting machine, entre outras técnicas.
Um ponto importante é casar a linguagem de programação com Estatística, siga estudando R ou Python na minha opinião, até hoje, são as melhores e com maiores comunidades para usar em Data Science, aliada as soluções Spark e Hadoop .
Focar em cursos de R, Python, SQL, NoSQL, Hive, Pig, Spark, Hadoop, sempre voltados a análise de dados.
Assim como se aprofundar em TI e Estatística é necessário, o bom Cientista de dados, tem que ser um verdadeiro camaleão! Se adaptar a área de negócios a qual ele está envolvido, de modo que a mesma pode variar constantemente, principalmente se você trabalha com consultoria, estudar as regras de negócio é fundamental! Não só isso, como se comunicar com profissionais de outras áreas, que sacam mais que você do negócio!
Bom, é isso galera! Espero que vocês tenham gostado, agora é montar uma grade de estudos e meter bronca!
3 Trackbacks / Pingbacks