Python e a Ciência de Dados

Por que sempre que falamos em Ciência de Dados é inevitável não comentarmos sobre a linguagem Python?


Linguagem Python

Python é uma linguagem de programação de código aberto, criada por Guido van Rossum em 1989 para ser a substituta da linguagem ABC no SO Amoeba. Seu foco era desenvolver uma linguagem que potencializasse a produtividade do programador. Ah! A linguagem tem esse nome devido ao gosto de Van Rossum pelo grupo humorístico “Monty Python”.

Dentre diversas características da linguagem, podemos citar algumas:

  • Multiplataforma;
  • Interpretada;
  • Multiparadigma (POO, Funcional, Imperativa);
  • Tipagem Dinâmica e Forte;
  • Baixa Curva de aprendizado.

O fato de ter uma baixa curva de aprendizado e o foco na produtividade, sem sombra de dúvidas foram os fatores que impulsionaram a popularidade do Python. Veja um exemplo de código em 4 linguagens de programação diferentes para o mesmo intuito (criar um objeto da classe ‘Faladora’ e chamar o método ‘dizerOi’ passando como parâmetro o nome e imprimir na tela o resultado):

Código em 4 linguagens de programação (PHP, Java, C++ e Python) para executar o mesmo procedimento.
Fonte:Python – Paradigmas de Linguagem de Programação

O Stackoverflow disponibilizou o resultado da pesquisa anual do desenvolvedor que fez no ano de 2019, e dentre várias questões sobre programação, mostra as linguagens mais amadas, as mais temidas e as mais desejadas. Python aparece como a 2ª mais amada com 73.1% (atrás apenas de Rust com 83.5%) e foi eleita a linguagem mais desejada para trabalhar com 25.7%. Segue link para resultado completo da pesquisa: Pesquisa Anual Stackoverflow.

Python na Ciência de Dados

Todo Cientista de Dados tem como um de seus maiores triunfos, saber comunicar de modo claro, e muitas vezes visual, os resultados e previsões a qualquer nível do negócio. Atrelado a isso, está a necessidade de termos esses resultados cada vez mais rápido, seja por sazonalidade dos dados ou por prazos cada vez mais curtos que a indústria propõe.

Além da intensidade computacional do Python, outros 2 pontos merecem destaque: A grande comunidade ativa e a enorme quantidade de bibliotecas disponíveis para Data Science.

A comunidade Python possui devs apaixonados e solidários. Tenha certeza de que caso você esteja ‘enganchado’ em alguma rotina no seu código, sempre terá alguém que já passou pela mesma dificuldade e compartilhou a solução, ou alguém se disponibilizará para te ajudar. É fácil constatar de forma fácil e rápida, só fazer uma busca que encontramos ligeiramente na WEB. Aqui no Brasil temos a Python Brasil, uma comunidade bastante ativa, onde possuem fóruns e mais de 4 mil membros em seu grupo no Telegram.

Referente a quantidade de bibliotecas existente em Python para Data Science, temos um cardápio recheado e completo. Temos bibliotecas desde organização de dataset a modernos visualizadores de resultados. Bibliotecas para cálculo de matrizes a Processamento de Linguagem Natural, na tabela abaixo está listado algumas das principais bibliotecas para Data Science.


Numpy

Cálculo matemáticos para Arrays Multidimensionais.

Pandas

Manipulação e Análise de Dados.

Scikit Learn

Poderosa biblioteca para Machine Learning.

Matplotlib

Plotagem de gráficos.

Plotly

Criação de visualizações interativas.

Keras

Rede neural e Deep Learning.

NLTK

Processamento de Linguagem Natural (NLP).

Scrapy

Biblioteca para Web Crawling.

O enorme volume de Dados que produzimos hoje em dia(Big Data), atrelado com o ganho de poder computacional que possuímos e a necessidade de tratar informações em tempo hábil, junto com todo esse arsenal de bibliotecas, API’s e Frameworks para linguagem Python, fez com que ela se tornasse a linguagem de programação mais popular do mundo. Observe no vídeo abaixo, sobre as linguagens de programação mais populares desde 1965, o crescimento vertiginoso que o Python teve a partir, especialmente, do ano de 2016 até chegar ao topo no final do ano de 2018.

Linguagens de Programação mais Populares.

Obviamente que não existe somente a linguagem Python para trabalhar com Ciência de Dados. Outras linguagens como o R é bastante utilizada ainda hoje, devido a sua concepção ter sido para Computação Estatística. Uma linguagem que merece BASTANTE atenção é a Julia, que vem numa crescente e pode em um futuro próximo está competindo com o Python, o topo da linguagem de programação mais utilizada em Data Science.

Caso você queira entrar nesse mundo de Data Science e começar a fazer seus primeiros projetos em Python, sugiro a leitura desse ótimo livro: Data Science do Zero: Primeiras Regras com o Python. Mas atenção! É preciso está atento nas tecnologias que estão em destaque, nas tendências e novidades. Entretanto, o foco precisa está na solução e nunca na ferramenta!

Entre em contato comigo: LinkedInInstagram

3 Comments

    1. Lucas Ximenessays:

      Olá Marcello! Muito obrigado pelo seu comentário. Bom saber que a comunidade brasileira tem um projeto bacana para Julia.

Deixe um comentário

O seu endereço de e-mail não será publicado.