Por que sempre que falamos em Ciência de Dados é inevitável não comentarmos sobre a linguagem Python?
Linguagem Python
Python é uma linguagem de programação de código aberto, criada por Guido van Rossum em 1989 para ser a substituta da linguagem ABC no SO Amoeba. Seu foco era desenvolver uma linguagem que potencializasse a produtividade do programador. Ah! A linguagem tem esse nome devido ao gosto de Van Rossum pelo grupo humorístico “Monty Python”.
Dentre diversas características da linguagem, podemos citar algumas:
- Multiplataforma;
- Interpretada;
- Multiparadigma (POO, Funcional, Imperativa);
- Tipagem Dinâmica e Forte;
- Baixa Curva de aprendizado.
O fato de ter uma baixa curva de aprendizado e o foco na produtividade, sem sombra de dúvidas foram os fatores que impulsionaram a popularidade do Python. Veja um exemplo de código em 4 linguagens de programação diferentes para o mesmo intuito (criar um objeto da classe ‘Faladora’ e chamar o método ‘dizerOi’ passando como parâmetro o nome e imprimir na tela o resultado):
O Stackoverflow disponibilizou o resultado da pesquisa anual do desenvolvedor que fez no ano de 2019, e dentre várias questões sobre programação, mostra as linguagens mais amadas, as mais temidas e as mais desejadas. Python aparece como a 2ª mais amada com 73.1% (atrás apenas de Rust com 83.5%) e foi eleita a linguagem mais desejada para trabalhar com 25.7%. Segue link para resultado completo da pesquisa: Pesquisa Anual Stackoverflow.
Python na Ciência de Dados
Todo Cientista de Dados tem como um de seus maiores triunfos, saber comunicar de modo claro, e muitas vezes visual, os resultados e previsões a qualquer nível do negócio. Atrelado a isso, está a necessidade de termos esses resultados cada vez mais rápido, seja por sazonalidade dos dados ou por prazos cada vez mais curtos que a indústria propõe.
Além da intensidade computacional do Python, outros 2 pontos merecem destaque: A grande comunidade ativa e a enorme quantidade de bibliotecas disponíveis para Data Science.
A comunidade Python possui devs apaixonados e solidários. Tenha certeza de que caso você esteja ‘enganchado’ em alguma rotina no seu código, sempre terá alguém que já passou pela mesma dificuldade e compartilhou a solução, ou alguém se disponibilizará para te ajudar. É fácil constatar de forma fácil e rápida, só fazer uma busca que encontramos ligeiramente na WEB. Aqui no Brasil temos a Python Brasil, uma comunidade bastante ativa, onde possuem fóruns e mais de 4 mil membros em seu grupo no Telegram.
Referente a quantidade de bibliotecas existente em Python para Data Science, temos um cardápio recheado e completo. Temos bibliotecas desde organização de dataset a modernos visualizadores de resultados. Bibliotecas para cálculo de matrizes a Processamento de Linguagem Natural, na tabela abaixo está listado algumas das principais bibliotecas para Data Science.
Numpy | Cálculo matemáticos para Arrays Multidimensionais. | |
Pandas | Manipulação e Análise de Dados. | |
Scikit Learn | Poderosa biblioteca para Machine Learning. | |
Matplotlib | Plotagem de gráficos. | |
Plotly | Criação de visualizações interativas. | |
Keras | Rede neural e Deep Learning. | |
NLTK | Processamento de Linguagem Natural (NLP). | |
Scrapy | Biblioteca para Web Crawling. |
O enorme volume de Dados que produzimos hoje em dia(Big Data), atrelado com o ganho de poder computacional que possuímos e a necessidade de tratar informações em tempo hábil, junto com todo esse arsenal de bibliotecas, API’s e Frameworks para linguagem Python, fez com que ela se tornasse a linguagem de programação mais popular do mundo. Observe no vídeo abaixo, sobre as linguagens de programação mais populares desde 1965, o crescimento vertiginoso que o Python teve a partir, especialmente, do ano de 2016 até chegar ao topo no final do ano de 2018.
Obviamente que não existe somente a linguagem Python para trabalhar com Ciência de Dados. Outras linguagens como o R é bastante utilizada ainda hoje, devido a sua concepção ter sido para Computação Estatística. Uma linguagem que merece BASTANTE atenção é a Julia, que vem numa crescente e pode em um futuro próximo está competindo com o Python, o topo da linguagem de programação mais utilizada em Data Science.
Caso você queira entrar nesse mundo de Data Science e começar a fazer seus primeiros projetos em Python, sugiro a leitura desse ótimo livro: Data Science do Zero: Primeiras Regras com o Python. Mas atenção! É preciso está atento nas tecnologias que estão em destaque, nas tendências e novidades. Entretanto, o foco precisa está na solução e nunca na ferramenta!
Olá , existe o projeto em PT-Br github.com/julialangpt
Olá Marcello! Muito obrigado pelo seu comentário. Bom saber que a comunidade brasileira tem um projeto bacana para Julia.