Artigo publicado por Eric Miller – Diretor Sênior de Estratégia Técnica na Rackspace
Na próxima década, o papel do cientista de dados como o conhecemos será muito diferente do que é hoje. Mas não se preocupe, ninguém está prevendo empregos perdidos, apenas empregos mudados.
Os cientistas de dados ficarão bem – de acordo com o Bureau of Labor Statistics, a função ainda está projetada para crescer acima da média até 2029. Mas os avanços na tecnologia serão o ímpeto para uma grande mudança nas responsabilidades de um cientista de dados e na forma como as empresas abordam a analytics como um todo. E as ferramentas do AutoML, que ajudam a automatizar o pipeline de machine learning de dados brutos para um modelo utilizável, liderarão essa revolução.
Em 10 anos, os cientistas de dados terão conjuntos totalmente diferentes de habilidades e ferramentas, mas sua função permanecerá a mesma: servir como guias de tecnologia confiantes e competentes que podem dar sentido a dados complexos para resolver problemas de negócios.
AutoML democratiza a ciência de dados
Até recentemente, algoritmos e processos de machine learning eram quase exclusivamente domínio de funções de ciência de dados mais tradicionais – aquelas com educação formal e diplomas avançados ou trabalhando para grandes corporações de tecnologia. Os cientistas de dados desempenharam um papel inestimável em todas as partes do espectro de desenvolvimento do machine learning. Mas com o tempo, seu papel se tornará mais colaborativo e estratégico. Com ferramentas como o AutoML para automatizar algumas de suas habilidades mais acadêmicas, os cientistas de dados podem se concentrar em orientar as organizações em direção a soluções para problemas de negócios por meio de dados.
De muitas maneiras, isso ocorre porque o AutoML democratiza o esforço de colocar o machine learning em prática. Fornecedores, desde startups a hiperscaladores em nuvem, lançaram soluções fáceis o suficiente para os desenvolvedores usarem e experimentarem, sem uma grande barreira educacional ou experiencial à entrada. Da mesma forma, alguns aplicativos AutoML são intuitivos e simples o suficiente para que trabalhadores não técnicos possam tentar criar soluções para problemas em seus próprios departamentos – criando uma espécie de “cientista de dados cidadão” dentro das organizações.
Para explorar as possibilidades que esses tipos de ferramentas abrem para desenvolvedores e cientistas de dados, primeiro temos que entender o estado atual da ciência de dados no que se refere ao desenvolvimento de machine learning. É mais fácil de entender quando colocado em uma escala de maturidade.
Organizações menores e negócios com funções mais tradicionais responsáveis pela transformação digital (ou seja, cientistas de dados não treinados de forma clássica) normalmente se enquadram neste extremo desta escala. No momento, eles são os maiores clientes de aplicativos de machine learning prontos para uso, que são mais voltados para um público não familiarizado com as complexidades do machine learning.
- Prós: esses aplicativos prontos para uso tendem a ser fáceis de implementar e relativamente baratos. Para empresas menores com um processo muito específico para automatizar ou melhorar, provavelmente existem várias opções viáveis no mercado. A baixa barreira de entrada torna esses aplicativos perfeitos para cientistas de dados que estão entrando no machine learning pela primeira vez. Como alguns dos aplicativos são tão intuitivos, eles até permitem que funcionários não técnicos tenham a chance de experimentar automação e recursos de dados avançados – potencialmente introduzindo uma caixa de areia valiosa em uma organização.
- Contras: essa classe de aplicativos de machine learning é notoriamente inflexível. Embora possam ser fáceis de implementar, não são facilmente personalizados. Como tal, certos níveis de precisão podem ser impossíveis para certas aplicações. Além disso, esses aplicativos podem ser severamente limitados por sua dependência de modelos e dados pré-treinados.
Exemplos desses aplicativos incluem Amazon Comprehend, Amazon Lex e Amazon Forecast da Amazon Web Services e Azure Speech Services e Azure Language Understanding (LUIS) do Microsoft Azure. Essas ferramentas costumam ser suficientes para que os cientistas de dados em crescimento dêem os primeiros passos no machine learning e conduzam suas organizações ainda mais para baixo no espectro de maturidade.
Soluções personalizáveis com AutoML
Organizações com conjuntos de dados grandes, mas relativamente comuns – pense em dados de transações do cliente ou métricas de e-mail marketing – precisam de mais flexibilidade ao usar o machine learning para resolver problemas. Entre no AutoML. O AutoML segue as etapas de um fluxo de trabalho de machine learning manual (descoberta de dados, análise exploratória de dados, ajuste de hiperparâmetros etc.) e os condensa em uma pilha configurável.
Prós
Os aplicativos AutoML permitem que mais experimentos sejam executados com dados em um espaço maior. Mas a verdadeira superpotência do AutoML é a acessibilidade – configurações personalizadas podem ser criadas e as entradas podem ser refinadas com relativa facilidade. Além disso, o AutoML não é feito exclusivamente com cientistas de dados como público. Os desenvolvedores também podem mexer facilmente na sandbox para trazer elementos de machine learning para seus próprios produtos ou projetos.
Contras
Embora chegue perto, as limitações do AutoML significam que a precisão nas saídas será difícil de aperfeiçoar. Por causa disso, os cientistas de dados portadores de cartões que detêm diplomas costumam desprezar os aplicativos desenvolvidos com a ajuda do AutoML – mesmo que o resultado seja preciso o suficiente para resolver o problema em questão.
Exemplos desses aplicativos incluem Amazon SageMaker AutoPilot ou Google Cloud AutoML. Os cientistas de dados daqui a uma década, sem dúvida, precisarão estar familiarizados com ferramentas como essas. Como um desenvolvedor proficiente em várias linguagens de programação, os cientistas de dados precisarão ter proficiência em vários ambientes AutoML para serem considerados os melhores talentos.
Soluções de machine learning “enroladas à mão” e desenvolvidas internamente
Os maiores negócios em escala empresarial e empresas Fortune 500 estão onde a maioria dos aplicativos de machine learning avançados e proprietários estão sendo desenvolvidos. Os cientistas de dados nessas organizações fazem parte de grandes equipes que aperfeiçoam algoritmos de machine learning usando uma grande quantidade de dados históricos da empresa e construindo esses aplicativos a partir do zero. Aplicativos personalizados como esses só são possíveis com recursos e talento consideráveis, e é por isso que a recompensa e os riscos são tão grandes.
Prós
Como qualquer aplicativo criado a partir do zero, o machine learning personalizado é o “estado da arte” e é desenvolvido com base em um profundo entendimento do problema em questão. Também é mais preciso – mesmo que apenas por pequenas margens – do que AutoML e soluções de machine learning prontas para usar.
Contras
Fazer com que um aplicativo de machine learning personalizado alcance certos limites de precisão pode ser extremamente difícil e geralmente requer trabalho pesado por equipes de cientistas de dados. Além disso, as opções de machine learning personalizadas são as mais demoradas e caras de desenvolver.
Um exemplo de solução de machine learning enrolada à mão é começar com um bloco de notas Jupyter em branco, importar dados manualmente e, em seguida, conduzir cada etapa da análise exploratória de dados até o ajuste manual do modelo. Muitas vezes, isso é feito escrevendo código personalizado usando estruturas de machine learning de código aberto, como Scikit-learn, TensorFlow, PyTorch e muitos outros. Essa abordagem requer um alto grau de experiência e intuição, mas pode produzir resultados que geralmente superam os serviços de machine learning prontos para uso e o AutoML.
Ferramentas como o AutoML mudarão as funções e responsabilidades da ciência de dados nos próximos 10 anos. O AutoML tira o fardo de desenvolver o machine learning do zero para os cientistas de dados e, em vez disso, coloca as possibilidades da tecnologia de machine learning diretamente nas mãos de outros solucionadores de problemas. Com tempo livre para se concentrar no que sabem – os dados e as próprias entradas -, os cientistas de dados daqui a uma década servirão como guias ainda mais valiosos para suas organizações.
*Eric Miller atua como Diretor Sênior de Estratégia Técnica na Rackspace, onde fornece liderança em consultoria estratégica com um histórico comprovado de construção de prática no ecossistema Amazon Partner Network (APN)
Seja o primeiro a comentar