Segundo pesquisa publicada na revista Harvard Business Review, aproximadamente 47% dos dados recentemente criados contém no mínimo um erro crítico que pode influenciar o trabalho desenvolvido em um modelo ML e trazer impactos financeiros. A coleta de informações é parte essencial da aplicação, sendo ela que conterá o necessário para uma análise bem fundamentada. O risco da coleta de informações ter dados de qualidade não aceitável (I.E baixa qualidade de imagens, amostras não randomizadas) faz a tomada de decisões enfraquecer, ocorre a perda de tempo analisando dados desnecessários além de elevar o gasto para executar as ações de análise e possível reexecução da coleta de dados.
Quanto mais complexa a tarefa a ser executada, mais complexo é o processo de organizar e preparar os dados, processo esse que pode chegar a 80% do tempo de desenvolvimento segundo E. Wildner-James.
A melhor maneira de minimizar riscos no desenvolvimento é ter um objetivo claro da finalidade do modelo de ML.
Se um processo não precisa tomar decisões melhores, apenas reduzir o custo, possivelmente os dados que já existem são suficientes para isso, porém se o objetivo é diminuir ou remover completamente um viés de um processo, a possibilidade desse viés já estar nos dados é alta.
Também é necessário a alta disponibilidade de dados para um aprendizado eficiente, em um exemplo de carros autônomos, antes de usar um carro na rua, é imprescindivel que o modelo já tenha passado por milhares de imagens de treinamento em ambiente controlado e fontes externas, para só então estar pronto a identificar placas e linhas de sinalização.
Outro risco existente se encontra no âmbito dos Recursos Humanos, a quantidade de dados sendo gerada é altíssima, e é criada a cada segundo por nossos celulares, sistemas embarcados e diversos outros aparelhos, nosso poder computacional tem aumentado desde 1965 com o dobro de transistores a cada dois anos, seguindo a linha da Lei de Moore, porém existe um déficit de pessoas para trabalhar com análise de dados em geral, em cargos que vão de Cientista de Dados, Engenheiro de Dados, Analistas e Engenheiros de Visão Computacional. Em 2020 por exemplo, segundo pesquisa da Deloitte Insights, o número de vagas abertas na área de Análise supera pelo quarto ano seguido as vagas abertas nas áreas de Marketing, Customer Experience, Administrativos e Engenharias.
Todo ano se fala mais sobre o uso de Machine Learning e de Inteligência Artificial em si, mas ainda teremos muitos problemas com dados de baixa qualidade aliadas a falta de profissionais capacitados para realizar a análise desses dados gerados, o caminho ainda é longo.
Top comments (0)