O uso de inteligência artificial para criação de textos, ideias e projetos criativos se popularizou rapidamente nos últimos anos. No entanto, um estudo recente conduzido pelo Center for AI Safety em parceria com a Scale indica que, apesar da evolução acelerada dos modelos, a tecnologia ainda apresenta limitações relevantes quando colocada diante de tarefas profissionais complexas. De acordo com os pesquisadores, 97% dos trabalhos avaliados não foram concluídos com qualidade suficiente para serem aceitos como serviços profissionais.
O experimento analisou o desempenho de modelos considerados de ponta, entre eles Manus AI, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent e Gemini 2.5 Pro. Todos foram submetidos a projetos reais de trabalho remoto, equivalentes aos que já haviam sido executados por freelancers humanos em plataformas digitais. A comparação buscou medir, de forma prática, até que ponto a IA consegue assumir projetos completos sem depender de intervenção humana constante.
As tarefas envolveram áreas variadas, como desenvolvimento de jogos, design de produtos, arquitetura, análise de dados e animação de vídeo. Em comum, todas exigiam mais do que domínio técnico. Os projetos demandavam interpretação de briefing, tomada de decisão ao longo do processo, adaptação a problemas imprevistos e soluções criativas. O objetivo foi avaliar a capacidade das IAs de lidar com a complexidade típica do trabalho profissional contemporâneo.
Projetos reais como critério
Diferentemente de testes tradicionais, que avaliam raciocínio lógico ou acerto em perguntas objetivas, o estudo adotou uma abordagem baseada em projetos completos e abertos. Os modelos receberam exatamente os mesmos briefings usados em plataformas de trabalho remoto, com prazos definidos, critérios de qualidade claros e expectativas semelhantes às de clientes reais. A proposta era observar se a IA conseguiria conduzir todas as etapas do trabalho, do planejamento à entrega final.
Para estruturar a análise, os pesquisadores criaram o Índice de Trabalho Remoto, conhecido pela sigla RLI. O indicador reúne projetos reais, com valor econômico concreto, e serve para medir o desempenho de sistemas de IA em tarefas do dia a dia profissional. O resultado geral foi baixo. Mesmo o melhor desempenho registrado, atribuído ao Manus AI, atingiu apenas 2,5% de automação completa, ou seja, casos em que o trabalho poderia ser entregue sem correções humanas relevantes.
Os projetos avaliados apresentavam diferentes níveis de complexidade. Incluíam desde visualizações de dados e animações em 2D ou 3D para apresentação de produtos até demandas arquitetônicas mais elaboradas. O custo total dos trabalhos superava US$ 10 mil, com tempos de execução que ultrapassavam 100 horas. O critério central não era apenas concluir a tarefa, mas entregar um resultado compatível com padrões profissionais, o que se mostrou um obstáculo para a maioria dos modelos.
Limitações observadas
Segundo os autores do estudo, as falhas das IAs não se resumem a erros pontuais ou técnicos. Em muitos casos, os sistemas demonstraram dificuldade para lidar com ambiguidades nos briefings, manter consistência ao longo de projetos extensos e ajustar decisões conforme novas informações surgiam. Essas limitações se tornaram mais evidentes em demandas abertas, nas quais o caminho até a solução não está totalmente definido desde o início.
Outro ponto destacado é a ausência de aprendizado contínuo durante o desenvolvimento dos projetos. Enquanto profissionais humanos tendem a incorporar feedbacks e corrigir rotas com base em erros anteriores, os modelos de IA avaliados não apresentaram essa capacidade de adaptação ao longo do processo. Isso compromete a evolução do trabalho e aumenta a necessidade de revisão humana.
Os resultados ajudam a relativizar previsões mais pessimistas sobre a substituição rápida de profissionais criativos por sistemas automatizados. De acordo com o experimento, ao menos no estágio atual, a inteligência artificial funciona de forma mais eficiente como ferramenta de apoio, capaz de acelerar etapas e auxiliar na geração de ideias, mas não como agente autônomo responsável por projetos inteiros.
Os pesquisadores ressaltam, contudo, que o desempenho dos modelos vem melhorando gradualmente ao longo do tempo. O avanço não é negado, mas o estudo sugere cautela ao atribuir à IA um papel central em atividades que exigem julgamento humano, criatividade contextual e responsabilidade profissional. O cenário indicado é de colaboração, e não de substituição imediata, entre humanos e máquinas.
Fonte: Tech Tudo
Foto: https://br.freepik.com/imagem-ia-gratis/pessoa-que-sofre-de-dependencia-da-tecnologia-e-de-ciberdoenca_204413895.htm