Por Jeffrey Dastin e Katie Paul
(Reuters) – Uma equipe de especialistas em tecnologia emitiu um apelo global à ação nesta segunda-feira buscando as perguntas mais complexas possíveis para os sistemas de inteligência artificial (IA), que estão cada vez mais realizando testes de benchmark populares como se fossem uma piada. de criança.
Apelidado de “A Última Prova de Humanidade”, o projeto busca determinar o momento da chegada da IA de nível especializado, dizem os organizadores do estudo, que fazem parte da organização sem fins lucrativos Center for AI Security (CAIS) e da empresa startup Scale AI.
A ligação ocorre dias depois de o criador do ChatGPT apresentar um novo modelo, conhecido como OpenAI o1, que “destruiu os benchmarks de raciocínio mais populares”, disse Dan Hendrycks, diretor executivo do CAIS e consultor da startup xAI de Elon Musk.
Hendrycks foi coautor de dois artigos em 2021 que propunham testes para sistemas de IA que agora são amplamente utilizados: um testando o conhecimento de nível de graduação no ensino superior sobre tópicos como a história dos EUA e o outro avaliando a capacidade dos modelos de raciocínio matemático para o nível de competições em a disciplina. O teste de pós-graduação tem mais downloads no hub de IA online Hugging Face do que qualquer outro conjunto de dados semelhante.
Na época desses artigos, a IA dava respostas quase aleatórias às perguntas do teste. “Agora elas são facilmente respondidas”, disse Hendrycks à Reuters.
Por exemplo, os modelos Claude, do laboratório de IA Antrópico, alcançaram pontuação em torno de 77% na prova de pós-graduação de 2023 e chegaram a quase 89% um ano depois, segundo um importante ranking.
Como resultado, estes testes de referência comuns tornam-se menos importantes.
A IA parece ter se saído mal em testes menos conhecidos envolvendo formulação de planos e quebra-cabeças de reconhecimento de padrões visuais, de acordo com o Relatório de Índice de IA da Universidade de Stanford, divulgado em abril. OpenAI o1 obteve pontuação de cerca de 21% em uma versão do teste de reconhecimento de padrões ARC-AGI, por exemplo, disseram os organizadores do ARC na sexta-feira.
Alguns pesquisadores de IA argumentam que esse tipo de resultado mostra que o planejamento e o raciocínio abstrato são as melhores formas de medir a inteligência, embora Hendrycks tenha dito que o aspecto visual do ARC o torna menos adequado para avaliar modelos de linguagem. “A Última Prova da Humanidade exigirá raciocínio abstrato”, disse ele.
As respostas de testes de benchmark comuns também podem ter sido usadas para treinar os sistemas de IA, disseram especialistas de mercado. Hendrycks disse que algumas questões em ‘O Último Julgamento da Humanidade’ permanecerão secretas para garantir que as respostas dos sistemas de IA não sejam apenas o resultado da memorização de dados.
O exame incluirá pelo menos 1.000 perguntas feitas por pessoas até 1º de novembro, em um nível complexo para não especialistas responderem. Essas perguntas passarão por revisão por pares, e os envios vencedores serão de coautoria e receberão prêmios de até US$ 5.000, patrocinados pela Scale AI.
Há, no entanto, apenas uma restrição: os organizadores não querem perguntas sobre armas, pois alguns dizem que seria demasiado perigoso para a IA estudar este assunto.
emprestimo consignado banco do brasil simulação
qual valor do emprestimo do bolsa familia
cartão consignado loas
banco pan simular emprestimo fgts
simular empréstimo consignado bradesco
renovar cnh aracaju
banco pan correspondente
empréstimo no banco do brasil