A função principal dos detectores de textos gerados por IA é analisar vários recursos linguísticos, como estrutura de frases, escolha de palavras e elementos estilísticos, para reconhecer padrões típicos de textos produzidos por inteligência artificial.
A inteligência artificial (IA) é cada vez mais usada na produção de textos - o sucesso de programas como o ChatGPT que o diga. Mas isso também está se tornando um problema, especialmente em ambientes acadêmicos, em que autenticidade e originalidade são fatores essenciais. Assim, também cresce a demanda por detectores de textos gerados por IA, o que exige cuidados por professores, pesquisadores e editores.
A função principal dos detectores de textos gerados por IA é analisar vários recursos linguísticos, como estrutura de frases, escolha de palavras e elementos estilísticos. Essas ferramentas geralmente empregam algoritmos de aprendizado de máquina treinados em grandes conjuntos de dados para reconhecer padrões típicos de textos produzidos por inteligência artificial.
Alguns padrões são relacionados à medida de quão imprevisível é um texto, ou quão provável é que ele deixe perplexo (confuso) um leitor. Textos gerados por IA têm maior probabilidade de fazer sentido e serem lidos sem problemas, mas também são mais previsíveis. Já a escrita humana tende a apresentar maior complexidade, com linguagem mais criativa, mas também pode conter erros de digitação ou de gramática.
Outro padrão que pode ser avaliado é a variação na estrutura e comprimento das frases. Um texto com poucas variações deste tipo tem alta probabilidade de ter sido gerado por IA. Já um texto com maior variação provavelmente foi escrito por um humano. Os modelos de linguagem tendem a produzir frases de comprimento médio (10 a 20 palavras) e com estruturas convencionais. É por isso que a escrita da IA às vezes pode parecer monótona.
A precisão desses detectores, no entanto, pode variar significativamente dependendo da complexidade do texto, da língua, e da sofisticação da IA que o gerou. Uma das principais questões discutidas no meio acadêmico é o potencial para falsos positivos e falsos negativos. Falsos positivos ocorrem quando um detector identifica incorretamente um texto escrito por humanos como gerado por IA, enquanto falsos negativos acontecem quando o conteúdo gerado por IA é classificado erroneamente como escrito por humanos.
Estes erros podem ter implicações graves, particularmente em contextos acadêmicos onde as acusações de plágio podem prejudicar reputações e carreiras, gerar ações legais por danos morais, e criar um mal-estar em sala de aula. Consequentemente, não é aconselhável fazer acusações sem provas contundentes de má conduta. Isso significa que o indivíduo deve, além de ferramentas de detecção, verificar a concordância entre essas ferramentas e seu julgamento pessoal usando sua experiência.
O desafio de manter os detectores atualizados com o cenário em rápida evolução do conteúdo gerado por IA também é um problema. À medida que os modelos de IA se tornam mais avançados, seus resultados assemelham-se cada vez mais à escrita humana, tornando mais difícil para os detectores discernirem as diferenças.
Essa corrida armamentista entre geradores e detectores de conteúdo de IA exige melhorias e atualizações contínuas nos algoritmos de detecção. Até o momento, é difícil encontrar uma ferramenta que identifique de forma 100% confiável textos gerados por IA e por humanos. A detecção de IA ainda está em seus estágios iniciais de desenvolvimento, e atualmente os desenvolvedores dessas ferramentas estão correndo atrás das IAs geradoras de textos. Portanto, é importante não substituir o julgamento humano, especialmente quando jovens estudantes e pesquisadores são avaliados por potenciais más condutas.
Além disso, é importante considerar algumas questões éticas que envolvem o uso de detectores de IA, tais como privacidade, segurança de dados e o uso indevido de ferramentas de detecção, violando a confidencialidade e os direitos de propriedade do autor. Portanto, também é importante ter transparência na implantação e utilização de detectores, garantindo que os usuários estejam cientes de que os seus dados estão sendo checados, utilizados e protegidos.
Do lado da confiabilidade, os detectores de IA precisam ser examinados a priori, por meio de testes empíricos e estudos de caso, antes de serem utilizados em situações reais. Vários experimentos podem ser conduzidos para avaliar o desempenho dos detectores de IA atualmente em uso, revelando resultados concordantes ou uma mistura de resultados que descordam entre si. Alguns detectores mostram altas taxas de precisão em ambientes controlados, mas têm dificuldades em identificar textos humanizados ou parafraseados gerados por IA. Esta variabilidade destaca a necessidade de testes e validação contínuos das ferramentas de detecção.
Levando tudo isso em conta, desenvolvi com o aluno João Gabriel Gralha, do Centro Técnico Científico da Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), o sistema computacional Gotcha-GPT. Gratuito e disponível no repositório Github, este sistema já pode detectar textos científicos em inglês gerados por IA e por humanos, e pode ser facilmente treinado em pouco tempo para avaliar qualquer texto, inclusive em português e em qualquer nível de complexidade. A única limitação é o tamanho do texto, que tem que ter até 1024 tokens, ou aproximadamente 700 palavras.
O Gotcha-GPT também pode ser utilizado em conjunto com outros detectores de textos gerados por IA, tais como Originality AI, Copyleaks, ZeroGPT, GPTZero, Writer AI, Hive AI, Detector Content At Scale e Giant Language Model Test Room. É importante destacar, porém, que não endossamos nenhuma das ferramentas acima, nas quais os usuários precisam testar e serem treinados para ganhar experiência.
André Silva Pimentel - The Conversation Brasil