Como Detetar Textos Gerados por IA

Guia completo com métodos, ferramentas e estratégias para educadores em 2025

📌 Neste guia vai aprender:
  • Como funcionam os principais detetores de IA e os seus limites
  • Quais as ferramentas de referência em 2025
  • Estratégias práticas para professores confirmarem autoria
  • Sinais linguísticos típicos de textos gerados por IA

Porque é importante aprender a detetar textos gerados por IA?

O uso crescente dos modelos de linguagem, vulgo ChatGPT e outros, aumentou o risco de submissões de trabalhos não-autênticos. Por isso, é importante compreender e aprender como detetar o uso da inteligência artificial num texto.

Como funcionam os detetores de IA em textos escolares

📎 Leitura introdutória

Se quiser primeiro uma introdução simples ao tema, leia também este artigo sobre o que são detetores de IA .

🎯 1. Perplexidade e Burstiness

Os modelos de linguagem, como o GPT, produzem textos com padrões específicos que podem ser analisados através de duas métricas principais:

  • Perplexidade: Mede o grau de previsibilidade do texto. Se um modelo gerar um texto que parece muito "perfeito" ou estruturado, a perplexidade tende a ser baixa, indicando alta previsibilidade.
  • Burstiness: Avalia a variação do comprimento e da complexidade das frases. Textos humanos tendem a ter mais variação (alternando entre frases longas e curtas), enquanto textos gerados por IA costumam ser mais uniformes.
💡 Exemplo

Um ensaio escrito por um aluno pode ter frases longas seguidas de frases curtas e mais informais. Um texto gerado por IA, por outro lado, pode apresentar frases de tamanho semelhante e com estrutura gramatical muito correta.

✍️ Exemplo prático

Texto humano: "Ontem estive na praia da Rocha e escrevi um pequeno resumo, mas acabei por apagar quase tudo porque não estava a soar natural."

Texto IA: "A Praia da Rocha é uma zona costeira localizada em Portimão, conhecida pelas suas areias douradas e pela forte afluência turística ao longo de todo o ano."

🤖 2. Classificadores de IA

Os classificadores são modelos de machine learning treinados especificamente para distinguir textos humanos de textos gerados por IA.

Como funcionam:
  • São treinados com grandes quantidades de textos humanos e de IA
  • Utilizam técnicas de processamento de linguagem natural (NLP) para identificar padrões
  • Atribuem uma pontuação que indica a probabilidade do texto ser gerado por IA

⚠️ Limitações:

  • Alta taxa de falsos positivos quando os textos humanos são excessivamente formais ou técnicos
  • Falhas em reconhecer textos editados manualmente depois de serem gerados por IA

📈 3. Curvatura de Probabilidade

Esta abordagem inovadora mede se o texto ocupa zonas de baixa curvatura no espaço de probabilidade de um modelo de linguagem.

Como funciona:
  • Um LLM (Modelo de Linguagem de Grande Escala) gera diversos textos semelhantes ao texto-alvo
  • O detetor compara a curvatura probabilística desses textos
  • Se o texto-alvo estiver numa região de baixa curvatura, é provável que tenha sido gerado por IA, já que os modelos tendem a criar textos previsíveis

✅ Vantagens:

  • Não requer treino específico para diferentes modelos de IA (é um método zero-shot)
  • Bom desempenho mesmo com textos curtos

⚠️ Limitação:

  • Complexidade computacional elevada — geralmente precisa de GPU para processamento eficiente

🔐 4. Watermarking Estatístico

Algumas gerações de IA podem conter marcas estatísticas inseridas propositadamente pelos seus programadores.

Como funciona:
  • O modelo de linguagem insere padrões ocultos no texto, como combinações específicas de palavras ou estruturas gramaticais
  • O detetor procura essas marcas, que são praticamente invisíveis para os leitores humanos
🔍 Exemplo

A OpenAI desenvolveu um protótipo que consegue marcar cada texto com uma assinatura única, permitindo que os próprios programadores identifiquem a autoria.

⚠️ Limitações:

  • Apenas funciona se o texto for gerado por um modelo que utiliza esta técnica
  • Ainda não é amplamente implementado nas ferramentas públicas

Ferramentas de referência em 2025

Ferramenta Abrangência Pontos fortes Limitações Site oficial
Turnitin AI Detection EN, PT, ES + 14 línguas Integrado no fluxo antiplágio Necessita ≥ 300 palavras; falsos-positivos ainda existem Turnitin
GPTZero EN; modo "Deep" para outros idiomas Interface simples; API gratuita para educadores Falsos-positivos 1–2% em testes independentes GPTZero
Copyleaks AI Detector 30+ idiomas; PDF/DOCX Relatórios detalhados; prova digital Versão completa é paga; sensível a parafraseamento Copyleaks

Porque é que os detetores falham às vezes?

⚠️ Principais causas de erro
  • Falsos Positivos: Quando os textos humanos são demasiado bem estruturados ou seguem um estilo muito formal
  • Falsos Negativos: Textos gerados pela IA que foram editados manualmente para parecerem mais humanos
  • Viés Linguístico: Alguns modelos estão treinados principalmente para o inglês e podem falhar em português ou outros idiomas

Fluxo de trabalho recomendado para docentes

Triagem rápida

Aplicar pelo menos dois detetores independentes e guardar os relatórios como prova

Análise qualitativa

Procurar factos genéricos ou desatualizados e comparar o trabalho do aluno com trabalhos anteriores. Um aluno que tem dificuldades em criar um texto em aula mas apresenta um trabalho excecionalmente bem escrito torna-se suspeito

Verificação formativa

Solicitar rascunhos ou prova oral sobre o conteúdo

Decisão

Combinar resultados quantitativos e qualitativos, e envolver o Conselho de Turma em caso de dúvida

✔️ Checklist rápida para professores
  • Testar o texto em pelo menos 2 detetores
  • Comparar com trabalhos anteriores do aluno
  • Pedir explicação oral ou rascunho
  • Guardar relatórios e notas de análise

Sinais linguísticos de alerta

📝
Uniformidade sintática
🔗
Uso excessivo de conectores formais ("Ademais", "Além disso")
📊
Factos genéricos ou datados
👤
Pouca referência a experiências pessoais
Ausência quase total de erros tipográficos em textos longos

Estes sinais não são prova isolada. O professor ou formador deve sempre cruzar factos para suportar a sua conclusão.

Estratégias para aumentar a fiabilidade

✅ Melhores práticas
  • Utilizar diferentes ferramentas de deteção para obter uma análise mais completa
  • Combinar métodos automáticos com avaliação humana, especialmente em contextos académicos
  • Analisar o contexto: verificar versões anteriores do texto e realizar provas orais para confirmar autoria

Limitações éticas e técnicas

🛡️ Considerações importantes
  • Viés linguístico: Os detetores treinados em inglês falham mais com textos em outras línguas
  • Ferramentas "Humanizadoras": Existem ferramentas parafraseadoras que conseguem contornar os detetores, reescrevendo o texto gerado pela IA para parecer mais humano
  • Privacidade: Enviar textos de estudantes para ferramentas pode implicar a partilha de dados pessoais. Se o texto tiver dados pessoais, remover antes de analisar numa ferramenta de deteção

Conclusão

Detetar o uso da IA em textos é hoje um exercício de triangulação entre tecnologia, leitura crítica e diálogo pedagógico. Combinar ferramentas, evidências qualitativas e avaliações autênticas continua a ser a defesa mais fiável.

É importante termos em consideração que existem cada vez mais técnicas e ferramentas para contornar os detetores de IA em textos, nomeadamente os académicos e escolares. No entanto, uma avaliação oral, como uma apresentação em aula, é mais do que suficiente para perceber se o aluno usou a IA para o ajudar a criar o seu trabalho e com ele aprender, ou se usou a IA somente para fazer algo que o professor pediu, mas que pouco aprendeu.

No entanto, mais importante do que andar a correr atrás dos textos gerados por Inteligência Artificial, o mais importante parece ser encontrar formas e novas didáticas em aula para o uso destas tecnologias.

📌 Continue a aprender no Portal IA Hoje

Fontes

  1. Mitchell et al. (2023) — DetectGPT: Zero-Shot Machine-Generated Text Detectionhttps://arxiv.org/abs/2301.11305
  2. OpenAI (20 Jul 2023) — New AI classifier for indicating AI-written text (retirado)https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/
  3. Stanford HAI (15 Mai 2023) — AI-Detectors Biased Against Non-Native English Writershttps://hai.stanford.edu/news/ai-detectors-biased-against-non-native-english-writers
  4. Bloomberg (18 Out 2024) — Do AI Detectors Work? Students Face False Cheating Accusationshttps://www.bloomberg.com/news/features/2024-10-18/do-ai-detectors-work-students-face-false-cheating-accusations
  5. Parlamento Europeu (12 Jul 2024) — Artificial Intelligence Act: Regras de transparência em conteúdos gerados por IAhttps://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ%3AL_202401689