Como Detetar Textos Gerados por IA
Guia completo com métodos, ferramentas e estratégias para educadores em 2025
- Como funcionam os principais detetores de IA e os seus limites
- Quais as ferramentas de referência em 2025
- Estratégias práticas para professores confirmarem autoria
- Sinais linguísticos típicos de textos gerados por IA
Porque é importante aprender a detetar textos gerados por IA?
O uso crescente dos modelos de linguagem, vulgo ChatGPT e outros, aumentou o risco de submissões de trabalhos não-autênticos. Por isso, é importante compreender e aprender como detetar o uso da inteligência artificial num texto.
Como funcionam os detetores de IA em textos escolares
Se quiser primeiro uma introdução simples ao tema, leia também este artigo sobre o que são detetores de IA .
🎯 1. Perplexidade e Burstiness
Os modelos de linguagem, como o GPT, produzem textos com padrões específicos que podem ser analisados através de duas métricas principais:
- Perplexidade: Mede o grau de previsibilidade do texto. Se um modelo gerar um texto que parece muito "perfeito" ou estruturado, a perplexidade tende a ser baixa, indicando alta previsibilidade.
- Burstiness: Avalia a variação do comprimento e da complexidade das frases. Textos humanos tendem a ter mais variação (alternando entre frases longas e curtas), enquanto textos gerados por IA costumam ser mais uniformes.
Um ensaio escrito por um aluno pode ter frases longas seguidas de frases curtas e mais informais. Um texto gerado por IA, por outro lado, pode apresentar frases de tamanho semelhante e com estrutura gramatical muito correta.
Texto humano: "Ontem estive na praia da Rocha e escrevi um pequeno resumo, mas acabei por apagar quase tudo porque não estava a soar natural."
Texto IA: "A Praia da Rocha é uma zona costeira localizada em Portimão, conhecida pelas suas areias douradas e pela forte afluência turística ao longo de todo o ano."
🤖 2. Classificadores de IA
Os classificadores são modelos de machine learning treinados especificamente para distinguir textos humanos de textos gerados por IA.
- São treinados com grandes quantidades de textos humanos e de IA
- Utilizam técnicas de processamento de linguagem natural (NLP) para identificar padrões
- Atribuem uma pontuação que indica a probabilidade do texto ser gerado por IA
⚠️ Limitações:
- Alta taxa de falsos positivos quando os textos humanos são excessivamente formais ou técnicos
- Falhas em reconhecer textos editados manualmente depois de serem gerados por IA
📈 3. Curvatura de Probabilidade
Esta abordagem inovadora mede se o texto ocupa zonas de baixa curvatura no espaço de probabilidade de um modelo de linguagem.
- Um LLM (Modelo de Linguagem de Grande Escala) gera diversos textos semelhantes ao texto-alvo
- O detetor compara a curvatura probabilística desses textos
- Se o texto-alvo estiver numa região de baixa curvatura, é provável que tenha sido gerado por IA, já que os modelos tendem a criar textos previsíveis
✅ Vantagens:
- Não requer treino específico para diferentes modelos de IA (é um método zero-shot)
- Bom desempenho mesmo com textos curtos
⚠️ Limitação:
- Complexidade computacional elevada — geralmente precisa de GPU para processamento eficiente
🔐 4. Watermarking Estatístico
Algumas gerações de IA podem conter marcas estatísticas inseridas propositadamente pelos seus programadores.
- O modelo de linguagem insere padrões ocultos no texto, como combinações específicas de palavras ou estruturas gramaticais
- O detetor procura essas marcas, que são praticamente invisíveis para os leitores humanos
A OpenAI desenvolveu um protótipo que consegue marcar cada texto com uma assinatura única, permitindo que os próprios programadores identifiquem a autoria.
⚠️ Limitações:
- Apenas funciona se o texto for gerado por um modelo que utiliza esta técnica
- Ainda não é amplamente implementado nas ferramentas públicas
Ferramentas de referência em 2025
Ferramenta | Abrangência | Pontos fortes | Limitações | Site oficial |
---|---|---|---|---|
Turnitin AI Detection | EN, PT, ES + 14 línguas | Integrado no fluxo antiplágio | Necessita ≥ 300 palavras; falsos-positivos ainda existem | Turnitin |
GPTZero | EN; modo "Deep" para outros idiomas | Interface simples; API gratuita para educadores | Falsos-positivos 1–2% em testes independentes | GPTZero |
Copyleaks AI Detector | 30+ idiomas; PDF/DOCX | Relatórios detalhados; prova digital | Versão completa é paga; sensível a parafraseamento | Copyleaks |
Porque é que os detetores falham às vezes?
- Falsos Positivos: Quando os textos humanos são demasiado bem estruturados ou seguem um estilo muito formal
- Falsos Negativos: Textos gerados pela IA que foram editados manualmente para parecerem mais humanos
- Viés Linguístico: Alguns modelos estão treinados principalmente para o inglês e podem falhar em português ou outros idiomas
Fluxo de trabalho recomendado para docentes
Aplicar pelo menos dois detetores independentes e guardar os relatórios como prova
Procurar factos genéricos ou desatualizados e comparar o trabalho do aluno com trabalhos anteriores. Um aluno que tem dificuldades em criar um texto em aula mas apresenta um trabalho excecionalmente bem escrito torna-se suspeito
Solicitar rascunhos ou prova oral sobre o conteúdo
Combinar resultados quantitativos e qualitativos, e envolver o Conselho de Turma em caso de dúvida
- Testar o texto em pelo menos 2 detetores
- Comparar com trabalhos anteriores do aluno
- Pedir explicação oral ou rascunho
- Guardar relatórios e notas de análise
Sinais linguísticos de alerta
Estes sinais não são prova isolada. O professor ou formador deve sempre cruzar factos para suportar a sua conclusão.
Estratégias para aumentar a fiabilidade
- Utilizar diferentes ferramentas de deteção para obter uma análise mais completa
- Combinar métodos automáticos com avaliação humana, especialmente em contextos académicos
- Analisar o contexto: verificar versões anteriores do texto e realizar provas orais para confirmar autoria
Limitações éticas e técnicas
- Viés linguístico: Os detetores treinados em inglês falham mais com textos em outras línguas
- Ferramentas "Humanizadoras": Existem ferramentas parafraseadoras que conseguem contornar os detetores, reescrevendo o texto gerado pela IA para parecer mais humano
- Privacidade: Enviar textos de estudantes para ferramentas pode implicar a partilha de dados pessoais. Se o texto tiver dados pessoais, remover antes de analisar numa ferramenta de deteção
Conclusão
Detetar o uso da IA em textos é hoje um exercício de triangulação entre tecnologia, leitura crítica e diálogo pedagógico. Combinar ferramentas, evidências qualitativas e avaliações autênticas continua a ser a defesa mais fiável.
É importante termos em consideração que existem cada vez mais técnicas e ferramentas para contornar os detetores de IA em textos, nomeadamente os académicos e escolares. No entanto, uma avaliação oral, como uma apresentação em aula, é mais do que suficiente para perceber se o aluno usou a IA para o ajudar a criar o seu trabalho e com ele aprender, ou se usou a IA somente para fazer algo que o professor pediu, mas que pouco aprendeu.
No entanto, mais importante do que andar a correr atrás dos textos gerados por Inteligência Artificial, o mais importante parece ser encontrar formas e novas didáticas em aula para o uso destas tecnologias.
📌 Continue a aprender no Portal IA Hoje
Fontes
- Mitchell et al. (2023) — DetectGPT: Zero-Shot Machine-Generated Text Detection → https://arxiv.org/abs/2301.11305
- OpenAI (20 Jul 2023) — New AI classifier for indicating AI-written text (retirado) → https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/
- Stanford HAI (15 Mai 2023) — AI-Detectors Biased Against Non-Native English Writers → https://hai.stanford.edu/news/ai-detectors-biased-against-non-native-english-writers
- Bloomberg (18 Out 2024) — Do AI Detectors Work? Students Face False Cheating Accusations → https://www.bloomberg.com/news/features/2024-10-18/do-ai-detectors-work-students-face-false-cheating-accusations
- Parlamento Europeu (12 Jul 2024) — Artificial Intelligence Act: Regras de transparência em conteúdos gerados por IA → https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ%3AL_202401689