Alucinação de Citações por IA: O Que É, Por Que Acontece e Como Prevenir
Ferramentas de IA geram referências acadêmicas falsas que parecem reais. Este guia explica os três tipos de alucinação de citações, como detectá-las e um fluxo de trabalho prático de prevenção.
Quando um modelo de linguagem grande gera uma citação, ele não consulta um banco de dados. Ele prevê como uma citação deve ser com base em padrões em seus dados de treinamento. O resultado é um texto que segue convenções de formatação perfeitas — um nome de autor plausível, um título de periódico real, um DOI estruturado corretamente — anexado a um artigo que não existe.
Isso é alucinação de citação, e é o risco de integridade que mais cresce na escrita acadêmica hoje.
O Que É Alucinação de Citação?
A alucinação de citação ocorre quando uma ferramenta de IA gera uma referência que parece legítima, mas não corresponde a nenhum trabalho publicado real. O termo "alucinação" vem da comunidade de pesquisa de IA mais ampla, onde descreve qualquer saída que seja fluente e confiante, mas factualmente errada.
No contexto de referências acadêmicas, a alucinação é particularmente perigosa porque a saída imita de perto o formato e as convenções de citações reais. Um leitor humano — mesmo um pesquisador experiente — pode olhar para uma citação alucinada e não ver nada de errado à primeira vista.
Os Três Tipos de Citações Alucinadas
Nem todas as citações falsas são criadas iguais. Compreender as variações ajuda você a saber o que procurar e quais métodos de detecção funcionam para cada tipo.
Tipo 1: Referências totalmente fabricadas
A citação inteira é inventada — título, autores, periódico, ano e DOI. Nenhum dos componentes corresponde a uma publicação real. Este é o tipo mais fácil de detectar: uma busca no CrossRef, PubMed ou Google Scholar retorna zero resultados.
Exemplo: "Zhang, W., & Roberts, T. (2024). Adaptive neural frameworks for multilingual sentiment analysis. Journal of Computational Linguistics, 48(3), 112-128."
Isso parece perfeito. Mas nenhum artigo com este título existe. O periódico existe, mas o volume 48, fascículo 3, não contém este artigo. Os autores são pesquisadores reais, mas nunca coautoriaaram nada.
Tipo 2: Referências quimera
A IA combina elementos reais de diferentes artigos em uma única citação fictícia. O nome do autor é real e publica no periódico citado. O periódico e o volume são reais. Mas o artigo específico — aquele autor, aquele título, aquele fascículo — não existe.
Este tipo é perigoso porque a verificação parcial é bem-sucedida. Você pode confirmar que o autor é real. Você pode confirmar que o periódico é real. Você pode até encontrar o autor que publicou naquele periódico. Mas o artigo específico é ficção.
Tipo 3: Referências distorcidas
Um artigo real existe, mas a IA erra um ou mais detalhes — o ano de publicação está errado por um, o nome de um coautor está incorreto ou o DOI tem um dígito transposto. A referência quase corresponde a uma publicação real, tornando-a o tipo mais difícil de detectar sem verificação sistemática.
Por Que as Ferramentas de IA Alucinam Citações
Modelos de linguagem grandes não possuem um banco de dados de artigos. Eles não "consultam" nada. Eles geram o próximo token em uma sequência com base em padrões estatísticos.
Quando você pede uma citação sobre um tópico, o modelo gera um texto que corresponde ao padrão de "citação sobre [tópico]". Ele se baseia em:
- Nomes de autores que frequentemente aparecem nos dados de treinamento relacionados a esse tópico
- Títulos de periódicos que estão associados ao campo
- Anos que se enquadram em um intervalo plausível
- Formatos de DOI que seguem a estrutura padrão de prefixo/sufixo
Cada elemento é estatisticamente plausível. Mas como cada um é gerado independentemente, a combinação é frequentemente fictícia.
Isso é fundamentalmente diferente de um mecanismo de busca retornando resultados errados. Um mecanismo de busca recupera documentos reais e pode classificá-los incorretamente. Um LLM gera documentos que nunca existiram.
Quão Comum É o Problema?
Os estudos variam, mas o consenso é alarmante:
- O GPT-4 gera citações fabricadas em aproximadamente 25-35% dos casos quando solicitado a fornecer referências acadêmicas sem ferramentas de recuperação explícitas
- Modelos com geração aumentada por recuperação (RAG) reduzem, mas não eliminam o problema — estimado em 5-15% de taxas de fabricação, dependendo do domínio
- As áreas médica e jurídica apresentam taxas de alucinação mais altas porque os formatos de citação são mais padronizados, tornando a fabricação mais difícil de distinguir da realidade
As taxas são mais altas para tópicos obscuros (onde o modelo tem menos dados de treinamento) e mais baixas para artigos bem conhecidos (onde o modelo viu a citação real muitas vezes).
Como Detectar Citações Alucinadas
Método 1: Verificação de DOI
Copie o DOI e resolva-o em doi.org. Se você receber um erro de "DOI não encontrado", a citação é fabricada ou o DOI tem um erro. Isso detecta alucinações do Tipo 1 de forma confiável.
Limitação: Não detecta o Tipo 2 ou Tipo 3, onde o DOI pode estar próximo de um real ou onde nenhum DOI é fornecido.
Método 2: Busca por título
Pesquise o título exato do artigo (entre aspas) no Google Scholar, CrossRef ou Semantic Scholar. Zero resultados sugerem fortemente a fabricação.
Limitação: Alguns artigos reais não são indexados em todos os lugares, especialmente artigos de conferência, working papers e artigos de periódicos não ingleses.
Método 3: Verificação automatizada em lote
Cole sua lista completa de referências no Citation Checker da Citely. A ferramenta analisa cada referência, consulta o CrossRef e outros bancos de dados, e compara os metadados campo por campo.

Este é o método mais eficiente para verificar uma bibliografia inteira. Ele detecta todos os três tipos de alucinação verificando a citação completa — não apenas o DOI ou o título isoladamente, mas a combinação de autor, título, periódico, ano e DOI juntos.
Método 4: Lista de publicações do autor
Procure o primeiro autor no Google Scholar ou ORCID. Verifique se o artigo específico aparece em sua lista de publicações. Isso detecta referências quimera do Tipo 2, onde o autor é real, mas o artigo não.
Um Fluxo de Trabalho de Prevenção
A melhor abordagem é evitar que citações alucinadas entrem em seu manuscrito em primeiro lugar:
-
Nunca use citações geradas por IA sem verificação. Trate cada referência sugerida por IA como não verificada até que você confirme sua existência.
-
Use IA para descoberta, não para citação. Não há problema em perguntar a uma IA "quais são os artigos-chave sobre [tópico]?" — mas então procure esses artigos você mesmo no Google Scholar ou no banco de dados da sua biblioteca. Use as sugestões da IA como termos de busca, não como citações.
-
Verifique no final, não à medida que avança. É mais eficiente escrever seu manuscrito inteiro e depois verificar todas as referências em lote de uma vez, em vez de verificar cada citação à medida que a adiciona.
-
Sinalize seções assistidas por IA. Se você usou IA para ajudar a redigir qualquer seção, marque essas referências para escrutínio extra. As seções onde a IA contribuiu são as seções mais propensas a conter citações alucinadas.
-
Use uma ferramenta de verificação dedicada antes da submissão. Execute sua lista completa de referências por um verificador automatizado como uma etapa final de pré-submissão.
Principais Conclusões
- A alucinação de citação ocorre quando a IA gera referências que parecem reais, mas correspondem a artigos que não existem — afeta 25-35% das citações geradas por IA
- Existem três tipos: totalmente fabricadas (mais fácil de detectar), referências quimera combinando elementos reais (perigosas porque verificações parciais passam) e citações distorcidas com pequenos erros (mais difíceis de detectar)
- LLMs não recuperam citações de bancos de dados — eles geram texto estatisticamente plausível, razão pela qual cada componente de uma citação falsa pode parecer correto, enquanto a combinação é fictícia
- A verificação de DOI detecta as falsificações mais óbvias, mas apenas a verificação automatizada em lote detecta de forma confiável todos os três tipos, comparando a citação completa com os registros do banco de dados
- A prevenção é mais eficaz do que a detecção: use IA para descoberta de literatura e, em seguida, verifique cada referência sugerida independentemente antes de incluí-la em seu manuscrito
Verifique suas referências → citely.ai/citation-checker