- Carlos Martínez Rojas
- 229 Vistas
Introducción
Un reciente estudio realizado por la BBC en colaboración con expertos en alfabetización digital y universidades británicas encendió las alarmas: el 45 % de las respuestas generadas por los principales modelos de inteligencia artificial (IA) contenían errores de hecho, omisiones o interpretaciones incorrectas.
El análisis abarcó más de 1 000 consultas a herramientas como ChatGPT, Gemini, Claude y Copilot, cubriendo temas de salud, política, historia, educación y cultura general. Los resultados revelan que, aunque las IA generativas mejoraron en fluidez y gramática, aún presentan un sesgo de confianza excesiva —una tendencia a entregar respuestas erróneas con tono seguro—.
Este hallazgo tiene implicaciones directas en la educación, el periodismo, el trabajo remoto y la confianza del público en la IA.
Contexto histórico
La BBC ya había abordado la fiabilidad de los sistemas de IA en informes previos sobre “hallucinations” o alucinaciones de los modelos de lenguaje: situaciones en las que la IA genera información inventada pero presentada con aparente veracidad.
Desde el lanzamiento de ChatGPT a fines de 2022, el ecosistema de IA ha crecido exponencialmente. Sin embargo, la verificación de hechos y la trazabilidad de fuentes siguen siendo un desafío. Según la BBC, los chatbots suelen basarse en patrones estadísticos y no en bases de datos verificadas, lo que explica la persistencia de errores incluso en temas ampliamente documentados.
En este nuevo estudio (BBC News Tech, octubre 2025), el equipo evaluó respuestas a preguntas de cultura general, noticias recientes, cálculos matemáticos, y traducciones idiomáticas. El criterio fue la exactitud fáctica y contextual, usando verificadores humanos y fuentes académicas contrastadas.
Análisis experto

Resultados clave del informe
- 45 % de error global: casi la mitad de las respuestas contenían al menos una afirmación incorrecta.
- Mayor precisión en matemáticas básicas (80 %), pero baja en temas de salud, derecho y política (por debajo del 60 %).
- El 70 % de las respuestas erróneas fueron entregadas con tono “altamente confiado”, sin advertencias sobre posibles inexactitudes.
- ChatGPT 4 y Claude 3 Opus fueron los que obtuvieron mayor precisión media, mientras que Gemini 1.5 y Copilot presentaron más inconsistencias en hechos actuales.
- El error más común: fechas y atribuciones incorrectas, seguido de inventar estudios o citas.
¿Por qué ocurre?
Los modelos de IA generativa no razonan como humanos: predicen la próxima palabra más probable según patrones en su entrenamiento. Sin un mecanismo interno de verificación, pueden crear combinaciones plausibles pero falsas.
Además:
- La falta de actualización constante de algunos modelos provoca desfasajes informativos.
- Los datos sesgados o no balanceados refuerzan errores.
- Las preguntas ambiguas o mal redactadas inducen interpretaciones erróneas.
Impacto por sectores
- Educación: docentes y universidades enfrentan el reto de enseñar verificación de fuentes digitales.
- Periodismo: la IA puede asistir en redacción, pero no sustituir la comprobación humana.
- Empresas y marketing: errores en informes automáticos pueden dañar reputación o decisiones estratégicas.
- Salud y derecho: el riesgo ético y legal de información falsa es elevado.
Oportunidades y respuesta de la industria
El informe de la BBC destaca que algunas empresas de IA ya trabajan en “modelos de veracidad”: sistemas secundarios que verifican las respuestas principales con bases de datos verificadas (ej. Wikidata, PubMed o Reuters Fact Check).
OpenAI, Anthropic y Google declararon públicamente que están incorporando etiquetas de confianza, referencias de fuente y mecanismos de autocorrección, aunque todavía en fase experimental.
Datos y fuentes
- BBC News Technology, “AI tools give wrong answers in nearly half of queries, study finds” (octubre 2025).
- The Guardian Tech – “BBC study warns of AI misinformation risk in everyday use.”
- Reuters Technology – “Fact-checking AI remains unsolved challenge, analysts say.”
- Declaraciones de OpenAI, Google DeepMind y Anthropic (foros AI Safety Summit 2025).

Consideraciones éticas y legales
- Responsabilidad compartida: las empresas deben advertir a los usuarios sobre el margen de error de sus sistemas.
- Transparencia algorítmica: los modelos deben ofrecer trazabilidad y referencias de sus respuestas.
- Educación digital: gobiernos y escuelas necesitan programas de alfabetización mediática en IA.
- Regulación: organismos europeos y británicos discuten estándares de veracidad para sistemas de IA generativa.
Video recomendado: Estudio BBC y errores de asistentes de IA
Cierre y conclusión
El estudio de la BBC confirma algo que muchos expertos sospechaban: la IA actual no es una fuente infalible de conocimiento, sino un asistente estadístico que necesita supervisión humana.
La clave está en el uso responsable: verificar, contrastar y complementar la IA con juicio crítico.
Para el ecosistema tecnológico, este informe es una señal de madurez: la precisión, no solo la creatividad, será el diferencial competitivo de la próxima generación de modelos.
Preguntas frecuentes sobre el estudio de la BBC y los errores en respuestas de IA
1) ¿Qué porcentaje de errores detectó la BBC en las respuestas de IA?
El estudio encontró que el 45 % de las respuestas presentaban datos falsos o inexactos.
2) ¿Qué herramientas fueron evaluadas?
ChatGPT, Gemini, Claude y Copilot, entre otras, en más de 1 000 consultas multitemáticas.
3) ¿Qué tipo de errores son más comunes?
Fechas incorrectas, citas inventadas y atribuciones erróneas, especialmente en temas de salud y política.
4) ¿Qué pueden hacer los usuarios para evitar caer en estos errores?
Verificar siempre la información, usar fuentes oficiales y aprovechar las funciones de referencia o cita de los modelos más nuevos.
5) ¿Las empresas están haciendo algo para corregir esto?
Sí. Varias desarrollan mecanismos de verificación automática de hechos y etiquetado de confianza, aunque aún son experimentales.

