Hallucinations of Large Language Models and the Importance of Human Oversight in the Legal Field. Recommendations for Use Based on the "Roberto Mata v. Avianca Airlines Inc." Case
DOI:
https://doi.org/10.30972/rcd.428685Keywords:
Generative Artificial Intelligence, professional ethics, case studyAbstract
This article explores the phenomenon of hallucinations generated by large language models and their potential impact on the legal field. Through the analysis of the case Roberto Mata v. Avianca Airlines Inc., in which a hallucination produced by ChatGPT was introduced into a judicial proceeding, the article argues for the necessity of human oversight to ensure the beneficial use of these tools. As a corollary, it proposes guidelines to prevent the inclusion of LLM-generated hallucinations in legal documents.
References
Referencias bibliográficas
Amaya, J. (2015). Control de constitucionalidad. (2.ª ed.). Astrea.
Bisen, V. (2020). What is human in the loop machine learning: Why & how used in AI? Medium. https://medium.com/vsinghbisen/what-is-human-in-the-loop-machine-learning-why-how-used-in-ai-60c7b44eb2c0
Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., vonArx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J. Q., Demszky, D., ... Liang, P. (2022). On the Opportunities and Risks of Foundation Models. Center for Research on Foundation Models. [Preprint] arXiv. https://doi.org/10.48550/arXiv.2108.07258
Chumbita, S. (2023). Legal prompt engineering Una nueva habilidad para la era de la Inteligencia Artificial conversacional multimodal y multipropósito. Revista La Ley, 2023-C.
Cobbe, J., Veale, M., & Singh, J. (2023, junio 12–15). Understanding accountability in algorithmic supply chains. Conference on Fairness, Accountability, and Transparency. Association for Computing Machinery. https://doi.org/10.1145/3593013.3593980
Cohen, I., Babic, B., Gerke, S., Xia, Q., Evgeniou, T., & Wertenbroch, K. (2023). How AI can learn from the law: Putting humans in the loop only on appeal. npj Digital Medicine, 6, 160. https://doi.org/10.1038/s41746-023-00906-8
Coney Barrett, A. (2013).Precedent and jurisprudential disagreement. Texas Law Review, 91,1711-1738. https://scholarship.law.nd.edu/law_faculty_scholarship/293
Consejo de Europa. (2024). Convenio Marco sobre Inteligencia Artificial, los Derechos Humanos, la Democracia y el Estado de Derecho. CETS n.º 225. https://rm.coe.int/1680afae3c
Corvalán, J., & Caparrós, M. (2023). Guía de directrices para el uso de ChatGPT e IA generativa de texto en la Justicia. La Ley. https://ialab.com.ar/wp-content/uploads/2023/11/Guia-de-directrices-usos-de-ChatGPT-e-IA-generativa-en-la-justicia.pdf
Corvalán, J., Estévez E., Le Fevre C., Enzo M., Schapira, D., & Simari, G. (2023) ChatGPT vs. GPT4: ¿Imperfecto por diseño?: explorando los límites de la inteligencia artificial conversacional. La Ley.
Corvalán J. y Carro M., (2023) Mas allá del juego de la imitación: las principales limitaciones de la inteligencia artificial. En Corvalán J., Tratado de Inteligencia Artificial y Derecho, (2da ed., t. I). La Ley.
Edwards, B. (2023, 4 de junio). Why ChatGPT and Bing Chat are so good at making things up. Ars Technica. https://arstechnica.com/information-technology/2023/04/why-ai-chatbots-are-the-ultimate-bs-machines-and-how-people-hope-to-fix-them/
García Sánchez, M. (2023) El abordaje de ChatGPT: el “Rinoceronte Gris” de la IA conversacional. Ius et scientia, 9 (1).
https://dx.doi.org/10.12795/IETSCIENTIA
Ghosh, B. (2023, 11 de noviembre). Tackling Hallucinations in LLMs. Medium. https://medium.com/@bijit211987/tackling-hallucinations-in-llms-f2d7cbf35e72
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y., Chen, D., Chan, H. S., Dai, W., Madotto, A., & Fung, P. (2023). Survey of hallucination in natural language generation. arXiv. https://doi.org/10.1145/3571730
Kaplan, J., McCandlish, S., Henighan, T., Brown, T., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020) Scaling Laws for Neural Language Models. arXiv. https://doi.org/10.48550/arXiv.2001.08361
Lee, A. (2023, 29 de marzo). ¿Para qué se Utilizan los Grandes Modelos de Lenguaje? NVIDIA Latinoamérica. https://la.blogs.nvidia.com/2023/03/29/para-que-se-utilizan-los-grandes-modelos-de-lenguaje/#:~:text=Un%20grande%20modelo%20de%20lenguaje,de%20conjuntos%20de%20datos%20masivos
Levitina, A. (2024). Los seres humanos en la toma de decisiones automatizada en el marco del RGPD y la Ley de IA. Revista CIDOB d’Afers Internacionals, 138(3), 121-138. https://doi.org/10.24241/rcai.2024.138.3.121
Manakul, P., Liusie, A., & Gales, M. J. F. (2023). SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. University of Cambridge - ALTA Institute. https://doi.org/10.48550/arXiv.2303.08896
Merritt, R. (2022, 19 de abril). ¿Qué es un Modelo Transformer? NVIDIA Latinoamérica. https://la.blogs.nvidia.com/2022/04/19/que-es-un-modelo-transformer/
Mishra, A. N. (2023, 22 de octubre). Hallucination in Large Language Models. Medium Recuperado de https://medium.com/@asheshnathmishra/hallucination-in-large-language-models-2023-f7b4e77855ae
Novelli, C., Casolari, F., Hacker, P., Spedicato, G., & Floridi, L. (2024, marzo 15). Generative AI in EU law: Liability, privacy, intellectual property, and cybersecurity (Working Paper). arXiv. https://arxiv.org/abs/2401.07348
OpenAI (s.f.-a). Text generation models. Recuperado el 1 de abril de 2024 de https://platform.OpenAI.com/docs/guides/text-generation
OpenAI (s.f.-b). Does ChatGPT tell the truth? Recuperado el 1 de abril de 2024 de https://help.OpenAI.com/en/articles/8313428-does-chatgpt-tell-the-truth
OpenAI (s.f.-c). What is ChatGPT. Recuperado el 1 de abril de 2024 de https://help.OpenAI.com/en/articles/6783457-what-is-chatgpt
OpenAI (2024-d) GPT-4 Technical Report (v6). https://doi.org/10.48550/arXiv.2303.08774
OpenAI (s.f.-e). Introducing ChatGPT. Recuperado el 1 de abril de 2024 de https://OpenAI.com/blog/chatgpt
OpenAI (2024 -f). Terms of use. https://openai.com/es/policies/terms-of-use
OpenAI (s.f-g). Prompt engineering. Recuperado el 1 de abril de 2024 de https://platform.OpenAI.com/docs/guides/prompt-engineering
Ortiz de Zarate, J., Dias J., Avenburg A., González Quiroga J. (2024, 25 de marzo). Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM). Fundar. https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/
Peñalva G.(2021). Lo difícil de los casos difíciles. Anales de la Facultad de Ciencias Jurídicas y Sociales, 18(51), 785–812. https://doi.org/10.24215/25916386e103
Russell, S., & Norvig, P. (2004). Inteligencia artificial: Un enfoque moderno (2.ª ed.). Pearson.
Ryan Mosley, T. (2024, 23 de enero). Vuelta al mundo por las regulaciones de la IA en 2024. Mit Technology Review. https://www.technologyreview.es//s/16069/vuelta-al-mundo-por-las-regulaciones-de-la-ia-en-2024
Spinak, E. (2023, 20 de diciembre). ¿Es que la Inteligencia Artificial tiene alucinaciones? Blog SciELO. https://blog.scielo.org/es/2023/12/20/es-que-la-inteligencia-artificial-tiene-alucinaciones/
UNESCO (s.f.). Ética de la inteligencia artificial. Recuperado el 7 de abril de 2024 https://www.unesco.org/es/artificial-intelligence/recommendation-ethics
Unión Europea (2024). Ley de IA. Configurar el futuro digital de Europa. Recuperado el 17 de marzo de 2024. https://digital-strategy.ec.europa.eu/es/policies/regulatory-framework-ai
San Juan, E. (2024, 6 de enero). Alucinaciones en IA, qué son y cómo detectarlas. Community.es.https://community.es/cursos/alucinaciones-en-ia-que-son-y-como-detectarlas/?trk=article-ssr-frontend-pulse_little-text-block
Secretaría General del Comité Técnico Estatal de la Administración Judicial (CTEAJE). (2024, junio). Política de uso de la inteligencia artificial en la administración de justicia. CTEAJE.
Torres Zárate, F. y García Martínez, F. (2008). Common law: una reflexión comparativa entre el sistema inglés y el sistema estadounidense. Revista Alegatos, (68-69). 71-100. https://alegatos.azc.uam.mx/index.php/ra/article/view/446
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. En 31st Conference on Neural Information Processing Systems. arXiv. [Preprint]. https://doi.org/10.48550/arXiv.1706.03762
Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models. [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2206.07682
Weiser, B. (2023, May 27). Here’s What Happens When Your Lawyer Uses ChatGPT. The New York Times. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html
Resoluciones judiciales
Tribunal del Distrito Sur de Nueva York. (2023, junio 22). Mata v. Avianca, Inc., Opinión y orden (Doc. 55).
Tribunal del Distrito Sur de Nueva York. (2023, junio 22). Mata v. Avianca, Inc., Opinión y orden de sanciones (Doc. 54).
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Darío Saúl Navarro

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

52.jpg)





