Тестування сервісу штучного інтелекту deepai.org на здатність дотримуватися правил формальної логіки

автори: В. Д. Піхорович, А. Ю. Самарський

Актуальність теми дослідження. Швидкий прогрес інформаційних технологій протягом останніх десятиліть істотно вплинув на багато аспектів суспільства. Особливу увагу привертає поширення використання штучного інтелекту (ШІ). Він стає все більш актуальним і широко застосовується в різних сферах науки, освіти і техніки. Це ставить перед філософами завдання провести ґрунтовні дослідження ШІ та розробити пропозиції стосовно його використання.

Постановка проблеми. Одним з ключових питань, яке виникає при розгляді можливостей ШІ, є його здатність дотримуватися правил формальної логіки. Формальна логіка є основою раціонального мислення і використовується для формалізації процесів мислення та доведення правил та законів. Тому, важливо перевірити, наскільки ШІ може виконувати завдання, які вимагають логічного мислення.

Аналіз останніх досліджень і публікацій. Дослідження великих мовних моделей штучного інтелекту (LLM) на дотримання ними правил формальної логіки проводилися колективами вчених під керівництвом: Р. Нішантома, Й. Вана, М. Амірізаніані, T. Лью, Х. Чі. Роботи С. Ванга демонструють, що оволодіння основними правилами умовиводів ШІ все ще не відповідає людським можливостям та пропонують підходи для перевірки та підвищення логічних навиків ШІ. Е. Ларсон, показує, чому ШІ не може розуміти тексти, проте він спеціально не досліджує дотримання ШІ правил формальної логіки. Б. Лін досліджує використання математичних методів для підвищення точності ШІ. Дослідження показують, що ШІ може бути навченим дотримуватися правил формальної логіки, але цей процес може вимагати значних зусиль та ресурсів.

Постановка завдання. Завдання статті полягає в тестування сервісу штучного інтелекту https://deepai.org/chat на здатність дотримуватися правил формальної логіки, а саме розв’язувати задачі на modus ponens і modus tollens. Розуміння цього аспекту дозволить краще зрозуміти можливості мовних ШІ і допоможе їх користувачам отримувати більш адекватні результати.

Виклад основного матеріалу. Стаття присвячена аналізу логічних умовиводів, зокрема правил modus ponens і modus tollens у контексті взаємодії з штучним інтелектом (ШІ). Розглядається два приклади. У першому випадку з двох засновків (“Якщо на вулиці йде дощ, то асфальт мокрий” і “Асфальт на вулиці мокрий”) ШІ робить неправильний висновок, стверджуючи, що “на вулиці йде дощ”, попри те, що це не є коректним застосуванням modus ponens. Автори підкреслюють, що навіть здоровий глузд вказує на те, що асфальт може бути мокрим з інших причин. У другому прикладі, що стосується modus tollens, ШІ отримує ще один неправильний висновок. Знову ведеться мова про те, що коректний висновок може бути зроблений лише за правильними схемами логічного мислення. Хоча в окремих випадках ШІ досягав успіху в логічних задачах, автор вважає це випадковістю, а не підтвердженням здатності до логічного мислення. Тестування на виявлення помилок у висновках показує, що навіть коли ШІ формулює висновки неправильно, він може вказати на необхідність додаткової інформації для коректного висновку. Таким чином, стаття підкреслює обмеженість сучасних моделей ШІ в розумінні логіки і необхідність критичної думки з боку користувача при роботі з ними.

Висновки. Для вирішення проблеми логічних помилок у текстах, згенерованих штучним інтелектом (ШІ), пропонується об'єднати зусилля фахівців з логіки та ШІ. Важливо розробити програми, які автоматично перевірятимуть відповідність створених текстів схемам modus ponens і modus tollens. Схеми цих умовиводів можуть бути сформульовані у вигляді математичних моделей, що полегшує виявлення помилок. Необхідно навчити ШІ ідентифікувати антецедент і консеквент в умовних судженнях. Важливо також навчати студентів основ формальної логіки та залучати фахівців-філологів для розробки інструментів контролю. З огляду на складність і відмінності мов, міждисциплінарний підхід буде вирішальним для успіху таких проектів.

Ключові слова: штучний інтелект, формальна логіка, мислення, мовні моделі, LLM, deepai.org/chat, modus ponens, modus tollens.

References:

1. Amirizaniani, M, Martin E, Sivachenko, M, Mashhadi, A & Shah, C 2024, ‘Can LLMs reason like humans? Assessing theory of mind reasoning in LLMs for open-ended questions’, in Proceedings of the 33rd ACM International Conference on Information and Knowledge Management, pp. 34-44.

2. Chi, H, Li, H, Yang, W, Liu, F, Lan, L, Ren, X & Han, B 2024, ‘Unveiling causal reasoning in large language models: reality or mirage?’, in The Thirty-eighth Annual Conference on Neural Information Processing Systems. Available from : <https://openreview.net/pdf?id=1IU3P8VDbn>. [5 January 2025].

3. Larson, EJ 2021, The Myth of Artificial Intelligence: Why Computers Can’t Think the Way We Do. Cambridge, MA: Harvard University Press.

4. Lin, В 2025, ‘Why Amazon is betting on ‘automated reasoning’ to reduce AI’s hallucinations’, The Wall Street Journal, 5 February. Available from : <https://www.wsj.com/articles/why-amazon-is-betting-on-automated-reasoning-to-reduce-ais-hallucinations-b838849e>. [7 January 2025].

5. Liu, T, Xu, W, Huang, W, Wang, X, Wang, J, Yang, H & Li, J 2024, ‘Logic-of-thought: injecting logic into contexts for full reasoning in large language models’, arXiv preprint arXiv:2409.17539. Available from : <https://doi.org/10.48550/arXiv.2409.17539>. [2 January 2025].

6. Nishant, R, Schneckenberg, D & Ravishankar, MN 2024, ‘The formal rationality of artificial intelligence-based algorithms and the problem of bias’, Journal of Information Technology, 39(1), pp. 19–40. Available from : <https://doi.org/10.1177/026839622311768>. [6 January 2025].

7. Wan, Y, Wang, W, Yang, Y, Yuan, Y, Huang, JT, He, P & Lyu, M 2024, ‘LogicAsker: evaluating and improving the logical reasoning ability of large language models’, in Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 2124-2155. Available from : <https://doi.org/10.48550/arXiv.2401.00757>. [9 January 2025].

8. Wan, Y, Wang, W, Yang, Y, Yuan, Y, Huang, JT, He, P & Lyu, MR 2024, ‘A & b== b & a: triggering logical reasoning failures in large language models’, arXiv preprint arXiv:2401.00757. Available from : <https://arxiv.org/abs/2401.00757v1>. [9 January 2025].

9. Wang, S, Wei, Z, Choi, Y & Ren, X 2024, ‘Can LLMs reason with rules? Logic scaffolding for stress-testing and improving LLMs’, arXiv preprint arXiv:2402.11442. Available from : <https://doi.org/10.48550/arXiv.2402.11442>. [8 January 2025].

Тестування сервісу штучного інтелекту deepai.org на здатність дотримуватися правил формальної логіки

📝