
Штучний інтелект GPT-4 від OpenAI демонструє здатність оцінювати письмові відповіді студентів на рівні, а іноді й краще, ніж людські викладачі.
Як повідомляє сайт Цікавості, такий висновок зробили науковці з німецького Університету Пассау під керівництвом професора Йоганна Графа Ламбсдорфа.
У дослідженні, опублікованому в журналі Scientific Reports, йшлося про перевірку можливостей GPT-4 як інструмента для оцінювання текстових відповідей з макроекономіки. Дослідники проаналізували 300 відповідей студентів на шість стандартних запитань, залучивши як людських рецензентів, так і GPT-4. Основною метою було зіставити якість та об’єктивність оцінювання.
Основні моменти дослідження:
- Нова методика порівняння: Замість вважати людські оцінки еталоном, дослідники вимірювали рівень узгодженості між оцінювачами. Якщо GPT-4 замінював одного з трьох оцінювачів, а рівень згоди між трьома зростав — це вважалося кращим показником якості ШІ-оцінки.
- Результати GPT-4: Штучний інтелект показав високу точність у визначенні повноти та правильності відповідей. У більшості випадків його оцінки співпадали з людськими у категоріях «найкраща», «середня» і «найслабша» відповідь.
- Тенденція до завищення оцінок: У бальній шкалі GPT-4 іноді виставляв оцінки на один бал вищі, ніж люди.
- Стійкість до нечіткості: Інженерна частина дослідження, виконана Абдуллою Аль Зубаєром за участі професора Міхаеля Граніцера, підтвердила: GPT-4 зберігає стабільну якість навіть при нечітких або двозначних формулюваннях завдань.
Попри високі результати, вчені наголошують: GPT-4 не може повністю замінити викладача. Людина залишається ключовою у створенні прикладів відповідей та остаточній перевірці. Натомість GPT-4 доцільно використовувати як додаткового рецензента — це покращує якість і оперативність перевірки, зберігаючи неупередженість.
Таким чином, дослідження з Пассау відкриває нові перспективи для інтеграції штучного інтелекту в освітній процес, де ШІ виступає не заміною, а надійним помічником у роботі викладача.