Fri. Sep 5th, 2025

Исследование: свежие модели ChatGPT чаще допускают ошибки, чем предыдущие

Новейшие модели искусственного интеллекта ChatGPT, такие как o3 и o4-mini, демонстрируют склонность к галлюцинациям в два раза чаще по сравнению с менее продвинутыми версиями, не обладающими функцией рассуждения. Об этом сообщил TechCrunch, ссылаясь на данные тестирования, проведенного OpenAI.

В контексте нейросетей, галлюцинации — это ответы, не соответствующие реальности, которые ИИ предоставляет с полной уверенностью в их истинности. В частности, в ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 выдавала галлюцинации в 33% случаев, а o4-mini — в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%.

Другой тест под названием Transluce, проведенный независимым разработчиком, показал, что модель o3 особенно склонна придумывать собственные действия. Например, на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 года “вне ChatGPT” и копировал числа в ответ. Однако, на самом деле, алгоритм не предоставляет ей таких возможностей.

Одним из методов борьбы с галлюцинациями является предоставление ИИ возможности использовать веб-поиск, где более надежная информация доступна в большем объеме. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более продвинутым версиям искусственного интеллекта.

By Callum Darby

Callum Darby, 34, based in Manchester. A former semi-professional Dota 2 player who transitioned into journalism. Specializes in statistical match analysis and tournament result predictions.

Related Post