Новейшие модели искусственного интеллекта ChatGPT, такие как o3 и o4-mini, демонстрируют склонность к галлюцинациям в два раза чаще по сравнению с менее продвинутыми версиями, не обладающими функцией рассуждения. Об этом сообщил TechCrunch, ссылаясь на данные тестирования, проведенного OpenAI.
В контексте нейросетей, галлюцинации — это ответы, не соответствующие реальности, которые ИИ предоставляет с полной уверенностью в их истинности. В частности, в ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 выдавала галлюцинации в 33% случаев, а o4-mini — в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%.
Другой тест под названием Transluce, проведенный независимым разработчиком, показал, что модель o3 особенно склонна придумывать собственные действия. Например, на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 года “вне ChatGPT” и копировал числа в ответ. Однако, на самом деле, алгоритм не предоставляет ей таких возможностей.
Одним из методов борьбы с галлюцинациями является предоставление ИИ возможности использовать веб-поиск, где более надежная информация доступна в большем объеме. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более продвинутым версиям искусственного интеллекта.