Новые ChatGPT чаще ошибаются: результаты исследования

Новейшие модели искусственного интеллекта ChatGPT, такие как o3 и o4-mini, демонстрируют склонность к галлюцинациям в два раза чаще по сравнению с менее продвинутыми версиями, не обладающими функцией рассуждения. Об этом сообщил TechCrunch, ссылаясь на данные тестирования, проведенного OpenAI.

В контексте нейросетей, галлюцинации — это ответы, не соответствующие реальности, которые ИИ предоставляет с полной уверенностью в их истинности. В частности, в ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 выдавала галлюцинации в 33% случаев, а o4-mini — в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%.

Другой тест под названием Transluce, проведенный независимым разработчиком, показал, что модель o3 особенно склонна придумывать собственные действия. Например, на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 года “вне ChatGPT” и копировал числа в ответ. Однако, на самом деле, алгоритм не предоставляет ей таких возможностей.

Одним из методов борьбы с галлюцинациями является предоставление ИИ возможности использовать веб-поиск, где более надежная информация доступна в большем объеме. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более продвинутым версиям искусственного интеллекта.

Исследование: свежие модели ChatGPT чаще допускают ошибки, чем предыдущие

By Callum Darby

You missed it

BetBoom Team Delivers a Clinical Blow to Natus Vincere at The International 2025

Xtreme Gaming Extends Unbeaten Streak at The International 2025, Delivers First Loss to Team Falcons

September 4, 2025: A Gaming Day Overshadowed, But Not Undone

The Spine of Adventure: Mastering the Flexile Spine Wish in Hollow Knight: Silksong

Categories

Article Sponsors

About the portal

Исследование: свежие модели ChatGPT чаще допускают ошибки, чем предыдущие

By Callum Darby

Related Post

BetBoom Team Delivers a Clinical Blow to Natus Vincere at The International 2025

Xtreme Gaming Extends Unbeaten Streak at The International 2025, Delivers First Loss to Team Falcons

September 4, 2025: A Gaming Day Overshadowed, But Not Undone

You missed it

BetBoom Team Delivers a Clinical Blow to Natus Vincere at The International 2025

Xtreme Gaming Extends Unbeaten Streak at The International 2025, Delivers First Loss to Team Falcons

September 4, 2025: A Gaming Day Overshadowed, But Not Undone

The Spine of Adventure: Mastering the Flexile Spine Wish in Hollow Knight: Silksong