سیاست و بازاریابی | مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند نکات خواندني

بزرگنمايي:

سیاست و بازاریابی - ایسنا /بررسی‌ها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر است.
مدل‌های هوش مصنوعی «o3» و «o4-mini» شرکت «اوپن‌ای‌آی»(OpenAI) که اخیرا عرضه شده‌اند، از بسیاری جهت‌ها پیشرفته هستند. با وجود این، مدل‌های جدید هنوز هم به توهم دچار می‌شوند یا محتوا را از خود می‌سازند. در واقع، آنها بیش از چندین مدل قدیمی اوپن‌ای‌آی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته می‌شود. ثابت شده است که توهمات یکی از بزرگ‌ترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستم‌های با بهترین عملکرد امروزی نیز تأثیر می‌گذارند. همه مدل‌های جدید معمولا کمی در بخش توهم بهبود یافته‌اند و کمتر از مدل پیشین خود توهم ایجاد می‌کنند، اما به نظر نمی‌رسد که این در مورد o3 و o4-mini صدق کند.
آزمایش‌های داخلی شرکت اوپن‌ای‌آی نشان می‌دهند o3 و o4-mini که «مدل‌های استدلالی» هستند، بیشتر از مدل‌های استدلالی پیشین شرکت شامل «o1»، «o1-mini» و «o3-mini» و همچنین، مدل‌های سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم می‌شوند.
موضوع نگران‌کننده‌تر این است که سازنده «چت‌جی‌پی‌تی»(ChatGPT) واقعا نمی‌داند چرا این اتفاق رخ می‌دهد. اوپن‌ای‌آی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسی‌های بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدل‌های استدلالی بدتر می‌شوند. مدل‌های O3 و o4-mini در برخی زمینه‌ها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیق‌تر و ادعاهای نادرست و توهم بیشتر می‌روند.
اوپن‌ای‌آی دریافت o3 در پاسخ به 33 درصد از پرسش‌ها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد می‌کند. این تقریبا دو برابر میزان توهم مدل‌های استدلال پیشین اوپن‌ای‌آی شامل o1 و o3-mini است که به ترتیب به 16 و 14.8 درصد پرسش‌ها پاسخ داده‌اند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و 48 درصد مواقع توهم‌زدگی داشت.
بررسی انجام‌شده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورت‌گرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپن‌ای‌آی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویت‌یافته مورد استفاده برای مدل‌های سری o ممکن است مشکلات کاهش‌یافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیان‌گذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه می‌توانست باشد، سودمند کند.
«کیان کتان‌فروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارت‌آپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافته‌اند که آن را یک گام جلوتر از رقبا قرار داده‌اند. با وجود این، کتان‌فروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه می‌دهد که وقتی روی آنها کلیک شود، کار نمی‌کند.
توهمات ممکن است به مدل‌ها کمک کنند تا به ایده‌های جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدل‌ها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل می‌کنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد می‌کند، راضی نخواهد بود.
یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، دادن قابلیت‌های جست‌وجوی وب به آنهاست. مدل GPT-4o با جست‌وجوی وب، دقت 90 را در SimpleQA به دست می‌آورد که یکی دیگر از معیارهای دقت اوپن‌ای‌آی است. به طور بالقوه، جست‌وجو می‌تواند نرخ توهم مدل‌های استدلالی را نیز بهبود ببخشد.
اگر گسترش مدل‌های استدلالی واقعا به تشدید توهم ادامه دهد، جست‌وجو برای یافتن راه‌ حل را بیش از پیش ضروری می‌کند. «نیکو فلیکس»(Niko Felix)، سخن‌گوی اوپن‌ای‌آی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدل‌های ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش می‌کنیم.

شنبه ۳۰ فروردين ۱۴۰۴ - ۱۵:۳۸:۰۴
۱۱ بازديد
سیاست و بازاریابی

https://www.siasatvabazaryabi.ir/Fa/News/774857/

تعرفه‌های اینترنت اصلاح می‌شود؟

ایمیل‌های عجیب مارک زاکربرگ درباره خرید اینستاگرام در دادگاه فاش شد

اجرای بازی‌های نینتندو سوییچ با AltStore روی آیفون و آیپد میسر شد

تابلوی رنگارنگ شکارچی در دل آسمان

آخرين مطالب

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند نکات خواندني

نظرات شما

ساير مطالب

با تشکر کردن از ChatGPT می‌توانید OpenAI را ورشکست کنید!

تبلت گیمینگ جدید لنوو با تراشه اسنپدراگون 8 الیت در راه است

یافته‌های پژوهشگران دانشگاه تهران در بررسی مخازن نفت و گاز خلیج فارس

آسمان به‌زودی به زمین لبخند می‌زند!

پیش‌بینی قیمت 90 هزار دلاری بیت‌کوین

یک مطالعه: هوش مصنوعی گوگل مباحث ضد سقط جنین را بازتاب می‌دهد

انقلابی در روابط انسانی با چت‌بات‌ها

پیری سریع مغز می‌تواند باعث ایجاد اسکیزوفرنی شود

دلجویی مدیرکل مازندران از خانواده شهیدان رخشانی در فریدونکنار

کارمند سابق OpenAI به‌شدت از سم آلتمن انتقاد کرد

هوش مصنوعی Gemini 2.5 Flash؛ هوشمندترین مدل زبانی گوگل

کاهش استرس با شبیه‌سازی موقعیت‌ها در واقعیت مجازی و واقعیت افزوده

ارتباط عجیب چربی‌های بدن با اضطراب

واکسن کووید-19 همچنان ناجی است

روز شهدای ورزشکار؛ تجلی پهلوانی در میدان رقابت و رزم

کشف معجزه انگشتان در محیط‌های شلوغ

برگزاری اولین کمیسیون پزشکی بنیاد شهید استان اصفهان در سال جدید

آیین افتتاحیه ششمین جشنواره قرآن و عترت بنیاد شهید و امور ایثارگران برگزار شد

دوربین هوشمند شیائومی Camera 4 با قابلیت پوشش 360 درجه و قیمت رقابتی معرفی شد

فضاپیمای «MEV-1» تاریخ‌ساز شد

ربات میوه‌چین ساخته شد

پیام تسلیت نماینده ولی‌فقیه در بنیاد شهید و امور ایثارگران در پی درگذشت مادر شهیدان والامقام «بهشتی»

نماینده ولی‌فقیه در بنیاد شهید و امور ایثارگران: در راه تعالی جامعه قرآنی به استعدادیابی بپردازید

اپل دو شکاف روز صفر را با اپدیت جدید رفع کرد

استارتاپ جدید Mechanize می‌خواهد هوش مصنوعی را کاملاً جایگزین نیروی انسانی کند

دانشمندان شواهد جدیدی از وجود حیات باستانی در مریخ کشف کردند

این گوشی پزشکی روی قفسه سینه می‌چسبد و مشکلات تنفسی را تشخیص می‌دهد

مشاهده مغناطیس تک‌بُعدی نادر در یک ترکیب فلزی

مسن‌ترین فضانورد فعال ناسا از فضا بازگشت

تعرفه‌های اینترنت اصلاح می‌شود؟

بازدید رئیس‌کل بیمه مرکزی از شعبه بیمه دی در خوزستان/ تأکید بر نقش کلیدی در خدمت‌رسانی به جامعه ایثار و شهادت

کشف اولین سیاهچاله‌ای که به تنهایی در فضا حرکت می‌کند

ایمیل‌های عجیب مارک زاکربرگ درباره خرید اینستاگرام در دادگاه فاش شد

کفی هوشمند کفش که پارکینسون را تشخیص می‌دهد

اجرای بازی‌های نینتندو سوییچ با AltStore روی آیفون و آیپد میسر شد

تابلوی رنگارنگ شکارچی در دل آسمان

دیدار رئیس بنیاد شهید و امور ایثارگران با خانواده شهدا و جانبازان استان مرکزی

رویکردی امیدوارکننده برای درمان سرطان و رشد مجدد مو

لنوو تینک‌پلاس معرفی شد؛ پاوربانک 140 واتی، بدنه شفاف و قیمت 39 دلار

بازی The Duskbloods چالشی تازه برای استودیوی فرام‌سافتور خواهد بود

دندانپزشکی هوشمند؛ از تشخیص دقیق تا آموزش نوین

انتصاب مدیرکل حوزه ریاست بنیاد شهید و امور ایثارگران

بزرگترین نیروگاه خورشیدی جهان در همسایگی ایران ساخته شد

ساخت کپسول‌های زیستی 1500 کیلوگرم با قابلیت حمل انسان

بازی Escape from Tarkov پس از 8 سال دسترسی زودهنگام، امسال عرضه خواهد شد

ملاقات نزدیک فضاپیمای «لوسی» ناسا با یک سیارک جدید

تصویر روز ناسا؛ نقاشی دیجیتال سیاره مشتری به سبک ونگوگ

هواوی تراشه هوش مصنوعی Ascend 920 را با وعده عملکردی هم‌سطح با انویدیا H20 معرفی کرد

ویدئو مفهومی آیفون 17 پرو مکس طراحی و ویژگی‌های این گوشی را نشان می‌دهد

طراحی آیفون 17 پرو با دوربین یکپارچه لو رفت

تبليغات