سیاست و بازاریابی

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند نکات خواندني

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
  بزرگنمايي:

سیاست و بازاریابی - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

لینک کوتاه:
https://www.siasatvabazaryabi.ir/Fa/News/774871/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

با تشکر کردن از ChatGPT می‌توانید OpenAI را ورشکست کنید!

تبلت گیمینگ جدید لنوو با تراشه اسنپدراگون 8 الیت در راه است

یافته‌های پژوهشگران دانشگاه تهران در بررسی مخازن نفت و گاز خلیج فارس

آسمان به‌زودی به زمین لبخند می‌زند!

پیش‌بینی قیمت 90 هزار دلاری بیت‌کوین

یک مطالعه: هوش مصنوعی گوگل مباحث ضد سقط جنین را بازتاب می‌دهد

انقلابی در روابط انسانی با چت‌بات‌ها

پیری سریع مغز می‌تواند باعث ایجاد اسکیزوفرنی شود

دلجویی مدیرکل مازندران از خانواده شهیدان رخشانی در فریدونکنار

کارمند سابق OpenAI به‌شدت از سم آلتمن انتقاد کرد

هوش مصنوعی Gemini 2.5 Flash؛ هوشمندترین مدل زبانی گوگل

کاهش استرس با شبیه‌سازی موقعیت‌ها در واقعیت مجازی و واقعیت افزوده

ارتباط عجیب چربی‌های بدن با اضطراب

واکسن کووید-19 همچنان ناجی است

روز شهدای ورزشکار؛ تجلی پهلوانی در میدان رقابت و رزم

کشف معجزه انگشتان در محیط‌های شلوغ

برگزاری اولین کمیسیون پزشکی بنیاد شهید استان اصفهان در سال جدید

آیین افتتاحیه ششمین جشنواره قرآن و عترت بنیاد شهید و امور ایثارگران برگزار شد

دوربین هوشمند شیائومی Camera 4 با قابلیت پوشش 360 درجه و قیمت رقابتی معرفی شد

فضاپیمای «MEV-1» تاریخ‌ساز شد

ربات میوه‌چین ساخته شد

پیام تسلیت نماینده ولی‌فقیه در بنیاد شهید و امور ایثارگران در پی درگذشت مادر شهیدان والامقام «بهشتی»

نماینده ولی‌فقیه در بنیاد شهید و امور ایثارگران: در راه تعالی جامعه قرآنی به استعدادیابی بپردازید

اپل دو شکاف روز صفر را با اپدیت جدید رفع کرد

استارتاپ جدید Mechanize می‌خواهد هوش مصنوعی را کاملاً جایگزین نیروی انسانی کند

دانشمندان شواهد جدیدی از وجود حیات باستانی در مریخ کشف کردند

این گوشی پزشکی روی قفسه سینه می‌چسبد و مشکلات تنفسی را تشخیص می‌دهد

مشاهده مغناطیس تک‌بُعدی نادر در یک ترکیب فلزی

مسن‌ترین فضانورد فعال ناسا از فضا بازگشت

تعرفه‌های اینترنت اصلاح می‌شود؟

بازدید رئیس‌کل بیمه مرکزی از شعبه بیمه دی در خوزستان/ تأکید بر نقش کلیدی در خدمت‌رسانی به جامعه ایثار و شهادت

کشف اولین سیاهچاله‌ای که به تنهایی در فضا حرکت می‌کند

ایمیل‌های عجیب مارک زاکربرگ درباره خرید اینستاگرام در دادگاه فاش شد

کفی هوشمند کفش که پارکینسون را تشخیص می‌دهد

اجرای بازی‌های نینتندو سوییچ با AltStore روی آیفون و آیپد میسر شد

تابلوی رنگارنگ شکارچی در دل آسمان

دیدار رئیس بنیاد شهید و امور ایثارگران با خانواده شهدا و جانبازان استان مرکزی

رویکردی امیدوارکننده برای درمان سرطان و رشد مجدد مو

لنوو تینک‌پلاس معرفی شد؛ پاوربانک 140 واتی، بدنه شفاف و قیمت 39 دلار

بازی The Duskbloods چالشی تازه برای استودیوی فرام‌سافتور خواهد بود

دندانپزشکی هوشمند؛ از تشخیص دقیق تا آموزش نوین

انتصاب مدیرکل حوزه ریاست بنیاد شهید و امور ایثارگران

بزرگترین نیروگاه خورشیدی جهان در همسایگی ایران ساخته شد

ساخت کپسول‌های زیستی 1500 کیلوگرم با قابلیت حمل انسان

بازی Escape from Tarkov پس از 8 سال دسترسی زودهنگام، امسال عرضه خواهد شد

ملاقات نزدیک فضاپیمای «لوسی» ناسا با یک سیارک جدید

تصویر روز ناسا؛ نقاشی دیجیتال سیاره مشتری به سبک ونگوگ

هواوی تراشه هوش مصنوعی Ascend 920 را با وعده عملکردی هم‌سطح با انویدیا H20 معرفی کرد

ویدئو مفهومی آیفون 17 پرو مکس طراحی و ویژگی‌های این گوشی را نشان می‌دهد

طراحی آیفون 17 پرو با دوربین یکپارچه لو رفت