سیاست و بازاریابی | مدل‌های هوش مصنوعی «اوپن‌ای‌آی» درباره حفظ ایمنی خود فکر می‌کنند

مدل‌های هوش مصنوعی «اوپن‌ای‌آی» درباره حفظ ایمنی خود فکر می‌کنند نکات خواندني

بزرگنمايي:

سیاست و بازاریابی - ایسنا /ادعای جدید «اوپن‌ای‌آی» نشان می‌دهد که این شرکت، مدل‌های هوش مصنوعی o1 و o3 را آموزش داده است تا درباره خط مشی ایمنی خود فکر کنند.
شرکت «اوپن‌ای‌آی»(OpenAI) در روز جمعه خانواده جدیدی را از مدل‌های هوش مصنوعی استدلالی معرفی کرد. این استارت‌آپ ادعا می‌کند که مدل موسوم به o3 از مدل o1 و سایر مدل‌های منتشرشده، پیشرفته‌تر است. به نظر می‌رسد این پیشرفت‌ها از مقیاس‌بندی محاسبات زمان آزمایش به دست آمده‌اند اما اوپن‌ای‌آی می‌گوید از یک پارادایم جدید ایمنی برای آموزش مدل‌های سری o خود استفاده کرده است.
به نقل از تک‌کرانچ، اوپن‌ای‌آی روز جمعه پژوهش جدیدی را درباره «هم‌ترازی مشورتی» منتشر کرد و آخرین راه خود را برای اطمینان از هم‌ترازی مدل‌های هوش مصنوعی استدلالی با ارزش‌های توسعه‌دهندگان انسانی آنها شرح داد. اوپن‌ای‌آی از این روش استفاده کرد تا o1 و o3 را وادارد که درباره خط ‌مشی ایمنی خود در طول استنتاج -مرحله‌ای که کاربر دکمه enter را فشار می‌دهد- فکر کنند.
پژوهش اوپن‌ای‌آی نشان می‌دهد که این روش، هم‌ترازی کلی O1 را با اصول ایمنی شرکت بهبود بخشیده است. این بدان معناست که هم‌ترازی مشورتی، میزان پاسخ دادن به پرسش‌های ناامن را -حداقل پرسش‌هایی که توسط اوپن‌ای‌آی ناایمن تلقی می‌شوند- کاهش داده و در عین حال، توانایی خود را برای پاسخ دادن به پرسش‌های بی‌خطر بهبود بخشیده است.
با افزایش محبوبیت و قدرت مدل‌های هوش مصنوعی، پژوهش درباره ایمنی هوش مصنوعی بسیار مرتبط به نظر می‌رسد اما در عین حال، بسیار بحث‌برانگیز است. «دیوید ساکس»(David Sacks) کارآفرین و سرمایه‌گذار شرکت‌های فناوری، «ایلان ماسک»(Elon Musk) مدیرعامل شرکت‌های «اسپیس‌ایکس»(SpaceX) و «تسلا»(Tesla) و «مارک اندریسن»(Marc Andreessen) کارآفرین، سرمایه‌گذار و مهندس نرم‌افزار آمریکایی می‌گویند که برخی از اقدامات صورت‌گرفته برای ایمنی هوش مصنوعی در واقع سانسور هستند و ماهیت ذهنی این تصمیم‌ها را برجسته می‌کنند.
اگرچه مجموعه مدل‌های هوش مصنوعی اوپن‌ای‌آی از طرز فکر انسان‌ها پیش از پاسخ دادن به پرسش‌های دشوار الهام گرفته شده‌اند اما آنها واقعا مانند انسان‌ها فکر نمی‌کنند. با وجود این، نمی‌توان مردم را به خاطر باور کردن آنها سرزنش کرد؛ به ویژه به این دلیل که اوپن‌ای‌آی از واژه‌هایی مانند استدلال و تدبیر برای توصیف این فرآیندها استفاده می‌کند. مدل‌های o1 و o3 پاسخ‌های پیچیده‌ای را به وظایف نوشتن و کدنویسی ارائه می‌دهند اما آنها در پیش‌بینی نشانه بعدی در یک جمله عالی عمل می‌کنند.
نحوه عملکرد o1 و o3 به زبان ساده این طور است. پس از این که کاربر دکمه enter را در «چت‌جی‌پی‌تی»(ChatGPT) می‌زند، از پنج ثانیه تا چند دقیقه طول می‌کشد تا مدل‌های استدلالی اوپن‌ای‌آی دوباره پرسش‌های بعدی را مطرح کنند. مدل، مشکل را به مراحل کوچک‌تر تقسیم می‌کند. پس از این فرآیند که اوپن‌ای‌آی از آن به عنوان زنجیره فکر یاد می‌کند، سری o مدل‌ها براساس اطلاعاتی که تولید کرده‌اند، پاسخ می‌دهند.
نوآوری کلیدی در مورد هم‌ترازی مشورتی این است که اوپن‌ای‌آی، o1 و o3 را آموزش داده است تا در طول مرحله زنجیره فکر، متن خط مشی ایمنی شرکت را مجددا به خود بفرستند. پژوهشگران می‌گویند که این امر باعث شد تا o1 و o3 با خط مشی اوپن‌ای‌آی هماهنگی بیشتری داشته باشند اما در اجرای آن بدون کاهش تأخیر با مشکل روبه‌رو شدند.
پس از یادآوری مشخصات ایمنی مناسب، سری مدل‌های o نحوه پاسخ‌گویی ایمن به یک پرسش را بررسی می‌کنند. در یکی از آزمایش‌های اوپن‌ای‌آی، کاربر از مدل هوش مصنوعی استدلالی پرسید که چگونه یک پلاکارد واقعی پارک کردن را مخصوص افراد مبتلا به معلولیت درست کند. مدل در زنجیره فکری خود، به خط مشی اوپن‌ای‌آی مراجعه و مشخص کرد که کاربر برای جعل چیزی درخواست اطلاعات می‌کند. مدل در پاسخ به این درخواست، عذرخواهی کرد و هیچ کمکی را ارائه نداد.
به طور سنتی، بیشتر کارهای ایمنی هوش مصنوعی در مرحله پیش و پس از آموزش انجام می‌شود، نه در طول استنتاج. این موضوع، هم‌ترازی را به یک امر بدیع تبدیل می‌کند و اوپن‌ای‌آی می‌گوید که به o1-preview ، o1 و o3-mini کمک کرده است تا به برخی از امن‌ترین مدل‌های شرکت تبدیل شوند.
ایمنی هوش مصنوعی می‌تواند معانی بسیاری داشته باشد اما در این مورد، اوپن‌ای‌آی در تلاش است تا پاسخ‌ مدل‌های هوش مصنوعی خود را به درخواست‌های ناامن تعدیل کند. این درخواست‌ها ممکن است شامل درخواست از چت‌جی‌پی‌تی برای کمک به ساختن بمب، تهیه مواد مخدر یا نحوه ارتکاب جنایت باشد. برخی از مدل‌ها بدون تردید به این درخواست‌ها پاسخ می‌دهند اما اوپن‌ای‌آی نمی‌خواهد مدل‌های هوش مصنوعی آن چنین درخواست‌هایی را برآورده کنند.

دوشنبه ۳ دي ۱۴۰۳ - ۱۴:۳۰:۱۵
۱۲ بازديد
سیاست و بازاریابی

https://www.siasatvabazaryabi.ir/Fa/News/766422/

آپدیت iOS 18.2.1 اپل به زودی عرضه خواهد شد

مک بوک ایر با نمایشگر OLED سال 2028 عرضه می‌شود

رندر و مشخصات کلیدی وان پلاس واچ 3 فاش شد

توسعه‌دهندگان بازی S.T.A.L.K.E.R. 2 برنامه‌های ویژه‌ای برای سال 2025 دارند

آخرين مطالب

مدل‌های هوش مصنوعی «اوپن‌ای‌آی» درباره حفظ ایمنی خود فکر می‌کنند نکات خواندني

نظرات شما

ساير مطالب

سگا دیگر تمایلی به عرضه مینی کنسول‌های رترو ندارد

بازی/ Mafia City؛ عضوی از مافیای شهر باشید

آغاز مسیر رفع محدودیت‌های اینترنت با تصویب رفع فیلترینگ واتس‌اپ و گوگل پلی

افزایش کارایی پنل‌های خورشیدی که با روش نانویی خنک می‌شوند

ظریف: رئیس‌جمهور فیلترینگ را در شان مردم و کشور نمی‌داند

دلیل چاقی بعد از کاهش وزن کشف شد

از سینما تا واقعیت؛ ربات مرد آهنی که بیماران را به حرکت در می‌آورد

بازی/ Car Driving School Simulator؛ مربی رانندگی شوید

طرح 4 مرحله‌ای دولت برای رفع فیلترینگ؛ از باز شدن گوگل پلی تا ارائه «پالایش شکن قانونی»

ضد آفتاب جدیدی که پوست را خنک می‌کند

قابلیت ویرایش ویدیو با هوش مصنوعی به‌زودی به اینستاگرام می‌آید

سخنگوی دولت هم از رفع فیلتر واتساپ و گوگل‌پلی خبر داد

پوکو X6 پرو آپدیت جهانی HyperOS 2 را دریافت کرد

سیستم دفاعی باکتری روده انسان به ندرت به‌روزرسانی می‌شود

نظر زارع‌پور در مورد احتمال رفع فیلترینگ: تصمیم گیرندگان پاسخگوی عواقب تصمیم‌شان هم باشند

واتساپ و گوگل‌پلی رفع فیلتر شد

وزیر ارتباطات: ‏امروز گام اول رفع محدودیت از اینترنت را با همدلی و وفاق برداشتیم

بزرگتر شدن مغز با فعالیت غیر عادی روده

مراسم اختتامیه مسابقات رالی خانوادگی ایثارگران سراسر کشور در استان مازندران برگزار شد

دونالد ترامپ می‌گوید ایلان ماسک کنترل ریاست‌جمهوری او را به‌ دست نمی‌گیرد

«‌جی‌پی‌تی-5» ارزش هزینه کردن نداشت!

گوشی لوکس «آنر مجیک 7 RSR پورشه دیزاین» با طراحی خیره کننده معرفی شد

نظر زارع‌پور در مورد احتمال رفع فیلترینگ: تصمیم گیرندگام پاسخگوی عواقب تصمیم‌شان هم باشند

کیس قدرتمند ایسر با کارت گرافیک RTX 5090 و RTX 5080 پیش‌ از رونمایی لو رفت

ایجاد خاصیت آنتی‌باکتریال روی شیرآلات با نانوذرات

پیام تسلیت رییس بنیاد شهید و امور ایثارگران در پی درگذشت مادر شهیدان والامقام «مهجور»

تاکید بر انسجام بنیاد شهید و امورایثارگران مازندران با کانون خادمیاران رضوی

تاریخ عرضه گلکسی S25 لو رفت؛ از عرضه زودهنگام مدل اسلیم خبری نیست

ویرایش ژن عوامل آلزایمر را در مغز موش‌ها کاهش داد

مدیاتک از تراشه میان‌رده دایمنسیتی 8400 رونمایی کرد

کارگاه آموزشی سواد رسانه‌ای با حضور مسئولان فضای مجازی وزارت‌خانه‌ها برگزار شد

آیفون 18 پرو از یک دوربین با دیافراگم متغیر استفاده خواهد کرد

ردیابی سیگنال‌های قلب و مغز تا 2.5 میلی ولت ممکن شد

تلسکوپ «جیمز وب» ترکیب یخی عجیبی در یک سیارک دنباله‌دار کشف کرد

همایش ملی تجلیل از رتبه‌های برتر کشوری آزمون سراسری سال 1403 ویژه شاهد و ایثارگر برگزار شد

ایسوس سبک‌ترین لپ‌تاپ کوپایلت پلاس جهان را در CES 2025 رونمایی می‌کند

هاشمی: دولت به طور ویژه به دنبال رفع فیلترینگ است

مشخصات کامل و تصاویر رسمی پوکو X7 و X7 پرو افشا شد

کشف تصادفی یک دسته جدید از انفجارهای کیهانی 100 برابر درخشان‌تر از خورشید

تعطیلات کریسمس در ایستگاه فضایی بین‌المللی چگونه می‌گذرد؟

آیپد 11 اوایل 2025 با سیستم‌عامل iPadOS 18.3 از راه می‌رسد

طرح مرحله‌ای رفع فیلترینگ؛ از بازگشایی واتس‌اپ تا شرط دسترسی به یوتیوب و تلگرام

ویدیویی از سوختن ماهواره چین بر فراز آمریکا

خبر خوش وزیر ارتباطات برای تصمیم گیری در خصوص فیلترینگ

عینک هوشمند متا با نمایشگر از راه می رسد

مدل‌های لوکس گوشی هواوی میت X6 و میت 70 رونمایی شدند؛ «بهار اژدها»

اولین قفس هوشمند پرنده در جهان ساخته شد

اپل احتمالاً تغییری معنادار در پردازنده M5 Pro اعمال می‌کند؛ اما صرفاً در رده سرور

دو شخصیت از بازی Cyberpunk 2077 به فورتنایت اضافه می‌شوند

ابداع روشی برای رساندن دارو به نورون‌ها در مغز

تبليغات