سیاست و بازاریابی

آخرين مطالب

OpenAI مدل‌های گفتاری و نوشتاری جدیدی برای ایجنت‌های هوش مصنوعی معرفی کرد نکات خواندني

OpenAI مدل‌های گفتاری و نوشتاری جدیدی برای ایجنت‌های هوش مصنوعی معرفی کرد
  بزرگنمايي:

سیاست و بازاریابی - دیجیاتو / البته OpenAI در حال حاضر قصد ندارد این مدل‌های جدید را به صورت عمومی منتشر کند.
OpenAI از ارتقاء مدل‌های هوش مصنوعی خود در زمینه تبدیل گفتار به متن و متن به گفتار خبر داد. این مدل‌های جدید که به API این شرکت اضافه شده‌اند، نسبت به نسخه‌های قبلی پیشرفت‌های قابل‌توجهی داشته‌اند و قابلیت‌های بیشتری را در اختیار توسعه‌دهندگان قرار می‌دهند.
به گفته OpenAI، این مدل‌های جدید بخشی از چشم‌انداز بزرگ‌تر این شرکت برای ساخت سیستم‌های خودکار یا «عامل‌های هوشمند» هستند که می‌توانند به‌طور مستقل وظایف مختلفی را برای کاربران انجام دهند. «اولیویه گودمن»، مدیر محصول اوپن‌ای‌آی، در این باره به TechCrunch توضیح داده که این ایجنت‌ها می‌توانند به‌عنوان چت‌بات‌هایی عمل کنند که با مشتریان یک کسب‌وکار تعامل می‌کنند. او پیش‌بینی کرد که در ماه‌های آینده شاهد ظهور تعداد بیشتری از این عامل‌ها خواهیم بود.
مدل تبدیل متن به گفتار OpenAI
مدل جدید تبدیل متن به گفتار OpenAI با نام gpt-4o-mini-tts، نه تنها گفتاری طبیعی‌تر و با جزئیات بیشتر تولید می‌کند، بلکه قابلیت تنظیم دقیق‌تری نیز دارد. توسعه‌دهندگان می‌توانند با استفاده از دستورات زبان طبیعی، نحوه بیان متن را کنترل کنند.
به‌عنوان مثال، می‌توان از این مدل خواست که مانند یک «دانشمند دیوانه» یا با صدایی آرام و شبیه به یک معلم صحبت کند. یک نمونه از صداهای تولید شده توسط این مدل را در ادامه می‌توانید بشنوید:

بازار


«جف هریس»، یکی از اعضای تیم محصول OpenAI، تأکید کرده که هدف این است که توسعه‌دهندگان بتوانند هم «تجربه صوتی» و هم «زمینه» را به دلخواه خود تنظیم کنند. او می‌گوید:
«در موقعیت‌های مختلف، شما نمی‌خواهید که صدایی یکنواخت و بدون احساس شنیده شود. مثلاً اگر در یک تجربه پشتیبانی مشتری هستید و می‌خواهید صدای ربات عذرخواهی کند، می‌توانید به مدل دستور دهید که این احساس را در صدا لحاظ کند.»
مدل‌های تبدیل گفتار به متن
OpenAI همچنین دو مدل جدید تبدیل گفتار به متن با نام‌های gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرده است که جایگزین مدل قدیمی Whisper می‌شوند. این مدل‌های جدید که روی مجموعه‌ داده‌های صوتی متنوع و باکیفیت آموزش دیده‌اند، می‌توانند صداهای با لهجه‌های مختلف و حتی در محیط‌های شلوغ را با دقت بیشتری تشخیص دهند.
هریس همچنین اشاره کرده که این مدل‌ها کمتر از Whisper دچار خطاهای «توهم» می‌شوند. مدل Whisper گاهی اوقات کلمات یا حتی جملات کاملی را که وجود نداشتند، به متن اضافه می‌کرد که این موضوع می‌توانست مشکلاتی را ایجاد کند. او می‌گوید:
«این مدل‌ها در مقایسه با Whisper بهبود چشمگیری داشته‌اند. دقت مدل‌ها برای ایجاد یک تجربه صوتی قابل اعتماد کاملاً ضروری است و دقت در اینجا به این معناست که مدل‌ها کلمات را به درستی تشخیص می‌دهند و جزئیاتی که نشنیده‌اند را به متن اضافه نمی‌کنند.»


بااین‌حال، دقت این مدل‌ها ممکن است بسته به زبانی که تبدیل می‌شود، متفاوت باشد.
برخلاف رویه گذشته، OpenAI قصد ندارد این مدل‌های جدید تبدیل گفتار به متن خود را به‌صورت عمومی منتشر کند. این شرکت پیش‌تر نسخه‌های جدید Whisper را تحت مجوز MIT برای استفاده تجاری منتشر می‌کرد. هریس توضیح داده که مدل‌های جدید بسیار بزرگ‌تر از Whisper هستند و بنابراین برای انتشار عمومی مناسب نیستند. او می‌گوید:
«این مدل‌ها از نوعی نیستند که بتوانید به راحتی روی لپ‌تاپ خود اجرا کنید. ما می‌خواهیم اگر چیزی را به‌صورت متن‌باز منتشر می‌کنیم، با دقت این کار را انجام دهیم و مدلی را ارائه کنیم که واقعاً برای آن نیاز خاص مناسب باشد.»

لینک کوتاه:
https://www.siasatvabazaryabi.ir/Fa/News/772337/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

جسورترین انسان تاریخ

اروپا می‌خواهد این تغییرات در iOS اعمال شوند

مشخصات و قیمت گلکسی تب S10 FE و S10 FE پلاس لو رفت

تاریخ رونمایی پوکو F7 پرو و F7 اولترا رسماً منتشر شد

کشف علمی شگفت‌انگیز؛ مرغ عشق با ساختار مغزی خاص، قادر به تولید صداهای انسانی است

آیا واقعاً مغز مرد و زن با هم متفاوت است؟

مادر شهیدان والامقام «علی و محمود سعادتی زارع» آسمانی شد

ایرانیان در سال 1403 بیشتر چه چیزهایی را سرچ کرده‌اند؟

این مدل چوبی گوشی تاشو بعدی موتورولا است

ساعت هوشمند چگونه ضربان قلب شما را اندازه‌گیری می‌کند؟

چت‌بات Claude حالا می‌تواند در وب جستجو کند

چطور به سرعتی بیشتر از سرعت نور برسیم؟/ 13 ایده دیوانه‌وار برای عبور از مرز سرعت!

آیفون 18 پرو احتمالا با این 5 ویژگی جدید عرضه می‌شود

گران‌ترین هوش مصنوعی OpenAI تا به امروز در دسترس قرار گرفت

مغز شیشه ای را ببینید

دیدار مدیر کل بنیاد مازندران با جانبازان نخاعی

یخچال‌ جدید به کمک کامپیوتر کوانتومی آمد

OpenAI مدل‌های گفتاری و نوشتاری جدیدی برای ایجنت‌های هوش مصنوعی معرفی کرد

لوگو نوروزی گوگل رونمایی شد؛ اما ما ایرانی‌ها نمی‌توانیم آن را ببینیم

قطب جنوب بدون یخ

بازی Assassin’s Creed Shadows کارش را پرقدرت شروع کرد

از اپل به‌خاطر تأخیر در عرضه قابلیت‌های اپل اینتلیجنس شکایت شد

لوگوی توئیتر حراج شد

دستاورد دانشمندان چینی: چهار بیمار معلول با ایمپلنت مغزی توانستند دوباره راه بروند

جستجوی در جی‌میل به هوش مصنوعی مجهز می‌شود

سفره هفت سین ایرانی در فضا!

گوشی‌های تاشو 2025 سامسونگ با سرعت شارژ ناامیدکننده عرضه می‌شوند

تلگرام دومین پیام رسان بزرگ جهان شد؛ دورف واتساپ را به سخره گرفت

کشف ترکیبی جدید برای مقابله با «قارچ‌های مقاوم به دارو»

این گوشی‌های سامسونگ رابط کاربری One UI 7 را دریافت می‌کنند

یافته‌های جالب از جدیدترین گزارش جهانی شادی

رندر های جدید وان پلاس 13T منتشر شد؛ طراحی مشابه گوشی‌های قبلی این برند

اکتشافات فضایی ناسا در سالی که گذشت

افشای تصویری از قاب محافظ آیفون 17 ایر که از طراحی متفاوت ماژول دوربین خبر می‌دهد

تیزر گوشی بعدی موتورولا، نمایشگر لبه‌خمیده را به‌تصویر می‌کشد

گام مهم در درمان بیماری‌های عصبی با تبدیل مستقیم پوست به بافت مغزی

سرعت شارژ گلکسی Z Flip 7 FE سامسونگ حداکثر 25 وات خواهد بود

اپل مانع قانونی برای تولید آیفون بدون پورت ندارد

شکایت از OpenAI؛ ChatGPT به اشتباه مردی را به قتل فرزندانش متهم کرد

تصویری از سیاره ی مریخ و صدای وزش باد در این سیاره

‌ویدیویی فوق العاده زیبا از وصل شدنِ کپسولِ dragon به ایستگاه فضایی بین المللی

تریلر جدید بازی Splitgate 2 - Open Alpha را تماشا کنید

عکاس حرفه‌ای توی جیبت

سال نو و اتفاقات جالب در فضا

هندزفری 2025 ریلمی با حذف نویز پیشرفته و قیمت منطقی معرفی شد

گوشی تاشو هواوی Pura X با دوربین سه‌گانه معرفی شد

آثار به جا مانده از پروژه ی آپولو در سطح ماه

راهکارهای حفظ حریم خصوصی در شبکه‌های اجتماعی

محققان آمریکایی؛ داشتن خواهر می‌تواند شما را به فرد بهتری تبدیل کند

دسته ایکس‌باکس به کیبورد تبدیل می‌شود؛ تجربه‌ای جدید برای گیمرها