هوش مصنوعی «OpenAI» با صدای شما به چندین زبان صحبت می‌کند!

مدل جدید هوش مصنوعی شبیه‌سازی صوتی شرکت «OpenAI» برای کار کردن فقط به یک نمونه ۱۵ ثانیه‌ای از صدای شخص نیاز دارد.

جی پلاس، هوش مصنوعی اکنون می‌تواند متون گوناگون را با صدای کاربر بخواند.

به نقل از ورج، شرکت «OpenAI» دسترسی محدودی را به یک پلتفرم تولید متن به صدا موسوم به «ویس انجین»(Voice Engine) ارائه می‌دهد که می‌تواند صدای مصنوعی را براساس یک کلیپ ۱۵ ثانیه‌ای از صدای یک نفر ایجاد کند. صدای تولیدشده توسط هوش مصنوعی می‌تواند اعلان‌های متنی را با صدای گوینده به زبان‌های گوناگون بخواند.

شرکت OpenAI در پست وبلاگ خود نوشت: این کار به ما درباره چگونگی استفاده کردن از ویس انجین در صنایع گوناگون کمک می‌کند.

شرکت‌هایی که به این پلتفرم دسترسی دارند، عبارتند از شرکت فناوری آموزش «ایج آو لرنینگ»(Age of Learning)، پلتفرم «هی‌جن»(HeyGen)، شرکت «دیماگی»(Dimagi) سازنده نرم‌افزارهای حوزه سلامت، شرکت «لیوکس»(Livox) سازنده اپلیکیشن ارتباطی هوش مصنوعی و سیستم سلامت «لایف‌اسپن»(Lifespan).

در نمونه‌های منتشرشده توسط OpenAI می‌توانید بشنوید که شرکت ایج آو لرنینگ با این فناوری به منظور تولید محتوای صوتی از پیش تعیین‌شده و همچنین خواندن پاسخ‌های شخصی‌سازی‌شده برای دانش‌آموزان و نوشته‌شده توسط GPT-4 چه کرده است.

اولین نمونه، فایل صوتی مرجع به زبان انگلیسی است.

سه کلیپ صوتی بعدی توسط هوش مصنوعی براساس آن نمونه تولید شده‌اند.

به گفته شرکت OpenAI، توسعه ویس انجین در اواخر سال ۲۰۲۲ آغاز شده و این فناوری پیشتر صداهای از پیش تعیین‌شده را برای تبدیل متن به گفتار ارائه کرده است. «جف هریس»(Jeff Harris) یکی از اعضای گروه ویس انجین گفت: این مدل روی ترکیبی از داده‌های دارای مجوز و در دسترس عموم آموزش داده شده است.

شرکت OpenAI گفت که این مدل تنها برای حدود ۱۰ شرکت در دسترس خواهد بود.

تبدیل کردن متن به صدا با هوش مصنوعی، یک حوزه از هوش مصنوعی مولد است که به تکامل خود ادامه می‌دهد. بیشتر سازندگان بر صداهای مصنوعی یا طبیعی تمرکز می‌کنند اما تعداد کمتری بر تولید صدا تمرکز داشته‌اند.

هم‌زمان، دولت آمریکا در تلاش است تا استفاده غیراخلاقی را از فناوری صدای هوش مصنوعی محدود کند. ماه گذشته، «کمیسیون ارتباطات فدرال آمریکا» پس از دریافت تماس‌هایی با صدای شبیه‌سازی‌شده «جو بایدن»(Joe Biden) رئیس‌جمهور این کشور به وسیله هوش مصنوعی، تماس‌های رباتیک ساخته‌شده با هوش مصنوعی را ممنوع کرد.

به گفته OpenAI، شرکای آن موافقت کرده‌اند که از سیاست‌های استفاده کردن از این پلتفرم پیروی کنند. سیاست‌های شرکت می‌گوید که از پلتفرم تولید صدا برای جعل هویت افراد یا سازمان‌ها بدون رضایت آنها استفاده نشود. همچنین، از شرکا می‌خواهد که رضایت صریح و آگاهانه گوینده اصلی را دریافت کنند؛ نه این که راه‌هایی را برای تک‌تک کاربران فراهم آورند تا صدای خود را ایجاد کنند و سپس به شنوندگان اعلام کنند که صداها توسط هوش مصنوعی تولید شده‌اند. همچنین، OpenAI برای ردیابی منشا صدا و نظارت فعال بر نحوه استفاده کردن از صدا، واترمارک را به کلیپ‌های صوتی اضافه کرده است.

شرکت OpenAI، چندین گام را پیشنهاد کرده است که شاید بتوانند خطرات مربوط به پلتفرم‌هایی از این دست را محدود کنند. این گام‌ها عبارتند از حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حساب‌های بانکی، سیاست‌هایی برای محافظت از به کار بردن صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد جعل‌ عمیق هوش مصنوعی و توسعه سیستم‌های ردیابی از محتوای هوش مصنوعی.