مدل جدید هوش مصنوعی شبیهسازی صوتی شرکت «OpenAI» برای کار کردن فقط به یک نمونه ۱۵ ثانیهای از صدای شخص نیاز دارد.
به گزارش ایسنا، هوش مصنوعی اکنون میتواند متون گوناگون را با صدای کاربر بخواند.
به نقل از ورج، شرکت «OpenAI» دسترسی محدودی را به یک پلتفرم تولید متن به صدا موسوم به «ویس انجین»(Voice Engine) ارائه میدهد که میتواند صدای مصنوعی را براساس یک کلیپ ۱۵ ثانیهای از صدای یک نفر ایجاد کند. صدای تولیدشده توسط هوش مصنوعی میتواند اعلانهای متنی را با صدای گوینده به زبانهای گوناگون بخواند.
شرکت OpenAI در پست وبلاگ خود نوشت: این کار به ما درباره چگونگی استفاده کردن از ویس انجین در صنایع گوناگون کمک میکند.
شرکتهایی که به این پلتفرم دسترسی دارند، عبارتند از شرکت فناوری آموزش «ایج آو لرنینگ»(Age of Learning)، پلتفرم «هیجن»(HeyGen)، شرکت «دیماگی»(Dimagi) سازنده نرمافزارهای حوزه سلامت، شرکت «لیوکس»(Livox) سازنده اپلیکیشن ارتباطی هوش مصنوعی و سیستم سلامت «لایفاسپن»(Lifespan).
در نمونههای منتشرشده توسط OpenAI میتوانید بشنوید که شرکت ایج آو لرنینگ با این فناوری به منظور تولید محتوای صوتی از پیش تعیینشده و همچنین خواندن پاسخهای شخصیسازیشده برای دانشآموزان و نوشتهشده توسط GPT-4 چه کرده است.
به گفته شرکت OpenAI، توسعه ویس انجین در اواخر سال ۲۰۲۲ آغاز شده و این فناوری پیشتر صداهای از پیش تعیینشده را برای تبدیل متن به گفتار ارائه کرده است. «جف هریس»(Jeff Harris) یکی از اعضای گروه ویس انجین گفت: این مدل روی ترکیبی از دادههای دارای مجوز و در دسترس عموم آموزش داده شده است.
شرکت OpenAI گفت که این مدل تنها برای حدود ۱۰ شرکت در دسترس خواهد بود.
تبدیل کردن متن به صدا با هوش مصنوعی، یک حوزه از هوش مصنوعی مولد است که به تکامل خود ادامه میدهد. بیشتر سازندگان بر صداهای مصنوعی یا طبیعی تمرکز میکنند اما تعداد کمتری بر تولید صدا تمرکز داشتهاند.
همزمان، دولت آمریکا در تلاش است تا استفاده غیراخلاقی را از فناوری صدای هوش مصنوعی محدود کند. ماه گذشته، «کمیسیون ارتباطات فدرال آمریکا» پس از دریافت تماسهایی با صدای شبیهسازیشده «جو بایدن»(Joe Biden) رئیسجمهور این کشور به وسیله هوش مصنوعی، تماسهای رباتیک ساختهشده با هوش مصنوعی را ممنوع کرد.
به گفته OpenAI، شرکای آن موافقت کردهاند که از سیاستهای استفاده کردن از این پلتفرم پیروی کنند. سیاستهای شرکت میگوید که از پلتفرم تولید صدا برای جعل هویت افراد یا سازمانها بدون رضایت آنها استفاده نشود. همچنین، از شرکا میخواهد که رضایت صریح و آگاهانه گوینده اصلی را دریافت کنند؛ نه این که راههایی را برای تکتک کاربران فراهم آورند تا صدای خود را ایجاد کنند و سپس به شنوندگان اعلام کنند که صداها توسط هوش مصنوعی تولید شدهاند. همچنین، OpenAI برای ردیابی منشا صدا و نظارت فعال بر نحوه استفاده کردن از صدا، واترمارک را به کلیپهای صوتی اضافه کرده است.
شرکت OpenAI، چندین گام را پیشنهاد کرده است که شاید بتوانند خطرات مربوط به پلتفرمهایی از این دست را محدود کنند. این گامها عبارتند از حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حسابهای بانکی، سیاستهایی برای محافظت از به کار بردن صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد جعل عمیق هوش مصنوعی و توسعه سیستمهای ردیابی از محتوای هوش مصنوعی.