فناوری اطلاعات

تشخیص و تفکیک صدا به کمک هوش مصنوعی

منبع: سیناپرس
تیمی از پژوهشگران و متخصصان کامپیوتر موفق به طراحی نرم‌افزاری مبتنی بر هوش مصنوعی شده‌اند که می‌تواند صداهای زائد محیط را حذف کرده و صدایی خاص را تشخیص داده و دنبال کند. در این برنامه از ترکیب تمرکز صوتی و تصویری استفاده‌شده است.
تشخیص صدای یک فرد به‌خصوص در ازدحام جمعیت و زمانی که محیط اطراف بسیار پرسروصدا است، کاری بسیار دشوار برای انسان محسوب می‌شود. پژوهشگران به‌تازگی موفق شده‌اند فناوری ویژه‌ای مبتنی بر هوش مصنوعی تهیه کنند که قادر است با حذف صداهای مزاحم، به صدای یک فرد خاص در میان شلوغی جمعیت توجه کرده و آن را ثبت و ضبط کند.
 
این برنامه مبتنی بر هوش مصنوعی قادر است علاوه بر تمرکز به چهره، به صدای فرد نیز توجه می‌کند. در این برنامه، نوع حرکات دهان، برای جدا کردن صداهای تولیدشده توسط افراد مختلف در ویدیوها مدنظر قرار می‌گیرد.
 
البته به‌طور طبیعی انسان قابلیت تمرکز روی یک ‌صدای خاص در جمعیت را داشته و می‌تواند به فردی خاص توجه کرده و سخنان وی را تشخیص دهد. به این تأثیر، تأثیر میهمانی (cocktail party effect) گفته می‌شود.
 
اما تاکنون، برنامه‌های طراحی‌شده برای گوش دادن به صدای افراد خاص در محیط‌های صوتی پرسروصدا تلاش کرده‌اند از حالات روانی و چهره فرد موردنظر استفاده کنند اما این برنامه مبتنی بر هوش مصنوعی قادر است علاوه بر تمرکز به چهره، به صدای فرد نیز توجه می‌کند. در این برنامه، نوع حرکات دهان، برای جدا کردن صداهای تولیدشده توسط افراد مختلف در ویدیوها مدنظر قرار می‌گیرد.
 
این پژوهشگران در شرکت گوگل موفق به آزمایش برنامه هوش مصنوعی خود در یک ویدئوی تهیه‌شده در یک میهمانی شدند که در آن دو یا سه نفر با یکدیگر به‌طور هم‌زمان و با تن‌های مختلف صوتی حرف زده و در پس‌زمینه نیز صداهای مختلفی وجود داشت.
 
با تماشای این ویدئو و گوش دادن به فیلم‌ها، برنامه جدید طراحی‌شده هوش مصنوعی می‌تواند تشخیص دهد که کدام صداها به هر مخاطب خاص تعلق داشته و بر اساس یک الگوریتم دقیق و مشابه به‌سادگی هرکدام از آن‌ها را تشخیص داده و سخنان آن‌ها را درک می‌کند.
 
این برنامه هوش مصنوعی قرار است در نشست تابستان سال جاری در ماه آگوست با عنوان 2018 SI GGRAPH meeting در شهر ونکوور به‌طور رسمی ارائه‌شده و بر اساس گفته شومل پگل (Shmuel Peleg) متخصص کامپیوتر و از طراحان این نرم‌افزار، برنامه فوق می‌تواند برای ضبط ویدیوها با دقت بیشتری از سیستم‌های فعلی مورداستفاده قرار گیرد و در آینده‌ای نزدیک، این برنامه می‌تواند با فیلتر کردن صداهای موجود در پس‌زمینه ویدئوها، به افراد کمک کند در طول کنفرانس‌های تلفنی، به‌طور واضح‌تری صدای یکدیگر را بشنوند.
 
ژن چنگ هو (Jen-Cheng Hou)، مهندس مرکز تحقیقات فناوری اطلاعات نوین Academia Sinica در تایوان در خاتمه افزود: این برنامه هوش مصنوعی می‌تواند به‌صورت یک دستیار مجازی، صداها را به‌طور واضح تشخیص داده و تفکیک و دسته‌بندی کند.
 

​​