فناوری اطلاعات

تشریح عملکرد نرم‌افزار ایرانی که سامانه‌های تبدیل متن به گفتار را بصورت دقیق ارزیابی می‌کند

منبع: دبيرخانه شوراي عالي اطلاع‌رساني
با توجه به تعدد و اهمیت سامانه‌های تبدیل متن به گفتار فارسی، نرم افزاری به منظور ارزیابی همه جانبه و دقیق این سامانه‌‌ها در وبگاه SCICT.IR در اختیار محققین قرار گرفته است که علاوه بر این سامانه‌ها، برای انجام بسیاری از ارزیابی‌های شنیداری از جمله سیگنال‌های موسیقی، ارزیابی مشکلات شنیداری در اشخاص، آموزش اصوات به کودکان و در یادگیری زبان مورد استفاده قرار می‌گیرد.
 
دكتر محمدمهدي همايون‌پور، مدیر این پروژه در خصوص نرم‌افزار  SESSSكه به عنوان ارزیابی عملکرد سامانه‌های تبدیل متن به گفتار فارسی ارائه شده است، اظهار داشت: سیستم تبديل متن به گفتار با دريافت ورودي در قالب متن، خروجي آن را در قالب ديگري از زبان طبيعي يعني گفتار عرضه مي‌کند. از این رو تلاش و تحقيقات بسياري در جهت طراحی و ساخت سيستم‌های تبديل متن به گفتار و بهبود کیفیت صدای خروجی آن‌ها صورت مي‌گيرد و ارزيابي چگونگي عملکرد و کيفيت کار اين سيستم‌ها و اجزاء تشکیل‌دهنده آن‌ها از اهميت ويژه‌اي برخوردار است. مشابه سیستم‌های تبدیل متن به گفتار، سیستم‌های کدینگ و فشرده‌سازی گفتار نیز در خروجی خود اقدام به تولید سیگنال گفتاری می‌کنند. در نتیجه ارزیابی کیفیت گفتار بازسازی‌شده در خروجی این‌گونه سیستم‌ها نیز حائز اهمیت است.   
 
وی در توضیح نحوه عملکرد نرم‌افزار SESSS که به سفارش دبیرخانه شورای عالی اطلاع‌رسانی و توسط آزمایشگاه پردازش هوشمند داده‌های چندرسانه‌ای دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر انجام شده است، بیان داشت: در این نرم‌افزار به ارزيابي جنبه‌هاي متفاوت صوتي سیگنال بازسازی (سنتز) شده در سیستم‌های سنتز و کدینگ گفتار پرداخته شده است. این ارزیابی‌ها شامل ارزیابی ميزان قابل ‌فهم بودن اصوات تولید شده خصوصاً همخوان اول، وسط و آخر هجاها، نحوه انتقال از واکه به همخوان، ميزان قابل فهم بودن واکه‌ها، خوشه‌هاي همخواني، کلمات در جملات و جملات است.
 
وی ادامه داد: در این ارزيابي‌ها عملکرد بخش سنتزکننده‌های گفتار از نقطه نظر جنبه‌هاي متفاوت صوتي بررسی می‌شود. آزمون‌هاي ارزيابي ارائه شده شامل تست تشخيص قافيه، تست قافيه اصلاح‌شده، ارزيابي تشخيص همخوان مياني، ارزيابي قطعه‌اي استاندارد، آزمون کلمات بي‌معني و انتقال واکه به همخوان، آزمون قابل فهم بودن جفت‌هاي کمينه، ارزيابي در سطح جمله است.
 
وی افزود: علاوه بر این در نرم‌افزار SESSS امکان انجام ارزيابي‌ها بصورت ذهنی با انجام تست‌هاي شنيداري فراهم شده است. در این ارزیابی‌ها شنونده‌ها با گوش دادن به صداي حاصل از سيستم تبديل متن به گفتار  و کدینگ گفتار، نسبت به مواردي چون وضوح و میزان کیفیت صوت سنتز شده از نقطه‌نظرهای مختلف مانند میزان خوشایند بودن، طبیعی بودن، قابل فهم و درک بودن، سرعت بیان، سليس و روان بودن، خشن بودن و بسیاری موارد دیگر و حتي نحوه تلفظ و سرعت با استفاده از روش‌های ارزیابی ميانگين امتيازات نظردهي MOS، تست تخمين دسته‌اي CE، تست ITUT و پروتکل تحليل پروفايل گفتاري امتياز مي‌دهند. ميانگين نظرات شنوندگان بيانگر نتيجه ارزيابي است. برای اکثر این روش‌های ارزیابی داده‌های ارزیابی برای زبان فارسی نیز ارائه شده است.
 
 دکتر همایون‌پور با اشاره به اینکه در سيستم‌هاي تبديل متن به گفتار و کدینگ گفتار، کيفيت نواي گفتار از اهميت بالايي برخوردار است، بیان داشت: عوامل متعددي چون ايجاد تکيه‌ها، آهنگ جملات، احساسات، کنش‌های گفتاری و بسياري از حالات گفتار به نواي آن بستگي دارد. نواي مناسب در طبيعي و خوشايند‌بودن گفتار و نيز در انتقال مفاهيم و مقصود گوينده بسيار موثر است. 
 
وی تاکید کرد: در نرم‌افزار SESSS به چگونگی ارزیابی اینگونه سیستم‌ها در تولید نوا شامل ارزیابی زیروبمی در سطوح هجا، کلمه و جمله، ارزیابی دیرش و شدت واحدهای گفتاری و نهایتاً به چگونگی ارزیابی کیفی سیستم‌های سنتز گفتار از نقطه‌نظر تولید تکیه و آهنگ پرداخته شده است. 
 
به گفته وی روش‌های ارزيابي نوا هم بصورت ذهني و هم بصورت عيني ارائه شده و به کمک نرم‌افزار SESSS قابل اجرا هستند.
 
 وی در خصوص ارزيابي ذهني گفت: در این روش، جملات از نقطه نظر ويژگي‌هاي نوايي متفاوت ارزيابي مي‌شوند. ارزيابي ذهني نوا با استفاده از تست‌ امتياز ميانگين نظرات MOS انجام می‌شود‌. در اين نوع آزمون، جملات سنتز شده براي شنوندگان شرکت کننده در آزمون پخش شده و آنها نسبت به کيفيت نواي گفتار سنتز شده، رعایت تکیه‌ها، آهنگ يا احساسات و مانند آن نظر مي‌دهند. ميانگين نظرات شنوندگان بيانگر نتيجه ارزيابي است.
 
وی ادامه داد: در ارزيابي دوم یعنی ارزیابی عيني نوا، مي‌توان پارامترهاي نوايي همچون زيروبمي، ديرش و شدت که يکبار از طريق مدل‌سازي و روش‌هاي خودکار بدست آمده‌اند و بار ديگر از گفتار گوينده واقعي استخراج شده‌اند را از طريق دو معيار ضريب همبستگي و ضريب تعيين، بصورت کمي توسط نرم‌افزار SESSS مقايسه نمود. همچنين مي‌توان منحني تغييرات هر يک از پارامترهاي نوا را رسم و بصورت چشمي کار مقايسه را انجام داد. 
 
وی با ذکر این نکته که تست‌هاي سنتز به فرد شنونده وابسته است، گفت: با توجه به این موضوع در نرم‌افزار SESSS، قسمتي به نام مديريت آزمونگر آورده شده است كه در آن مي‌توان نام فرد آزمونگر، جنسيت و سن او را مشخص كرده و سپس به ليست آزمون‌گران اضافه نمود يا در صورت نياز حذف كرد. 
 
دکتر همایون‌پور در پایان بيان داشت: نرم‌افزار ارائه شده علاوه بر موارد فوق می‌تواند برای انجام بسیاری از ارزیابی‌های شنیداری در حوزه سایر سیگنال‌های صوتی از جمله سیگنال‌های موسیقی و مانند آن، ارزیابی مشکلات شنیداری در اشخاص، آموزش اصوات به کودکان و در یادگیری زبان مورد استفاده قرار گیرد.
 
گفتنی است در حال حاضر نسخه بتا از نرم‌افزار جامع SESSS در سایت دبیرخانه ارائه شده و پس از رفع مشکلات احتمالی نسخه نهایی آن ارائه می‌شود.
 
کاربران می‌توانند گزارش مشکلات احتمالی را به رایانامه دبیرخانه شورای عالی اطلاع‌رسانی به آدرس info@scict.ir و یا بصورت مستقیم به آزمایشگاه پردازش هوشمند داده‌های چندرسانه‌ای دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر به آدرس homayoun@aut.ac.ir ارسال کنند.
 

​​