فناوری اطلاعات

ضعف تولید محتوای فارسی در فضای وب/ ۴میلیارد صفحه فارسی شناسایی شد

منبع: مهر
مدیر اجرایی موتور جستجوگر بومی با اشاره به شناسایی ۴ میلیارد صفحه فارسی در محیط وب، گفت: حدود ۲۵ درصد محتوای شناسایی شده ارزشمند است که این مساله ضعف تولید محتوای فارسی وب را نشان می دهد.
امیرعلی خیراندیش، افزود: موتور جویشگر بومی به کمک نسخه جدید فنی خود، توانسته است به رکورد تحت پوشش قراردادن ۴ میلیارد صفحه وب فارسی برسد که در مقایسه با رقم ۲ میلیارد در مدت مشابه سال پیش، نشان از افزایش ۱۰۰ درصدی میزان پوشش نسخه جدید این جستجوگر است.
 
وی با اشاره به اینکه ۷۵ درصد صفحات وب فارسی بی ارزش هستند افزود: در میان ۴ میلیارد صفحه فارسی شناسایی شده توسط جستجوگر پارسی‌جو، نزدیک به یک میلیارد آن‌، یعنی چیزی در حدود ۲۵ درصد، ارزشمند بوده و بقیه صفحات تکراری یا اسپم بوده‌ است که نشان از ضعف تولید محتوا در زبان فارسی دارد.
 
خیراندیش پیشنهاد کرد: با توجه به روندهای جهانی در مسئله تولید محتوا، افراد جامعه در هر شغل یا حرفه ای که هستند، می توانند باتوجه به دانسته های علمی و کاربردی خود، به تولید محتوای معتبر و موثق در راستای آگاهی رسانی تخصص خود اقدام کنند که البته این مبحث باعث توسعه کسب و کار آنها نیز خواهد شد.
 
وی با بیان اینکه حجم بالای صفحات بی ارزش، دو چالش بزرگ را پیش روی موتورجستجوی بومی در پوشش صفحات وب فارسی قرار داده است افزود: این جستجوگر ملی برای کشف صفحات وب مفید فارسی باید تعداد زیادی از صفحات را شناسایی کند در حالی که تنها ۲۵ درصد آنها قابل استفاده برای کاربران است که همین عامل علاوه بر اتلاف زمان، فشار زیادی بر سرورها وارد می کند، ضمن اینکه پارسی جو برای حفظ و ارتقای کیفیت خود، ملزم به ارتقای مداوم هوش مصنوعی خود در بخش خزش، نمایه‌سازی و رتبه‌بندی است.
 
مدیر اجرایی موتور جستجوی بومی ادامه داد: به‌کارگیری فناوری‌های نوین، درک صحیح از زبان فارسی، تکنیک‌های موثر در حذف صفحات تکراری و اسپم و رعایت‌ تناسب‌های فرهنگی از جمله ویژگی های جستجوگر بومی و تسلط آن در حوزه وب فارسی است.
 
وی افزود: استفاده بیش از ۱۵ سرویس متنوع برای ارتقاء کیفیت نتایج جستجو، پوشش ۴ میلیارد سند فارسی، قدرت پاسخگویی به میلیون ها پرس‌وجو در روز ، استفاده از خزشگر هوشمند با پوشش میلیاردها سند از جمله ویژگی‌های جستجوگر ملی است.

​​