خلاصه‌سازي متن فارسي را به رايانه بسپاريد

13 11 2016 00:00
کد خبر : 653085
تعداد بازدید : 4471

محققان دانشگاه صنعتي خواجه نصيرالدين طوسي با طراحي و تهيه يك برنامه رايانه اي و استفاده از هوش مصنوعي، خلاصه سازي متن هاي فارسي را آسان كردند.
محققان دانشگاه صنعتي خواجه نصيرالدين طوسي با طراحي و تهيه يك برنامه رايانه اي و استفاده از هوش مصنوعي، خلاصه سازي متن هاي فارسي را آسان كردند.
            
  به گزارش روابط عمومي؛ به نقل از ايرنا، استاديار دانشكده مهندسي كامپيوتر دانشگاه صنعتي خواجه نصيرالدين طوسي و استاد راهنماي طرح 'خلاصه ساز متون فارسي بر پايه خوشه بندي و به كمك الگوريتم بهينه سازي جنگل' درباره ضرورت انجام و ويژگي هاي اين برنامه به خبرنگار علمي ايرنا گفت: يكي از فعاليت هاي دانش آموزان و دانشجويان، خلاصه كردن جزوه و كتاب هاي درسي است كه اين كار وقت زيادي از آنها مي گيرد و به طور معمول، خلاصه كردن متن ها توسط افراد مختلف، نتيجه متفاوتي به دست مي دهد و ممكن است بعضا با دقت كافي همراه نباشد.
دكتر چيترا دادخواه افزود: برهمين اساس تصميم گرفتيم كار خلاصه كردن متون را به جاي افراد به ماشين (رايانه) واگذار كنيم و اين كار را با طراحي و توليد 'خلاصه ساز نصير' از حدود سه چهار سال قبل با همكاري تعدادي از دانشجويان كارشناسي و كارشناسي ارشد دانشگاه صنعتي خواجه نصيرالدين طوسي آغاز كرديم.
وي خاطرنشان كرد: طراحي و تهيه خلاصه ساز متون، پيش از اين بارها به زبان انگليسي انجام شده بود و جاي خالي آن براي زبان فارسي احساس مي شد.
دادخواه به دشواري هاي انجام اين پروژه اشاره كرد و گفت: در اين راه با چالش هاي گوناگوني روبه رو بوديم چراكه زبان فارسي، پيچيدگي هاي زيادي دارد به عنوان مثال در زبان انگليسي، حروف از هم جدا هستند و در هر قسمت از كلمه كه قرار بگيرند به يك صورت نوشته و ديده مي شوند درحالي كه در زبان فارسي، بسياري از حروف مانند
'لام'، 'سين'، 'ه' و ديگر حروف در ابتدا، وسط و انتهاي كلمه، ظاهر متفاوتي به خود مي گيرند و اين وضعيت، كار تشخيص را براي سيستم سخت مي كند.
وي ادامه داد: علاوه بر اين، برخي كلمات دو بخشي نيز در متن هاي زبان فارسي به شكل هاي متفاوت از هم جدا يا پيوسته نوشته مي شوند كه اين هم بر دشواري هاي تشخيص آنها در سيستم خلاصه ساز مي افزايد.
عضو هيات علمي دانشگاه صنعتي خواجه نصير الدين طوسي يادآور شد: يكي ديگر از مشكلات تشخيص كلمات و متون فارسي توسط رايانه نيز به مفهوم و معناي آنها برمي گردد مثلا 'گل' به عنوان بخشي از گياه و 'گل' به معناي خاك خيس، در ظاهر به يك شكل نوشته مي شوند ولي معناهاي متفاوتي دارند كه تشخيص آن توسط ماشين، دشوار است.
وي تصريح كرد: بنابراين ما در طراحي 'خلاصه ساز فارسي نصير' افزون بر شكل ظاهري، معني و مفهوم كلمات را در هم درنظرگرفتيم و بر اساس معيارهاي شناختي، كلمات مشابه را در خوشه هاي يكسان قرار داديم و به كلمات و جملات هم ارزش داديم تا بتوانيم سيستمي طراحي كنيم كه يك خلاصه مختصر و درعين حال، جامع استخراج كند.
دادخواه صرفه جويي در وقت افراد به ويژه دانشجويان را از جمله مزيت هاي اين سيستم رايانه اي برشمرد و گفت: افراد مي توانند يك متن 100 صفحه اي در اختيار 'خلاصه ساز نصير' قرار دهند و يك متن سه صفحه اي تحويل بگيرند درحالي كه مطالب تكراري حذف شده و خدشه اي نيز به كليت و مفهوم اصلي متن وارد نشده است يا مي توان 20 جلد كتاب را به سيستم داد و از آن خواست كه حجم آن را به 30 درصد متن اصلي كاهش دهد.
وي با بيان اينكه 'پردازش زبان طبيعي'، يكي از درس هاي دانشجويان رشته هوش مصنوعي است، افزود: براي آزمايش خروجي و عملكرد 'خلاصه ساز نصير' از تعدادي دانشجويان به عنوان گروه شاهد استفاده كرديم كه آنها يك متن را خلاصه كردند و متن اصلي را به خلاصه ساز نصير هم داديم و خروجي هر دو را با يكديگر مقايسه كرديم كه عملكرد برنامه رايانه اي كاملا رضايتبخش بود.
به گفته دادخواه، تعدادي ديگر از دانشگاه هاي كشور در زمينه خلاصه سازي يا ترجمه متون با استفاده از هوش مصنوعي، فعاليت هايي را آغاز كرده اند كه برخي از آنها به ترجمه متون انگليسي، ترجمه يا طراحي ابزارهاي اين كار اختصاص دارد و خلاصه سازي متن هاي فارسي، يك ايده جديد است.
خلاصه ساز نصير به عنوان يك برنامه رايانه اي در حال حاضر تهيه شده و آخرين نسخه آن در قالب پروژه كارشناسي ارشد ابوالفضل سراواني با راهنمايي' چيترا دادخواه' با عنوان 'خلاصه ساز متون فارسي بر پايه خوشه بندي و به كمك الگوريتم بهينه سازي جنگل' ارائه شده است.
اين خلاصه ساز اخيرا در اولين دوره مسابقات پردازش زبان فارسي (پارسي پرداز-95) مقام دوم را كسب كرد.