1. مقدمه ای بر خلاصه سازی متن | Text Summarization:
گسترش روزافزون داده ها و اسناد متنی مانند مقاله، صفحات وب، کتاب، پست های شبکه های اجتماعی و ... در اینترنت باعث ایجاد یک چالش اساسی در حوزه های مختلف پردازش متن مانند خلاصه سازی متن | Text Summarization شده است. سیستم های خلاصه سازی متن | Text Summarization به شکل گسترده در فیلدهای پردازش متن و کاربردهای تحلیلی مانند بازیابی اطلاعات، استخراج اطلاعات، سیستم های پرسش پاسخ استفاده می شود. پردازش و خلاصه سازی دستی داده های متنی در حجم زیاد، یک فرایند بسیار دشوار، پرهزینه، زمانبر و غیرممکن برای کاربران انسانی می باشد. مهمترین هدف و کاربرد سیستم های خلاصه سازی متن، تولید یک متن چکیده و کوتاه از جملات با اهمیت یک مجموعه اسناد ورودی است.
سیستم های خلاصه سازی متن | Text Summarization به کاربران این امکان را می دهد تا دسترسی سریعتری به اطلاعات اسناد ورودی بدون نیاز به خواندن تمام آن ها داشته باشند. ورودی در یک سیستم خلاصه سازی متن به دو شکل تک سندی و چند سندی می تواند وجود داشته باشد در حالت تک سندی سیستم یک توضیح کوتاه از جملات با اهمیت فقط یک سند ایجاد می کند اما در حالت چند سندی سیستم یک توضیح کوتاه از جملات با اهمیت چندین هزار سند ایجاد میکند. سیستم های خلاصه سازی متون به دو دسته استخراجی و چکیده ای تقسیم می شوند. در روش خلاصه سازی استخراجی، خلاصه نهایی یک سند متنی از جملات با اهمیت همان سند بدون هیچ نوع تغییر استخراج میگردد، در این روش امکان تکرار یکسری از جملات به شکل مکرر و تداخل ضمایر وجود دارد. اما در روش خلاصه سازی چکیدهای، خلاصه نهایی یک سند متنی از معنا و مفهوم جملات وکلمات همان سند یا سایر اسناد استخراج می گردد (در ادامه و در قسمت تشریح موضوع به تفاوت این دو روش خلاصه سازی پرداخته خواهد شد).
2. تشریح خلاصه سازی متن | Text Summarizaton :
یک سیستم خلاصه ساز خودکار متن به دو روش استخراجی و چکیده ای قابل پیاده سازی می باشد.
2.1. روش خلاصه سازی استخراجی | Extractive :
شامل مهم ترین جملات و پاراگراف های متن اصلی بدون هیچ نوع تغییری می باشد. در این روش اهمیت یک جمله بر اساس روش های آماری (tf، tfidf و ...) و ویژگی زبان شناسی آن مشخص می شود.
عیوب:
مزایا:
2.2. روش خلاصه سازی چکیده ای | Abstractive :
شامل مفهموم و معنای جملات متن اصلی است، بازگویی و تکرار جملات (کلمات) در این روش خیلی کمتر می باشد. معمولاً از روش های زبانشناسی و NLP برای پیدا کردن مفاهیم جدید استفاده می شود.
عیوب:
مزایا:
برای خلاصه سازی اسناد متنی در دو روش چکیده ای و استخراجی عموماً سه گام اصلی وجود دارد که در ادامه توضیح داده شده اند.
فرایندهای اصلی خلاصه سازی اسناد به ترتیب عبارتند از : پیش پردازش متون - شناسایی جملات با اهمیت - استخراج جملات با اهمیت که هر یک در ادامه توضیح داده شده است.
2.3. پیش پردازش متون | Text Preprocessing :
در این مرحله سیستم باید جملات سند متنی را تشخیص داده و آن ها را با کیفیت سازد. این گام تاثیر بسزایی برای کسب دقت بالا و نرخ خطای پایین در خروجی نهایی دارد.
پیش پردازش های قابل انجام در این مرحله به ترتیب:
خروجی این مرحله تبدیل هر جمله از سند به یک بردار n بعدی می باشد.
2.4. پردازش متون
در این مرحله و پس از پیش پردازش، سیستم می تواند با استفاد از روش های آماری مانند (tf,tfidf,sentence length,sentence similarity,...) و معنایی (semantic similarity,NLP) همراه با الگوریتم های یادگیری ماشین به شناسایی جملات با اهمیت از متن بپردازد.
2.5. خلاصه سازی
در این مرحله جملات انتخاب شده از مراحل قبلی به عنوان خلاصه متن در خروجی نمایش داده می شوند.
برای پیاده سازی و مشاوره در پروژه های مختلف NLP | پردازش زبان طبیعی، می توانید با نویسنده این مقاله از طریق شماره 09157202653 در ارتباط باشید.
استاد دانشگاه و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)
استاد دانشگاه، فعال در حوزه های علم داده، يادگيري ماشين، داده کاوی، بازیابی اطلاعات، متن کاوی و پایگاه داده ها با بیش از صد ساعت تدریس آنلاین و صدها پروژه موفق در حوزه علم داده
زمان پاسخ گویی روز های شنبه الی چهارشنبه ساعت 9 الی 18
فقط به موضوعات مربوط به محصولات آموزشی و فروش پاسخ داده می شود