👈 دانلود اپ اندروید 👉

دانلود ترجمه مقاله مقایسه و بررسی روش های خوشه بندی اسناد (داکیومنت)

ارتباط با ما

فرمت: na

... دانلود ...

دانلود ترجمه مقاله مقایسه و بررسی روش های خوشه بندی اسناد (داکیومنت)؛ مقاله ای برای رشته کامپیوتر و فناوری اطلاعات و کاربرد آن در رشته مدیریت است که در 17 صفحه برای دانلود شما ترجمه شده است.

A Comparison of Document Clustering Techniques

چکیده:

این مقاله به بررسی نتایج حاصل از مطالعات تجربی روش های متداول خوشه بندی اسناد (داکیومنت) می پردازد. به خصوص در این مقاله، دو روش اصلی خوشه بندی داکیومنت به نام های خوشه بندی سلسله مراتبی متراکم و روش k-mean را بررسی و مقایسه می کنیم. (در روش k-means از الگوریتم استانداردk و متغیر آن وbisecting K-means استفاده کرده ایم). خوشه بندی سلسله مراتبی اغلب به عنوان روش خوشه بندی با کیفیت بهتر به تصویر کشیده می شود، اما به دلیل پیچیدگی های زمانی کوادراتیک یا درجه دوم آن محدودیت هایی هم دارد. در مقابل، روش k-means و متغیرهای آن دارای پیچیدگی های زمانی بصورت خطی است اما خوشه های درجه دوم و پایین تری بوجود می آورد. برخی مواقع، روش سلسله مراتبی و k-means به منظور دست یابی به بهترین روش با هم ترکیب می شوند. با این حال، نتایج بدست آمده از تحقیق ما حاکی از این است که روش k-meansbisectingبهتر از استاندارد k-means است و بهتر و مناسب تر از روش سلسله مراتبی است که ما معیارهای ارزیابی خوشه را آزمایش کردیم. توضیحاتی برای این نتایج بدست آمده داریم که مبتنی بر تجزیه و تحلیل جزئییات الگوریتم خوشه بندی و ماهیت داده های داکیومنت ارائه شده است.

1) پیش زمینه و انگیزه و هدف تحقیق

خوشه بندی اسناد (داکیومنت) برای استفاده در حوزه های متعددی ازجمله معنای متن و بازیابی اطلاعات بررسی شده است. درابتدا، روش خوشه بندی اسناد (داکیومنت) در جهت بهبود دقت و یا فراخوان در سیستم های بازیابی اطلاعات [Rij 79, Kow 97 ] بررسی شد و روشی کارآمد برای این منظور مشخص گردید [BL 85 ]. به تازگی خوشه بندی به منظور استفاده در مرور یک مجموعه ای از اسناد (داکیومنت) ارائه می شود [CKPT 92 ] و یا در سازماندهی نتایج که بواسطه یک موتور جستجو برای کاربر مفید واقع می شود. [ZEMK 97 ]. خوشه بندی اسناد (داکیومنت) همچنین برای تولید خودکار خوشه های سلسله مراتبی استفاده شده است [KS 97 ]. (نسل خودکار رده بندی اسناد (داکیومنت) وب همانند موارد تولیدی یاهو (www. yahoo. com) اغلب به عنوان یک هدف ذکر شده است.). یک روش تاحدودی متفاوت هم به این صورت است که خوشه های طبیعی در رده بندی سند در حال حاضر موجود (یاهو) وجود دارد. [AGY 99 ]. و پس از آن از این خوشه ها به منظور تولید یک رده بندی سند موثر برای اسناد (داکیومنت) جدید استفاده می شود. خوشه بندی سلسله مراتبی متراکم و روش k-means دو روش خوشه است که معمولا برای خوشه بندی سند استفاده می شود. خوشه بندی سلسله مراتبی گرچه کندتر است اما اغلب از روش k-means بهتر و کاربردی تر است. مطالعه شناخته شده گسترده ای در این زمینه وجود دارد که در [DJ 88 ] بتفصیل بیان شده است، این مباحث نشانگر این است که خوشه بندی سلسله مراتبی نسبت به k-means ارجح تر است، گرچه باید به این نکته توجه داشته باشید که این نتایج از طریق داده های غیر داکیومنت بدست آمده است. در حوزه داکیومنت، پراکندگی / جمع آوری [CKPT 92 ]، سیستم بازبینی داکیومنت مبتنی بر خوشه بندی با استفاده از یک روش ترکیبی که شامل هر دو روش خوشه بندی ذکر شده است انجام می گیرد. K-means روشی است که بعلت کارآمدی آن مورد استفاده قرار می گیرد و روش خوشه بندی سلسله مراتبی متراکم به دلیل کیفیت آن مورد توجه است. تحقیقات اخیر در ایجاد سلسله مراتب اسناد (داکیومنت) [LA 99 ] استفاده از برخی از تکنیک های خوشه بندی [CKPT 92 ] را ملزم ساخته و نتیجه این تحقیقات نشان می دهد که خوشه بندی سلسله مراتبی از روش K-means بهتر است. اگرچه این نتایج تنها در مورد یک مجموعه داده واحد کاربرد دارد و یکی ازنتایج عمده ای تحقیق ما محسوب نمی شود.

لینک کمکی