روشی نوین برای دسته‏بندی هوشمند متون علمی

نویسندگان

-

چکیده

چکیده مقالات نمایه شده در مؤسسه اطلاعات علمی1 (ISI) یکی از معتبرترین شاخص های سنجش علم و فناوری می باشد که طبقه بندی موضوعی آن ها یکی از چالش های بزرگ مدیریت فناوری است. در این مقاله سعی شده است با استفاده از یک روش نوین متن‌کاوی2 به نام SUTC، مقالات متخصصان ایرانی در حوزه فناوری نانو که در مجلات ISI نمایه شده اند دسته‌بندی شوند. این دسته بندی می تواند معیاری مناسب برای سیاست گذاران در شناخت توانمندی های کشور در زمینه های مختلف تحقیقاتی فناوری نانو قرار گیرد. در این راستا، ابتدا استانداردهای معتبر در فناوری نانو با یکدیگر ادغام شده و طبقه بندی جامعی برای نانومواد حاصل گردیده است. سپس، با استفاده از روش‌های بازیابی ‌اطلاعات3 و متن‌کاوی، مقالات بدون دانش پیشین از برچسب دسته ها به طور هوشمند دسته‌بندی شده‌اند. به منظور ارزیابی روش طراحی شده، دسته‌بندی هوشمند مقالات با دسته‌بندی مقالات به وسیله خبرگان حوزه نانو مقایسه شده است. نتایج، حاکی از صحت مناسب روش ارائه شده است. کلیدواژه ها: علم‏سنجی، فناوری نانو، متن‏کاوی، طبقه‏بندی متون، خوشه‏بندی، معیار سیلوئت

کلیدواژه‌ها


عنوان مقاله [English]

A New Method for Intelligent Categorization of Scientific Texts (Case of Iran’s Nanotechnology Papers)

نویسندگان [English]

  • Babak Teimourpour
  • Mohammad Mehdi Sepehri
  • Leila Pezesh
-
چکیده [English]

Abstract: The ISI (Institute for Scientific Information) index is one of the most valuable and frequently used indicators for assessing indexed papers in science and technology journals. Categorization of these papers is a big challenge in management of technology. This paper introduces a new text categorization method - Silhouette based Unsupervised Text Categorization (SUTC). This method has been used for classifying Iranian nanotechnology papers indexed in ISI. First, a few standards are combined to make a comprehensive hierarchy of nanomaterials. Then, by applying information retrieval and text mining methods, papers are categorized intelligently without prior knowledge of class labels. The method is validated by comparing acquired class labels to the selected papers labeled by experts. Our analysis shows acceptable accuracy. Keywords: Scientometrics, Nanotechnology, Text mining, Text categorization, Clustering, Silhouette Coefficient

کلیدواژه‌ها [English]

  • Scientometrics
  • Nanotechnology
  • Text mining
  • Text categorization
  • Clustering
  • Silhouette Coefficient