کد خبر: ۹۲۸۳۰
تاریخ انتشار: ۱۱:۵۲ - ۱۴ بهمن ۱۳۹۵ - 02 February 2017
توسعه فعالیت‌های علمی و پژوهشی در ایران روندی صعودی در پیش گرفته است و علاوه بر افزایش چشمگیر تعداد مقالات علمی و پژوهشی، از نظر کیفیت هم در مجامع بین‌المللی اعتبار قابل توجهی دارند. همزمان با توسعه کمی و کیفی مقالات علمی و پژوهشی، سرقت علمی و ادبی یا انتحال (Plagiarism) نیز بیشتر شده است.
 روزنامه جام جم با انتشار گفت وگویی با کارشناسان، نوشت: توسعه فعالیت‌های علمی و پژوهشی در ایران روندی صعودی در پیش گرفته است و علاوه بر افزایش چشمگیر تعداد مقالات علمی و پژوهشی، از نظر کیفیت هم در مجامع بین‌المللی اعتبار قابل توجهی دارند. همزمان با توسعه کمی و کیفی مقالات علمی و پژوهشی، سرقت علمی و ادبی یا انتحال (Plagiarism) نیز بیشتر شده است.

در ادامه این گفت وگو می خوانیم: اکنون محققان در بخش فناوری اطلاعات در تلاشند علاوه بر طراحی روش‌های نوین داده‌کاوی، امنیت اطلاعات فضای مجازی را افزایش دهند.

**تصویر جدال با سرقت علمی با سلاح فناوری
همایش ملی بررسی راهکارهای پیشگیری از سرقت علمی، ششم بهمن امسال در پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی، به منظور بررسی ابزارها و سامانه‌های تشخیص سرقت علمی و راهکارهای مقابله با سرقت علمی در دانشگاه‌ها و مراکز تحقیقاتی برگزار شد. در این همایش، دستاوردها و تجربه‌های مسابقات تشخیص سرقت علمی در زبان فارسی و ابعاد حقوقی سرقت علمی مورد بحث و بررسی قرار گرفت.

**زیرساخت مناسب اخلاقی برای رشد علمی
تدوین مبانی و اصول قانونی و اخلاقی برای انجام فعالیت‌های علمی و تحقیقاتی به دانشگاهیان کمک می‌کند پایبند ضوابط اخلاقی باشند و این بهترین راه برای پیشگیری از سرقت‌های علمی است.


مهندس حبیب‌الله اصغری، رئیس پژوهشکده فناوری اطلاعات جهاد دانشگاهی و دبیر همایش بررسی راهکارهای پیشگیری از سرقت علمی، درباره اهمیت پایبندی به اصول اخلاقی به جام‌جم می‌گوید: در تاریخچه اخلاق علم در دانشگاه استنفورد آمده است که سال‌ها پیش کمپین‌های دانشجویی برای حفظ اخلاق علمی مبارزه می‌کردند. کمپین دانشجویی دانشگاه استنفورد سال 1301/ 1922 بیانیه شرافت را نوشته است که هنوز یکی از بیانیه‌های مترقی به شمار می‌رود. در حقیقت اگر ما کار را به خود جوانان بسپاریم و آنها خودشان تنظیم‌کننده باشند، از ما خیلی سختگیرتر هستند. اخلاق علمی موضوع پسندیده‌ای است، اما چگونگی رسیدن به آن کار دشواری است. من فکر می‌کنم نقش رسانه‌ها اینجا تاثیرگذار است، اگر ما بتوانیم این حساسیت را در جامعه و بخصوص در جامعه دانشگاهی بالا ببریم که این مساله را تقبیح کند و مجازات‌های سنگینی هم در نظر گرفته شود، قطعا شاهد تغییراتی خواهیم بود.

مهندس اصغری درباره هدف برگزاری این همایش و مسابقه‌ای در زمینه طراحی سامانه‌های تشخیص تقلب ادامه می‌دهد: ما در این همایش دو هدف اصلی داشتیم که یکی از آنها طراحی ابزار مناسبی برای تشخیص سرقت علمی و دیگری بحث اخلاق علمی در سطح جامعه بود. یکی از حوزه‌های تخصصی پژوهشکده فناوری اطلاعات جهاد دانشگاهی حوزه پردازش متن است و با توجه به مجموعه پایگاه SID جهاد دانشگاهی که کل نشریات علمی و پژوهشی کشور را نمایه می‌کند، به دنبال ابزار مناسبی برای تشخیص سرقت علم در این پایگاه اطلاعاتی هستیم. بر این اساس مسابقه‌ای بین‌المللی در حوزه تشخیص تقلب برگزار کردیم.

در این مسابقه از هفت کشور 31 گروه شرکت کردند که ما از آن طریق الگوریتم‌ها و روش‌های مناسب سرقت علمی را شناسایی کنیم و محققان این مسابقه در این همایش راهکارهای خود را ارائه کردند. هدف دیگر این همایش، بحث سرقت علمی است که جامعه با آن مواجه است و باید بررسی کرد آیا می‌توان با گفتمان‌سازی در حوزه اخلاق علم، جامعه را حساس و از این اتفاق پیشگیری کنیم.

اصغری در ادامه می‌افزاید: هرجایی که ارزشی وجود دارد، سرقت هم وجود دارد. وقتی فرد با تقلب امتیاز ناعادلانه‌ای کسب می‌کند، این ارزشی است که به سرقت می‌رود. این سرقت با سرقت‌های عادی تفاوت دارد و به‌همین دلیل شاید شیوه مبارزه با آن هم کمی فرق می‌کند و نیاز به ترویج و آگاه‌سازی مردم دارد. باز هم تاکید می‌کنم اگر کمپین‌های دانشجویی وارد این قضیه شوند، آنها با واقعگرایی و صداقت بیشتری این مساله را حل می‌کنند.

**بانک اطلاعاتی برای بالابردن دقت تشخیص تقلب
مهتاب، عنوان پیکره ارائه شده در مسابقه سامانه‌های تشخیص تقلب است که در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی طراحی شده است. دکتر مهرنوش شمس‌فرد، رئیس دانشکده مهندسی علوم کامپیوتر دانشکده شهید بهشتی و سرپرست آزمایشگاه پردازش زبان طبیعی این دانشگاه، درباره این طرح به جام‌جم می‌گوید: سامانه و پیکره‌ای که ما در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی طراحی کرده‌ایم، سامانه شباهت‌یابی متون با عنوان مهتاب است. این سامانه، سند دریافتی شامل متن یا تصویر را با اسناد موجود در پایگاه داده مقایسه می‌کند و سندهای شبیه را با تعیین قسمت شبیه و درصد شباهت مشخص می‌کند. 

تفاوت این سامانه با نمونه‌های دیگر این است که این شباهت‌سنجی صرفا لغوی و ظاهری نیست و به لحاظ معنایی هم این کار انجام می‌شود. بنابراین اگر متن با کلمات مشابه و به قلم دیگر بازنویسی شود، تا حد خوبی می‌توان مشابهت‌های معنایی یافت. برای این‌که سامانه‌های مشابهت‌یاب مثل این سامانه بتوانند کار کنند حجم زیادی از داده نیاز است که اصطلاحا متن‌های ابهام‌زدایی شده یا مشکوک نامیده می‌شوند.

دکتر شمس‌فرد درباره سندهای موجود در این پیکره می‌افزاید: پیکره ما در اصل پیکره زبان فارسی است، اما 3000 سند دوزبانه فارسی ـ انگلیسی هم داریم و اگر مقاله‌ای از زبان انگلیسی ترجمه شده باشد یا برعکس، می‌تواند تشخیص دهد. این پیکره با ساختار زبانشناسی فارسی و واژگان فارسی آشنا ست. درواقع سامانه از دو پیکره تشکیل شده است. پیکره سندهایی که قرار است در آنها تقلب پیدا شود، مجموعه‌ای از سندهای منبع است. 

بعضی سامانه‌ها از مجموعه مقالات و پایان‌نامه‌های جمع‌آوری شده به عنوان سند منبع استفاده می‌کند و سامانه‌هایی وجود دارد که از هر سندی که در اینترنت وجود داشته باشد، می‌تواند به عنوان سند منبع استفاده کند. کاری که الان در مهتاب انجام می‌شود، جست‌وجو از بین مجموعه اسناد مرجع پیکره است. پیکره دوم برای منابعی است که از روی آن یادگیری انجام شود تا سندهای آزمایشی آنجا مقایسه شوند. در این پیکره به صورت دستی یا ماشینی تقلب می‌سازیم و همه اینها پیکره تقلب را تشکیل می‌دهند. در پیکره تقلب سامانه مهتاب 11 هزار سند و در پیکره اصلی بالای 20 هزار سند منبع وجود دارد.

**الگوریتم‌هایی که زبان طبیعی را مهندسی می‌کند
فناوری اطلاعات، چاقوی دولبه‌ای است و همزمان با ایجاد راهی برای دسترسی ساده‌تر به داده‌ها، امکان سرقت علمی را افزایش می‌دهد. بنابراین امنیت ابزارهای فناوری اطلاعات باید در کنار فراهم کردن شرایط مناسب برای دسترسی پژوهشگران به داده‌ها افزایش یابد. پروفسور پائولو روسو (Paolo Rosso)، پژوهشگر دانشگاه پلی‌تکنیک والنسیا در اسپانیا و آزمایشگاه مهندسی زبان طبیعی، الگوریتم‌های تشخیص سرقت علمی را طراحی می‌کند و درباره راهکارهای مبارزه با تقلب علمی به جام‌جم می‌گوید: هر کشوری با پدیده سرقت ادبی روبه‌رو ست و باید برای مقابله با آن راهبرد و راهکارهایی اندیشیده شود. 

مهم‌ترین موضوع این است که افراد و بخصوص دانشجویان از این مساله آگاه شوند و از لحاظ اخلاقی باور داشته باشند که فقط نیاز به گرفتن مدرک و انتشار مقاله ندارند و اخلاق اهمیت بالاتری دارد. متاسفانه در بسیاری از کشورها فقط در دانشگاه‌ها به راهکارهای مقابله با این موضوعات رسیدگی می‌شود، درحالی که باید در سطح ملی و در همه جامعه فرهنگ‌سازی شود. این موضوع نباید در یک جامعه عادی شود. بعد از آگاه‌سازی و رواج فرهنگ صحیح، باید قوانینی برای جلوگیری از پیامدهای تقلب علمی در نظر گرفته شود.

پروفسور روسو درباره مفهوم مهندسی زبان می‌گوید: ما در طراحی الگوریتم‌های مهندسی زبان علاوه بر طراحی راهبردهایی برای ردیابی سرقت ادبی، داده‌کاوی با اهداف دیگری نیز انجام می‌دهیم. برای مثال در ایران شرکت‌های زیادی هستند که محصولاتشان را در اینترنت معرفی می‌کنند و کاربران می‌توانند پس از خرید محصول، نظرات خود را نیز در همان فضا انعکاس دهند. برای شرکت‌ها مهم است چه کسی نظر داده و چرا نظر مثبت یا منفی داده است. 

اگر بتوانیم بفهمیم کسی که نظر داده است مرد یا زن، جوان، میانسال یا نوجوان است، شرکت‌ها می‌توانند با توجه به خواسته‌های کاربران، کار خود را توسعه دهند و هدف بازار خود را بهتر پیدا کنند. اینها به تجزیه و تحلیل نحوه نوشتن کاربران بستگی دارد. افراد در سنین مختلف روش‌های متفاوتی را برای بیان نظرات خود در نظر می‌گیرند، اما قطعا استفاده از این الگوریتم‌ها به نتیجه صددرصد دقیق منجر نمی‌شود و احساسات فرد و مسائل دیگر نیز در این فرآیند تاثیرگذار است.

**سامانه تشخیص سرقت علمی در زبان فارسی
در این همایش یکی از الزامات اخلاق علمی که سرقت علمی است و راه‌های تشخیص و مقابله با آن مورد بحث قرار گرفت و سامانه‌ها و برنامه‌هایی که در مسابقه بین‌المللی سرقت علمی طراحی شده بود، ارائه داده شد. سامانه تشخیص سرقت علمی جهاد دانشگاهی با عنوان سامانه مشابهت‌یاب «همتاجو» به منظور صیانت از حقوق پژوهشگران و حمایت از دستاوردهای علمی کشور طراحی و اجرا شده است. این سامانه علاوه بر تشخیص مشابهت‌های متنی پایان‌نامه‌های دانشجویی، روی یافتن مشابهت‌های متنی در مقالات علمی و پژوهشی فارسی متمرکز شده است. جعل داده‌ها، سایه‌نویسی (نوشتن مقاله به جای دیگران)، درج نام‌افرادی که نقشی در تولید مقاله نداشته‌اند، انتشار دوباره اثر بدون اضافه شدن اطلاعات جدید، از جمله مواردی است که این سامانه بررسی می‌کند.

این سامانه با کمک الگوریتم‌های هوش مصنوعی می‌تواند شباهت‌های متنی را استخراج کند و نتایج را براساس میزان مشابهت نشان دهد. البته باید در نظر داشت خروجی این برنامه به یک انسان برای بررسی نهایی و ارزیابی نیاز دارد تا با توجه به ساختار نوشتار، نظر کارشناسی خود را ارائه کند. از ویژگی‌های این سامانه، امکان تشخیص جابه‌جایی کلمات، شناسایی عبارات جایگزین شده و کشف سرقت علمی بازنویسی شده براساس شبکه معنایی (Semantic Network) است. نقطه قوت این سامانه نیز تشخیص سرقت معنایی با بازآرایی معنایی جملات است. این ویژگی قابلیت دارد ادغام دو جمله در یک جمله یا شکستن یک جمله به دو جمله را شناسایی کند.

**کاوش الگوهای متون علمی
مباحث فنی داده‌کاوی متنی و آشنایی با ابزارهای هوشمند تشخیص تقلب در مقالات از موضوعاتی است که می‌تواند امنیت منابع اطلاعاتی علمی و پژوهشی را افزایش دهد.

دکتر بهروز مینایی بیدگلی، دانشیار دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت، درباره نحوه داده‌کاوی متن به جام‌جم می‌گوید: داده‌کاوی رشته جدیدی بین رشته‌های پایگاه داده و هوش مصنوعی است و نشان می‌دهد هرجا داده‌های زیادی وجود داشته باشد، چطور می‌توان با الگوریتم‌های یادگیری ماشینی برای این داده‌ها الگوهایی تعریف کرد. از جمله این الگوها شاخه‌ای از داده‌کاوی در بحث متون فارسی یا انگلیسی است. 

ویژگی‌های داخل این داده‌ها مرکب از همان کلماتی می‌شود که داخل متن است. ارتباط این کلمات با یکدیگر و جایگاه این کلمات در جملات می‌تواند ویژگی‌هایی باشد که ماشین از روی آنها یاد بگیرد. وظایفی مثل ترجمه ماشینی از یک زبان به زبان دیگر، خلاصه‌سازی متن، یافتن کلمات کلیدی متن و تحلیل نظراتی که بعد از خرید یک کالا داخل شبکه فروش آن کالا قرار داده می‌شود، به‌عهده نرم‌افزارهای داده‌کاوی است. استخراج رابطه‌ای که بین کلمات داخل متن وجود دارد و فهم این‌که متن راجع به چه موضوعی صحبت می‌کند هم علم جدیدی به نام متن‌کاوی را شکل داده است. یکی از کاوش‌های متنی، یافتن متون مشابه است که دو متن چند درصد با یکدیگر تشابه دارند. ممکن است متن با جابه‌جایی کلمات عوض شده باشد یا متون تشابه معنایی داشته باشند. این موضوعات با الگوریتم‌های خاص سرقت ادبی تشخیص داده می‌شود.

شیوه جدید شبکه‌های عصبی عمیق نیز یادگیری فراگیرتر از یادگیری انسان و قدرت پردازش بسیار بالا دارد. این شیوه شبیه یادگیری انسان می‌تواند از روی متون، یادگیری داشته باشد و یکی از وظایف آن پیدا کردن سرقت علمی است. شبکه‌های عصبی می‌توانند تشخیص دهند یک جمله یا بخشی از جمله از جای دیگر گرفته شده است.

*منبع: روزنامه جام جم، 1395.11.14 
نظر شما
نام:
ایمیل:
* نظر: