چالش نوآوری SAP: ناشناس‌سازی داده‌ها

چالش نوآوری SAP: ناشناس‌سازی داده‌ها

چالش نوآوری ناشناس‌سازی داده‌ها (Data Anonymization Challenge) جایزه‌ای شصت‌هزار دلاری را برای راه‌حل‌هایی وعده داده است که بتوانند اطلاعات هویتی شخصی (PII) افراد را در داده‌های نیمه‌ساختاریافته شناسایی کنند و در ادامه آن‌ها را ناشناس سازند.
مهمترین وجه تمایز زمان حال در بازارهای جهان، دسترسی به داده‌هاست. داده‌ها می‌توانند از طریق یادگیری ماشین (machine learning) و راه‌حل‌های مبتنی بر هوش مصنوعی، منبعی برای استخراج هوش تجاری باشند. اما تهدید این فرصت طلایی چیست؟ رعایت حریم خصوصی.
تقویت تحقیق و توسعه رویکردهای یادگیری ماشین، برای پردازش اسناد مستلزم این است که پژوهشگران اجازه داشته باشند تا با مقادیر زیادی از اسناد واقعی کار کنند. اما برای رعایت مقررات حفاظت از داده‌ها، شرکت‌ها باید اسناد را ناشناس و هرگونه اطلاعات هویتی شخصی را حذف کنند. کاهش‌دادن داده باید به شکلی باشد که کمترین تاثیر منفی را در آموزش مدل‌های یادگیری ماشین به جای بگذارد. این مسئله منجر شده است تا شرکت SAP یک چالش نوآوری با هدف ناشناس‌سازی داده‌های هویتی برگزار کند.
در چالش نوآوری ناشناس‌سازی داده‌ها، شرکت‌کنندگان با مجموعه‌ای متشکل از 25000 فاکتور کار خواهند کرد. برخی از فاکتورها اسکن‌های بی‌کیفیت هستند و حتی ممکن است حاوی دست‌نوشته‌هایی باشند. شرکت‌کنندگان باید با استفاده از مجموعه‌داده‌های دیگری که در اختیارشان قرار می‌گیرد، مدلی را مبتنی بر یادگیری ماشین آموزش دهند و تعمیم‌پذیری آن را در پایگاه داده اصلی بیشینه کنند. این چالش در دو مرحله طراحی شده است:
۱. ایجاد مدلی که بتواند اطلاعات هویتی شخصی (نام شخص، امضا و دست‌خط) را شناسایی و جداسازی کند.
۲. جایگزینی اطلاعات شناسایی‌شده در مرحله قبل با داده‌های ناشناس به‌گونه‌ای که کمترین اثر را بر عملکرد الگوریتم یادگیری ماشین داشته باشد. بدین منظور باید سبک، جهت‌گیری، کاستی‌ها و پیچیدگی داده‌های اصلی حفظ شود. داده‌های ناشناس‌شده که نسبت به داده‌های اصلی واضح‌تر و ساده‌تر باشند، ممکن است اثری منفی بر جامعیت و کیفیت یادگیری ماشین بگذارند.
شرکت‌کنندگان در این چالش نوآوری، ۲۵ روز پس از اعلام جزئیات چالش فرصت داشتند تا مرحله اول را به پایان برسانند. در پایان این مرحله، به بهترین راه‌حل پنج هزار دلار جایزه تعلق گرفت. کسانی که این مرحله را با موفقیت طی کردند، وارد مرحله بعد شدند و پنج‌ هزار دلار نیز بین آن‌ها تقسیم شد. گفتنی است شش نفر توانستند از این مرحله گذر کنند.
در مرحله دوم، شرکت‌کنندگان یک ماه و نیم فرصت داشتند تا به معیارهای فنی تعیین‌شده برسند. از شش نفری که وارد این مرحله شدند، فقط سه نفر موفق به انجام وظایف مورد نظر در مرحله دوم شدند. هم‌اکنون آن‌ها در مرحله داوری طرح‌هایشان هستند. قرار است در ماه مارس ۲۰۲۰ مشخص شود که کدام شرکت‌کننده برنده جایزه سی هزار دلاری نفر اول، پانزده هزار دلاری نفر دوم یا پنج هزار دلاری نفر سوم می‌شود.

ارسال یک دیدگاه

ایمیل شما منتشر نخواهد شد.