چالش نوآوری ناشناسسازی دادهها (Data Anonymization Challenge) جایزهای شصتهزار دلاری را برای راهحلهایی وعده داده است که بتوانند اطلاعات هویتی شخصی (PII) افراد را در دادههای نیمهساختاریافته شناسایی کنند و در ادامه آنها را ناشناس سازند.
مهمترین وجه تمایز زمان حال در بازارهای جهان، دسترسی به دادههاست. دادهها میتوانند از طریق یادگیری ماشین (machine learning) و راهحلهای مبتنی بر هوش مصنوعی، منبعی برای استخراج هوش تجاری باشند. اما تهدید این فرصت طلایی چیست؟ رعایت حریم خصوصی.
تقویت تحقیق و توسعه رویکردهای یادگیری ماشین، برای پردازش اسناد مستلزم این است که پژوهشگران اجازه داشته باشند تا با مقادیر زیادی از اسناد واقعی کار کنند. اما برای رعایت مقررات حفاظت از دادهها، شرکتها باید اسناد را ناشناس و هرگونه اطلاعات هویتی شخصی را حذف کنند. کاهشدادن داده باید به شکلی باشد که کمترین تاثیر منفی را در آموزش مدلهای یادگیری ماشین به جای بگذارد. این مسئله منجر شده است تا شرکت SAP یک چالش نوآوری با هدف ناشناسسازی دادههای هویتی برگزار کند.
در چالش نوآوری ناشناسسازی دادهها، شرکتکنندگان با مجموعهای متشکل از 25000 فاکتور کار خواهند کرد. برخی از فاکتورها اسکنهای بیکیفیت هستند و حتی ممکن است حاوی دستنوشتههایی باشند. شرکتکنندگان باید با استفاده از مجموعهدادههای دیگری که در اختیارشان قرار میگیرد، مدلی را مبتنی بر یادگیری ماشین آموزش دهند و تعمیمپذیری آن را در پایگاه داده اصلی بیشینه کنند. این چالش در دو مرحله طراحی شده است:
۱. ایجاد مدلی که بتواند اطلاعات هویتی شخصی (نام شخص، امضا و دستخط) را شناسایی و جداسازی کند.
۲. جایگزینی اطلاعات شناساییشده در مرحله قبل با دادههای ناشناس بهگونهای که کمترین اثر را بر عملکرد الگوریتم یادگیری ماشین داشته باشد. بدین منظور باید سبک، جهتگیری، کاستیها و پیچیدگی دادههای اصلی حفظ شود. دادههای ناشناسشده که نسبت به دادههای اصلی واضحتر و سادهتر باشند، ممکن است اثری منفی بر جامعیت و کیفیت یادگیری ماشین بگذارند.
شرکتکنندگان در این چالش نوآوری، ۲۵ روز پس از اعلام جزئیات چالش فرصت داشتند تا مرحله اول را به پایان برسانند. در پایان این مرحله، به بهترین راهحل پنج هزار دلار جایزه تعلق گرفت. کسانی که این مرحله را با موفقیت طی کردند، وارد مرحله بعد شدند و پنج هزار دلار نیز بین آنها تقسیم شد. گفتنی است شش نفر توانستند از این مرحله گذر کنند.
در مرحله دوم، شرکتکنندگان یک ماه و نیم فرصت داشتند تا به معیارهای فنی تعیینشده برسند. از شش نفری که وارد این مرحله شدند، فقط سه نفر موفق به انجام وظایف مورد نظر در مرحله دوم شدند. هماکنون آنها در مرحله داوری طرحهایشان هستند. قرار است در ماه مارس ۲۰۲۰ مشخص شود که کدام شرکتکننده برنده جایزه سی هزار دلاری نفر اول، پانزده هزار دلاری نفر دوم یا پنج هزار دلاری نفر سوم میشود.