حمله خصمانه به مدل‌های هوش‌مصنوعی

محمد خالوئی
۳۱ شهریور ۱۴۰۱

هشدار امنیتی در خصوص لزوم ایجاد آزمایشگاه‌های ارزیابی امنیتی محصولات هوش‌مصنوعی

امروزه شبکه‌های عصبی به‌عنوان یکی از بهترین ابزارهای مطرح در هوش‌مصنوعی و یادگیری ماشین شناخته شده‌اند و در انجام کار‌های متنوع مورد استفاده قرار می‌گیرند. در سال‌های اخیر موارد متعددی از آسیب‌پذیری این شبکه‌ها مطرح شده است [1]–[20]. این آسیب‌پذیری‌ها غالباً با افزودن اختلالات و تغییرات بسیار اندک به‌صورت جمع‌شونده و غیر جمع‌شونده در داده ورودی ایجاد می‌شوند. این اختلالات موجب می‌شوند که با وجود نامحسوس بودن تغییرات اعمال شده در ورودی از دیدگاه عامل انسانی، خروجی مدل‌های آموزش دیده تغییر یابند. ناکارآمد شدن این شبکه‌ها به دلیل شکست در مقابل حملات خصمانه موجب گردیده است که توجه برخی از پژوهشگران فعال در عرصه یادگیری عمیق به بررسی و تحلیل دقیق‌تر این شبکه‌ها و مقاوم‌سازی آن‌ها نسبت به اینگونه حملات معطوف گردد.

تصویر 1: نمودار تجمعی مقالات منتشر شده در حوزه حملات خصمانه

به مجموعه‌ای از عملیات خصمانه که موجب شوند تا بدون تغییر محسوس داده از دیدگاه انسانی، مدل هوش‌مصنوعی در تعیین کلاس داده دچار اشتباه شود حمله گفته می‌شود. در روش‌های حمله به دنبال شناسایی راه‌حل‌ها و روش‌های تغییر داده ورودی و فریب مدل‌های هوش‌مصنوعی و در نتیجه تغییر کلاس خروجی مدل می‌باشند [1], [2].

از جنبه‌های مثبت حمله‌ به مدل‌های هوش‌مصنوعی، همانند هدف هکرهای کلاه‌سفید می‌توان جهت ارزیابی و شناسایی آسیب‌پذیری^[1] مدل‌های هوش‌مصنوعی استفاده کرد.

نمونه ساده‌ای از حملات در در شکل 1 به تصویر کشیده شده است. همان‌طور که از سمت چپ به راست مشاهده می‌شود تصویر ورودی توسط یک مدل دسته‌بندی هوش‌مصنوعی با دقت 89% «لیوان یا ماگ» تشخیص داده شده است. پس از افزودن میزان بسیار کمی (0.0008) اختلال خصمانه، تصویر حاصل شده سمت راست با اینکه از نگاه عامل انسانی همچنان همان کلاس قبلی (لیوان، ماگ) را خواهد داشت اما این‌بار همان مدل هوش‌مصنوعی قبلی، تصویر حاصل را با دقت %99.3 «اتوموبیل»‌ تشخیص داده ‌است. این تغییر و اختلال ساده که به ظاهر دیده نمی‌شود ولی توانسته خروجی مدل را تغییر دهد می‌تواند آسیب‌پذیری مدل‌های هوش‌مصنوعی را بیش از پیش نشان دهد.

تصویر 2: نمونه یک حمله و تغییر کلاس

با توجه به آنچه تاکنون بیان شده است، به تغییرات بسیار اندک که در عین نامحسوس بودن از دیدگاه عامل انسانی، از نظر مدل یادگیری ماشینی موجب تغییر کلاس داده شود، اختلال گویند. اغلب پیداکردن یک اختلال مناسب، نیازمند حل مسئله بهینه‌سازی است ولی در برخی مواقع متناسب با شرایط، ممکن است از روش‌های سعی و خطا نیز استفاده شود. اغلب هر اختلال قادر به تغییر کلاس یک داده خاص است و قابلیت عام بودن ندارد. اما می‌توان با روش‌هایی اختلال عام‌منظوره‌ای^[2] (همگانی) تولید نمود که پس از اعمال روی مجموعه‌ای از داده‌ها موجب فریب مدل گردد [21], [22]. صورت کلی مسئله حمله به صورت رابطه (1) تبیین می‌شود [1], [2]:

F(x+η)≠F(x) (1

در رابطه (1)، منظور از η همان اختلال و F دسته‌بند یا مدل فراگرفته شده مسئله می‌باشد. هدف از رابطه فوق این است که در زمان ترکیب اختلال با داده اصلی، داده‌ای تولید شود که باعث فریب و به اشتباه ‌افتادن مدل گردد. حال اگر مسئله بهینه‌سازی را با در نظر گرفتن شرایط تبیین نماییم، مسئله پیدا‌کردن یک اختلال به صورت رابطه تعریف می‌شود:

در رابطه (2)، منظور از ‖∙‖_p نرم l_pمی‌باشد. همان‌طور که مشخص است؛ رابطه (2) حالت کلی مسئله بهینه‌سازی پیدا‌کردن کوچکترین اختلال همراه با برقراری شرایط رابطه (1) می‌باشد. حملات با استفاده از ایده‌های مختلف، اختلال‌ها را پیدا می‌کنند.

در مقابل روش‌های حمله، به کلیه فرآیندهایی که به مقابله با آسیب‌پذیری مدل‌های هوش‌مصنوعی نسبت به نمونه‌های خصمانه می‌پردازند دفاع گفته می‌شود. این فرآیند‌ها شامل روش‌های متنوعی هستند که پاسخ مدل را نسبت به ورودی‌ خصمانه کنترل می‌کنند. همچنین در برخی روش‌ها دقت و تعمیم‌پذیری مدل نیز افزایش می‌یابد [4], [5], [12], [16], [23], [24]. روش‌های دفاع و مقابله با حملات و نمونه‌های خصمانه به دو دسته روش‌های کنشی^[3] و روش‌های پیش‌کنشی^[4] تقسیم‌بندی می‌شوند [4], [25]. در روش‌های کنشی پس از ساخت شبکه عصبی (مدل)، به بررسی آسیب‌پذیری و مقابله با نمونه خصمانه می‌پردازیم. در برخی روش‌ها پس از تشخیص خصمانه‌بودن نمونه ورودی، آن ورودی از ادامه فرآیند خارج شده و پس از طی چند مرحله (مراحل پاک‌سازی) مجدداً به فرآیند عادی برگشت داده می‌شود. در روش‌های پیش‌کنشی بیشتر به ماهیت شبکه عصبی عمیق توجه می‌شود. درواقع سعی می‌شود تا طراحی معماری شبکه، تابع هزینه یا بخش‌بندی‌های مشابه به‌گونه‌ای تغییر یابند که مدل نسبت به حملات و نمونه‌های متنوع خصمانه مقاوم باشد.

تصویر 3: هشدار نشت داده‌های یک مدل هوش‌مصنوعی

باتوجه به اینکه روش‌های مبتنی بر شبکه‌های عصبی عمیق داده زیادی را نیاز دارند، از این‌رو دادگان آموزشی برای هر شرکت و موسسه‌ای که مدل هوش‌مصنوعی را تولید می‌کند مهم است. از همین جهت نوع دیگری از حملات به منظور استخراج داده‌های آموزشی از یک مدل هوش‌مصنوعی از پیش‌تعلیم دیده شده نیز وجود دارد. استخراج داده‌های حساس و محرمانه و یا هویتی نیز یکی از معضلات تسلیم‌شدن نسبت به این رویکردهای حمله است و تحت عنوان نشت حریم‌خصوصی نیز اطلاق می‌شود. لذا نیاز است که مدل‌های هوش‌مصنوعی نسبت به این نوع از حملات نیز مقاوم باشند [26], [27].

باتوجه به اینکه در برخی مدل‌های هوش‌مصنوعی نظیر شبکه‌های عصبی، قابلیت تفسیرپذیری به ندرت و با پیچیدگی زیادی وجود دارد، شناسایی یک راه‌حل مناسب جهت دفاع نسبت به حملات خصمانه و یا تعمیم‌پذیری مدل نیز تاحدی سخت و پیچیده است. این بحث تا حدی مهم است که به یک شاخه تخصصی در هوش‌مصنوعی به نام XAI یا eXplainable AI تبدیل شده است [28]. در تصویر 3 وضعیت تفسیرپذیری مدل‌های پرکاربرد نشان داده شده است. مشاهده می‌شود که شبکه‌های عصبی با اینکه در سال‌های اخیر به دقت‌های بسیارخوبی در وظایف مختلف نظیر دسته‌بندی^[5] و بخش‌بندی^[6] و … رسیده‌اند، اما از لحاظ تفسیرپذیری در مقام پایینی قرار دارند. از همین‌رو مجموعه‌های بزرگ تحقیقاتی و حتی نظامی پروژه‌های کلانی را روی موضوعات تعریف نموده‌اند.

برای نمونه سازمان پروژه‌های پژوهشی پیشرفته دفاعی DARPA^[7] چندین پروژه تحقیقاتی در این خصوص ایجاد کرده و سرمایه‌گذاری قابل توجهی بر روی آن‌ها داشته است [29], [30].

تصویر 4: نمایی از میزان تفسیرپذیری مدل‌های پرکاربرد هوش‌مصنوعی [به‌صورت اختصاصی برای مجله رصد از منبع 30، فارسی شده است]

نظر نویسنده

استفاده از مدل‌های آسیب‌پذیر در فعالیت‌های مختلف ارزیابی و به‌خصوص امنیتی نظیر احراز هویت صوتی یا تصویری یا … می‌تواند مخاطرات متعددی را داشته باشد و نیاز است تا واحدهای نظارت و ارزیابی بر مدل‌های هوش‌ مصنوعی نیز در آینده نزدیک کشور ایجاد گردند. درواقع همانند محصولات غذایی، برچسب تاییدیه سطح کیفی بر محصولات هوش‌مصنوعی نیز زده شود.

منابع

[1] C. Szegedy et al., “Intriguing properties of neural networks,” in International Conference on Learning Representations, Dec. 2014.

[2] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” 3rd International Conference on Learning Representations, ICLR 2015 – Conference Track Proceedings, 2015.

[3] A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu, “Towards Deep Learning Models Resistant to Adversarial Attacks,” in International Conference on Learning Representations, Feb. 2018.

[4] A. Chakraborty, M. Alam, V. Dey, A. Chattopadhyay, and D. Mukhopadhyay, “Adversarial Attacks and Defences: A Survey,” Sep. 28, 2018. http://arxiv.org/abs/1810.00069 (accessed Aug. 17, 2019).

[5] N. Akhtar and A. Mian, “Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey,” IEEE Access, vol. 6, pp. 14410–14430, Feb. 2018.

[6] Y. Li, L. Li, L. Wang, T. Zhang, and B. Gong, “N Attack: Learning the distributions of adversarial examples for an improved black-box attack on deep neural networks,” in 36th International Conference on Machine Learning, ICML 2019, 2019, vol. 2019-June, pp. 6860–6870.

[7] F. Assion et al., “The Attack Generator: A Systematic Approach Towards Constructing Adversarial Attacks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2019. Accessed: Sep. 17, 2019. [Online]. Available: http://arxiv.org/abs/1906.07077

[8] S. Thys, W. van Ranst, and T. Goedemé, “Fooling automated surveillance cameras: adversarial patches to attackperson detection,” in Proceedings of the IEEE International Conference on Computer Vision (CVPR) Workshop, 2019, vol. abs/1904.0. [Online]. Available: http://arxiv.org/abs/1904.08653

[9] H. M. Arjomandi, M. Khalooei, and M. Amirmazlaghani, “Limited Budget Adversarial Attack Against Online Image Stream,” in International Conference on Machine Learning Workshop on Adversarial Machine Learning, 2021.

[10] Z. Yao, A. Gholami, P. Xu, K. Keutzer, and M. W. Mahoney, “Trust Region Based Adversarial Attack on Neural Networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2019.

[11] J. Su, D. V. Vargas, and K. Sakurai, “One Pixel Attack for Fooling Deep Neural Networks,” IEEE Transactions on Evolutionary Computation, vol. 23, no. 5, pp. 828–841, Oct. 2019, doi: 10.1109/TEVC.2019.2890858.

[12] S. Qiu, Q. Liu, S. Zhou, and C. Wu, “Review of Artificial Intelligence Adversarial Attack and Defense Technologies,” Applied Sciences, vol. 9, no. 5, p. 909, Mar. 2019, doi: 10.3390/app9050909.

[13] A. Kurakin et al., “Adversarial Attacks and Defences Competition,” ArXiv, vol. abs/1804.0, 2018.

[14] A. Joshi, G. Jagatap, and C. Hegde, “Adversarial Token Attacks on Vision Transformers,” Oct. 2021, Accessed: Nov. 21, 2022. [Online]. Available: http://arxiv.org/abs/2110.04337

[15] Y. Wang, W. Zhang, T. Shen, H. Yu, and F. Y. Wang, “Binary thresholding defense against adversarial attacks,” Neurocomputing, vol. 445, pp. 61–71, Jul. 2021.

[16] A. ArjomandBigdeli, M. Amirmazlaghani, and M. Khalooei, “Defense against adversarial attacks using DRAGAN,” in Iranian Conference on Signal Processing and Intelligent Systems, 2020, pp. 1–5.

[17] F. Tramèr, A. Kurakin, N. Papernot, I. Goodfellow, D. Boneh, and P. McDaniel, “Ensemble Adversarial Training:Attacks and Defenses,” International Conference on Learning Representations, May 2018.

[18] H. Zhang, H. Chen, Z. Song, D. Boning, I. Dhillon, and C. J. Hsieh, “The limitations of adversarial training and the blind-spot attack,” in Proceedings of the International Conference on Learning Representations (ICLR), 2019.

[19] Z. Che, A. Borji, G. Zhai, S. Ling, J. Li, and P. le Callet, “A New Ensemble Adversarial Attack Powered by Long-Term Gradient Memories,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 04 SE-AAAI Technical Track: Machine Learning, pp. 3405–3413, Apr. 2020, doi: 10.1609/aaai.v34i04.5743.

[20] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-Box Attacks against Machine Learning,” in Proceedings of the ACM on Asia Conference on Computer and Communications Security (ASIA CCS), 2017, pp. 506–519. doi: 10.1145/3052973.3053009.

[21] S. M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, “Universal adversarial perturbations,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. doi: 10.1109/CVPR.2017.17.

[22] J. Wu and R. Fu, “Universal, transferable and targeted adversarial attacks,” Aug. 29, 2019. http://arxiv.org/abs/1908.11332 (accessed Dec. 31, 2019).

[23] X. Zhang, X. Zheng, and W. Mao, “Adversarial Perturbation Defense on Deep Neural Networks,” ACM Comput. Surv., vol. 54, no. 8, Oct. 2021, doi: 10.1145/3465397.

[24] Google Brain team, “NIPS 2017: Defense Against Adversarial Attack | Kaggle.” https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack (accessed Oct. 04, 2019).

[25] X. Yuan, P. He, Q. Zhu, and X. Li, “Adversarial Examples: Attacks and Defenses for Deep Learning,” IEEE Trans Neural Netw Learn Syst, vol. 30, no. 9, pp. 2805–2824, Sep. 2019, doi: 10.1109/TNNLS.2018.2886017.

[26] L. Song, R. Shokri, and P. Mittal, “Privacy Risks of Securing Machine Learning Models against Adversarial Examples,” Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, 2019.

[27] R. Shokri, M. Strobel, and Y. Zick, “On the Privacy Risks of Model Explanations,” Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, 2019.

[28] P. Linardatos, V. Papastefanopoulos, and S. B. Kotsiantis, “Explainable AI: A Review of Machine Learning Interpretability Methods,” Entropy, vol. 23, 2020.

[29] “Explainable Artificial Intelligence.” https://www.darpa.mil/program/explainable-artificial-intelligence (accessed Dec. 06, 2022).

[30] D. Gunning, E. S. Vorm, J. Y. Wang, and M. Turek, “DARPA ’s Explainable AI ( XAI ) program: A retrospective,” Applied AI Letters, 2021.

پی‌نوشت

[1] Vulnerability

[2] Universal

[3] Reactive

[4] Preactive

[5] Classification

[6] Segmentation

[7] Defense advanced research projects agency

مقالات مشابه

اینترنت اشیاء

دوقلوی دیجیتال؛ بازوی توانمندساز انقلاب صنعتی چهارم

علیرغم پیشرفت‌های شگرفی که در راستای تجزیه و تحلیل داده‌های پیچیده صورت گرفته است، همچنان بسیاری از رویکرد‌ها و برنامه‌ریزی‌های راهبردی سازمان‌ها توسط مدیران ارشد صنعت وابستگی قابل تأملی به

تیم تحریریه ۲۷ آذر ۱۴۰۳

رصد فناوری

آینده اپراتورهای مخابراتی با هوش مصنوعی مولد: از فرصت‌های نوین تا چالش‌های کلیدی

چکیده:ظهور هوش مصنوعی مولد هم فرصت است و هم چالش. مکنزی پیش‌بینی کرده است[1] که هوش مصنوعی مولد Gen-AI[2] ضمن افزایش بهره‌وری کلیه مدل‌های به‌کارگیری هوش‌مصنوعی، بین 2.6 تا 4.4

تیم تحریریه ۳۱ شهریور ۱۴۰۳

رصد فناوری

اتوماسیون سیستم‌های پشتیبانی شبکه و عملیات با کمک هوش مصنوعی مولد

چکیده: سیستم‌های پشتیبان عملیات[1] عضوی اساسی در شبکه‌های مخابرات سیار هستند که وظیفه آن‌ها پایش و هماهنگی مشتریان، خدمات، منابع، فرآیندها و فعالیت‌های شبکه است. با توجه به رشد روزافزون

تیم تحریریه ۳۱ شهریور ۱۴۰۳

حمله خصمانه به مدل‌های هوش‌مصنوعی

فهرست:

هشدار امنیتی در خصوص لزوم ایجاد آزمایشگاه‌های ارزیابی امنیتی محصولات هوش‌مصنوعی

نظر نویسنده

منابع

پی‌نوشت

مقالات مشابه

دوقلوی دیجیتال؛ بازوی توانمندساز انقلاب صنعتی چهارم

آینده اپراتورهای مخابراتی با هوش مصنوعی مولد: از فرصت‌های نوین تا چالش‌های کلیدی

اتوماسیون سیستم‌های پشتیبانی شبکه و عملیات با کمک هوش مصنوعی مولد

با فناوری همراه همیشه به‌روز باشید

دسته‌بندی

لینک‌های مرتبط

اطلاعات تماس