هکرها مدل ChatGPT را با Injection Prompt غیر مستقیم به خطر انداختند.LLM ها در حال حاضر به طور گسترده در بسیاری از برنامه ها استفاده می شوند، اما مدولاسیون انعطاف پذیر از طریق اعلان های طبیعی آسیب پذیری ایجاد می کند.
از آنجایی که این انعطاف پذیری آنها را در برابر حملات هدفمند خصمانه مانند حملات Prompt Injection آسیب پذیر می کند که به مهاجمان اجازه می دهد دستورالعمل ها و کنترل ها را دور بزنند.فراتر از درخواستهای مستقیم کاربر، برنامههای یکپارچه LLM خط دستورالعمل دادهها را محو میکنند. Indirect Prompt Injection به دشمنان اجازه می دهد از راه دور برنامه ها را با تزریق دستورات به داده های قابل بازیابی سوء استفاده کنند.
اخیراً در رویداد Black Hat، محققان امنیت سایبری زیر نشان دادند که چگونه مدل chatGPT را با تزریق سریع غیرمستقیم به خطر انداختند:
Kai Greshake از دانشگاه سارلند و Sequire Technology GmbH
سحر عبدالنبی از مرکز امنیت اطلاعات سیسپا هلمهولتز
شیلش میشرا از دانشگاه سارلند
کریستوف اندرس از Sequire Technology GmbH
تورستن هولز از مرکز امنیت اطلاعات سیسپا هلمهولتز
ماریو فریتز از مرکز امنیت اطلاعات سیسپا هلمهولتز
تزریق سریع غیر مستقیم
تزریق سریع غیرمستقیم LLM ها را به چالش می کشد، خطوط دستورالعمل داده را محو می کند، زیرا دشمنان می توانند از راه دور سیستم ها را از طریق اعلان های تزریقی دستکاری کنند.
بازیابی چنین اعلانهایی بهطور غیرمستقیم مدلها را کنترل میکند و نگرانیهایی را در مورد حوادث اخیر ایجاد میکند که رفتارهای ناخواسته را آشکار میکند.
این نشان می دهد که چگونه دشمنان می توانند عمداً رفتار LLM را در برنامه ها تغییر دهند و میلیون ها کاربر را تحت تأثیر قرار دهند.
بردار حمله ناشناخته تهدیدهای متنوعی را به همراه دارد و باعث ایجاد یک طبقه بندی جامع برای ارزیابی این آسیب پذیری ها از منظر امنیتی می شود.
حملات تزریق سریع (PI) امنیت LLM را تهدید می کند و به طور سنتی در نمونه های فردی، یکپارچه سازی LLM ها آنها را در معرض داده های نامعتبر و تهدیدات جدید “تزریق فوری غیرمستقیم” قرار می دهد.
معرفی «تزریق سریع غیرمستقیم» میتواند تحویل محمولههای هدفمند و نقض مرزهای امنیتی را با یک جستجوی واحد امکانپذیر کند.
روش های تزریق
در زیر تمام روش های تزریقی که توسط محققین شناسایی شده اند را ذکر کرده ایم:
• روش های غیرفعال
• روش های فعال
• تزریق های کاربر محور
• تزریقات پنهان
اقدامات کاهشی
LLM ها نگرانی های اخلاقی گسترده ای را ایجاد می کنند که با استفاده گسترده از آنها در برنامه ها افزایش یافته است. محققان به طور مسئولانه آسیبپذیریهای «تزریق سریع غیرمستقیم» را برای OpenAI و مایکروسافت فاش کردند.با این حال، جدا از این، از نقطه نظر امنیتی، با توجه به حساسیت سریع LLM ها، این تازگی قابل بحث است.هدف GPT-4 مهار فرار از زندان با مداخله RLHF مبتنی بر ایمنی بود. حملات دنیای واقعی علیرغم اصلاحات، مانند الگوی “Whack-A-Mole” همچنان ادامه دارد.تأثیر RLHF بر حملات نامشخص است. سوالات کار نظری دفاع کامل. تعامل عملی بین حملات، دفاع و پیامدهای آنها نامشخص است.RLHF و برنامههای دفاعی ناشناس در دنیای واقعی میتوانند با حملات مقابله کنند. موفقیت Bing Chat با فیلترهای اضافی سوالاتی را در مورد فرار با مبهم سازی یا رمزگذاری قوی تر در مدل های آینده ایجاد می کند.
دفاعی مانند پردازش ورودی برای فیلتر کردن دستورالعمل ها، مشکلاتی را ایجاد می کند. متعادل کردن مدلهای کمتر عمومی برای جلوگیری از تلهها و تشخیص ورودی پیچیده چالش برانگیز است.از آنجایی که آزمایش کدگذاری Base64 به دستورالعملهای صریح نیاز داشت، مدلهای آینده ممکن است رمزگشایی را با درخواستهای خودکدگذاری شده خودکار کنند.دفاعی مانند پردازش ورودی برای فیلتر کردن دستورالعمل ها، مشکلاتی را ایجاد می کند. متعادل کردن مدلهای کمتر عمومی برای جلوگیری از تلهها و تشخیص ورودی پیچیده چالش برانگیز است.از آنجایی که آزمایش کدگذاری Base64 به دستورالعملهای صریح نیاز داشت، مدلهای آینده ممکن است رمزگشایی را با درخواستهای خودکدگذاری شده خودکار کنند.
دیدگاهتان را بنویسید