هکرها مدل ChatGPT را به خطر انداختند

هکرها مدل ChatGPT را با Injection Prompt غیر مستقیم به خطر انداختند.LLM ها در حال حاضر به طور گسترده در بسیاری از برنامه ها استفاده می شوند، اما مدولاسیون انعطاف پذیر از طریق اعلان های طبیعی آسیب پذیری ایجاد می کند.

از آنجایی که این انعطاف پذیری آنها را در برابر حملات هدفمند خصمانه مانند حملات Prompt Injection آسیب پذیر می کند که به مهاجمان اجازه می دهد دستورالعمل ها و کنترل ها را دور بزنند.فراتر از درخواست‌های مستقیم کاربر، برنامه‌های یکپارچه LLM خط دستورالعمل داده‌ها را محو می‌کنند. Indirect Prompt Injection به دشمنان اجازه می دهد از راه دور برنامه ها را با تزریق دستورات به داده های قابل بازیابی سوء استفاده کنند.

اخیراً در رویداد Black Hat، محققان امنیت سایبری زیر نشان دادند که چگونه مدل chatGPT را با تزریق سریع غیرمستقیم به خطر انداختند:

Kai Greshake از دانشگاه سارلند و Sequire Technology GmbH
سحر عبدالنبی از مرکز امنیت اطلاعات سیسپا هلمهولتز
شیلش میشرا از دانشگاه سارلند
کریستوف اندرس از Sequire Technology GmbH
تورستن هولز از مرکز امنیت اطلاعات سیسپا هلمهولتز
ماریو فریتز از مرکز امنیت اطلاعات سیسپا هلمهولتز

تزریق سریع غیر مستقیم

تزریق سریع غیرمستقیم LLM ها را به چالش می کشد، خطوط دستورالعمل داده را محو می کند، زیرا دشمنان می توانند از راه دور سیستم ها را از طریق اعلان های تزریقی دستکاری کنند.

بازیابی چنین اعلان‌هایی به‌طور غیرمستقیم مدل‌ها را کنترل می‌کند و نگرانی‌هایی را در مورد حوادث اخیر ایجاد می‌کند که رفتارهای ناخواسته را آشکار می‌کند.

این نشان می دهد که چگونه دشمنان می توانند عمداً رفتار LLM را در برنامه ها تغییر دهند و میلیون ها کاربر را تحت تأثیر قرار دهند.

بردار حمله ناشناخته تهدیدهای متنوعی را به همراه دارد و باعث ایجاد یک طبقه بندی جامع برای ارزیابی این آسیب پذیری ها از منظر امنیتی می شود.

حملات تزریق سریع (PI) امنیت LLM را تهدید می کند و به طور سنتی در نمونه های فردی، یکپارچه سازی LLM ها آنها را در معرض داده های نامعتبر و تهدیدات جدید “تزریق فوری غیرمستقیم” قرار می دهد.
معرفی «تزریق سریع غیرمستقیم» می‌تواند تحویل محموله‌های هدفمند و نقض مرزهای امنیتی را با یک جستجوی واحد امکان‌پذیر کند.

روش های تزریق

در زیر تمام روش های تزریقی که توسط محققین شناسایی شده اند را ذکر کرده ایم:

•   روش های غیرفعال
•   روش های فعال
•   تزریق های کاربر محور
•   تزریقات پنهان

اقدامات کاهشی

LLM ها نگرانی های اخلاقی گسترده ای را ایجاد می کنند که با استفاده گسترده از آنها در برنامه ها افزایش یافته است. محققان به طور مسئولانه آسیب‌پذیری‌های «تزریق سریع غیرمستقیم» را برای OpenAI و مایکروسافت فاش کردند.با این حال، جدا از این، از نقطه نظر امنیتی، با توجه به حساسیت سریع LLM ها، این تازگی قابل بحث است.هدف GPT-4 مهار فرار از زندان با مداخله RLHF مبتنی بر ایمنی بود. حملات دنیای واقعی علیرغم اصلاحات، مانند الگوی “Whack-A-Mole” همچنان ادامه دارد.تأثیر RLHF بر حملات نامشخص است. سوالات کار نظری دفاع کامل. تعامل عملی بین حملات، دفاع و پیامدهای آنها نامشخص است.RLHF و برنامه‌های دفاعی ناشناس در دنیای واقعی می‌توانند با حملات مقابله کنند. موفقیت Bing Chat با فیلترهای اضافی سوالاتی را در مورد فرار با مبهم سازی یا رمزگذاری قوی تر در مدل های آینده ایجاد می کند.

دفاعی مانند پردازش ورودی برای فیلتر کردن دستورالعمل ها، مشکلاتی را ایجاد می کند. متعادل کردن مدل‌های کمتر عمومی برای جلوگیری از تله‌ها و تشخیص ورودی پیچیده چالش برانگیز است.از آنجایی که آزمایش کدگذاری Base64 به دستورالعمل‌های صریح نیاز داشت، مدل‌های آینده ممکن است رمزگشایی را با درخواست‌های خودکدگذاری شده خودکار کنند.دفاعی مانند پردازش ورودی برای فیلتر کردن دستورالعمل ها، مشکلاتی را ایجاد می کند. متعادل کردن مدل‌های کمتر عمومی برای جلوگیری از تله‌ها و تشخیص ورودی پیچیده چالش برانگیز است.از آنجایی که آزمایش کدگذاری Base64 به دستورالعمل‌های صریح نیاز داشت، مدل‌های آینده ممکن است رمزگشایی را با درخواست‌های خودکدگذاری شده خودکار کنند.