OpenAI می‌گوید حملات Prompt Injection تهدیدی جدی برای مرورگرهای هوش مصنوعی هستند

admin | دی ۴, ۱۴۰۴ | اپلیکیشن | بدون دیدگاه

OpenAI مرورگر خود را برای تقویت حفاظت در برابر حملات تزریق پرامپت به‌روزرسانی کرده، اما هشدار داده است که این خطر ممکن است هرگز به‌طور کامل از بین نرود.

مرورگر ChatGPT Atlas شرکت OpenAI که در ماه اکتبر منتشر شد، شامل «حالت عامل» (Agent Mode) است؛ حالتی که صفحات وب را بررسی می‌کند و می‌تواند با کلیک کردن، تراکنش‌ها، فرم‌ها و سایر کارهای آنلاین را انجام دهد.
اما OpenAI اشاره کرد هرچه یک عامل مرورگر بتواند کارهای بیشتری انجام دهد، بیشتر هم در معرض «حملات خصمانه» قرار می‌گیرد — به‌ویژه تزریق پرامپت؛ روشی که در آن دستورهای مخرب به‌طور پنهانی وارد می‌شوند تا رفتار عامل را هدایت کنند.
OpenAI در یک پست وبلاگی نوشت:
«تزریق پرامپت یکی از مهم‌ترین ریسک‌هایی است که ما به‌طور فعال با آن مقابله می‌کنیم تا اطمینان حاصل شود ChatGPT Atlas می‌تواند به‌طور امن از طرف شما عمل کند.»
در واقع، تنها چند روز پس از انتشار مرورگر OpenAI، پژوهشگران امنیتی چندین نقص جدی را شناسایی کردند؛ از جمله یک تکنیک تزریق پرامپت. به همین دلیل هم تعجبی ندارد که تحلیل‌گران گارتنر به شرکت‌ها هشدار داده‌اند برای جلوگیری از ریسک‌های امنیتی، استفاده از مرورگرهای هوش مصنوعی را ممنوع کنند.
OpenAI اعلام کرد که اخیراً محافظت‌های امنیتی عامل در ChatGPT Atlas را به‌روزرسانی کرده و یک مدل جدید به آن داده است که «به‌صورت خصمانه آموزش دیده»، و همچنین یک «چرخهٔ پاسخ سریع» برای شناسایی نقص‌ها و رفع آن‌ها توسعه داده است.
این اقدام در پی «رد تیمینگ» (Red Teaming) انجام شد؛ روشی که در آن یک تیم داخلی نقش مهاجمان را بازی می‌کند تا سیستم را از نظر نقص‌ها و ضعف‌ها آزمایش کند. در این مورد، یافته‌ها نشان می‌دهد تزریق پرامپت یک «چالش بلندمدت امنیتی در هوش مصنوعی» است.

OpenAI گفت:
«تزریق پرامپت، درست مانند کلاهبرداری‌ها و مهندسی اجتماعی در وب، بعید است هرگز به‌طور کامل “حل” شود.»
با این حال، این شرکت افزود:
«اما خوش‌بین هستیم که یک چرخهٔ پاسخ سریعِ پیش‌دستانه و بسیار واکنش‌پذیر می‌تواند در گذر زمان، ریسک‌های دنیای واقعی را به‌طور معناداری کاهش دهد.»

OpenAI ادامه داد:
«با ترکیب کشف خودکار حملات، آموزش خصمانه و محافظت‌های سطح سیستم، می‌توانیم الگوهای جدید حمله را زودتر شناسایی کنیم، شکاف‌ها را سریع‌تر ببندیم و به‌طور مداوم هزینهٔ سوءاستفاده را بالا ببریم.»
چالش جدید برای مرورگرهای هوش مصنوعی
تزریق پرامپت زمانی رخ می‌دهد که مهاجمان بین جعبهٔ پرامپتِ عامل و مدل هوش مصنوعی قرار می‌گیرند و دستورها را تغییر می‌دهند تا نتایج مخرب ایجاد کنند. این یک مشکل جدید برای مرورگرهایی است که به قابلیت‌های هوش مصنوعی مجهز شده‌اند — و تعدادشان هم رو به افزایش است.
مسئلهٔ اصلی این است که از آنجا که عامل‌ها می‌توانند بسیاری از همان کارهایی را انجام دهند که یک کاربر انجام می‌دهد، OpenAI می‌گوید پیامدهای یک حملهٔ موفق می‌تواند «به همان اندازه گسترده» باشد.
به‌عنوان مثال، OpenAI توضیح داد که یک مهاجم می‌تواند ایمیلی مخرب ارسال کند تا عامل را فریب دهد و به‌جای درخواست واقعی کاربر، دستور دهد اسناد حساس را ارسال کند.
کاربر برای یک کار مشروع — مثلاً خلاصه‌سازی ایمیل‌ها — دسترسی به ایمیل می‌دهد، اما اگر عامل دستورهای تزریق‌شده را هم اجرا کند، ممکن است داده‌های حساس افشا شوند.

مقابله با تهدید
OpenAI پیش‌تر هم تلاش‌هایی برای محافظت در برابر چنین حملاتی انجام داده بود، اما اکنون تکنیک‌های جدیدی را برای جلوگیری از تزریق پرامپت اضافه می‌کند.
نخست، این شرکت یک «هکرِ مبتنی بر هوش مصنوعی» ساخته است تا به‌عنوان ابزار رد تیمینگ خودکار استفاده شود و به‌صورت پیش‌دستانه به دنبال حملات تزریق پرامپت بگردد — حتی حملات پیچیده‌ای که صدها مرحله دارند.

OpenAI گفت:
«ما این مهاجم را به‌صورت سرتاسری با یادگیری تقویتی آموزش دادیم، به‌طوری که از موفقیت‌ها و شکست‌های خودش یاد می‌گیرد تا مهارت‌های رد تیمینگ خود را بهبود دهد.»
علاوه بر این، OpenAI چیزی را توسعه داده که آن را «چرخهٔ جواب سریع» می‌نامد. وقتی رد تیم خودکار یک تکنیک بالقوهٔ تزریق را شناسایی می‌کند، آن یافته از طریق آموزش خصمانه به هوش مصنوعی بازخورانده می‌شود.
این شرکت افزود:
«ما به‌طور مداوم مدل‌های عاملِ به‌روزشده را در برابر بهترین مهاجم خودکارمان آموزش می‌دهیم — با اولویت دادن به حملاتی که عامل‌های هدف در حال حاضر در برابرشان شکست می‌خورند.»

OpenAI توضیح داد:
«هدف این است که به عامل‌ها آموزش دهیم دستورهای خصمانه را نادیده بگیرند و با نیت کاربر هم‌راستا بمانند، تا مقاومت آن‌ها در برابر راهبردهای تازه‌کشف‌شدهٔ تزریق پرامپت افزایش یابد.»
همچنین، هنگام استفاده از عامل در مرورگر ChatGPT Atlas، OpenAI توصیه کرد تا حد امکان از حالت «خارج از حساب» (logged out) استفاده شود و فقط زمانی که برای انجام یک کار لازم است وارد حساب شوید، و از کاربران خواست همهٔ درخواست‌های تأیید را با دقت بررسی کنند.
در مورد پرامپت‌ها هم بهتر است مشخص و دقیق باشید، نه کلی؛ مثلاً گفتنِ «ایمیل‌هایم را بررسی کن و هر کاری لازم است انجام بده» فضای دخالت را برای مهاجمان فراهم می‌کند.