OpenAI میگوید حملات Prompt Injection تهدیدی جدی برای مرورگرهای هوش مصنوعی هستند
OpenAI مرورگر خود را برای تقویت حفاظت در برابر حملات تزریق پرامپت بهروزرسانی کرده، اما هشدار داده است که این خطر ممکن است هرگز بهطور کامل از بین نرود.

مرورگر ChatGPT Atlas شرکت OpenAI که در ماه اکتبر منتشر شد، شامل «حالت عامل» (Agent Mode) است؛ حالتی که صفحات وب را بررسی میکند و میتواند با کلیک کردن، تراکنشها، فرمها و سایر کارهای آنلاین را انجام دهد.
اما OpenAI اشاره کرد هرچه یک عامل مرورگر بتواند کارهای بیشتری انجام دهد، بیشتر هم در معرض «حملات خصمانه» قرار میگیرد — بهویژه تزریق پرامپت؛ روشی که در آن دستورهای مخرب بهطور پنهانی وارد میشوند تا رفتار عامل را هدایت کنند.
OpenAI در یک پست وبلاگی نوشت:
«تزریق پرامپت یکی از مهمترین ریسکهایی است که ما بهطور فعال با آن مقابله میکنیم تا اطمینان حاصل شود ChatGPT Atlas میتواند بهطور امن از طرف شما عمل کند.»
در واقع، تنها چند روز پس از انتشار مرورگر OpenAI، پژوهشگران امنیتی چندین نقص جدی را شناسایی کردند؛ از جمله یک تکنیک تزریق پرامپت. به همین دلیل هم تعجبی ندارد که تحلیلگران گارتنر به شرکتها هشدار دادهاند برای جلوگیری از ریسکهای امنیتی، استفاده از مرورگرهای هوش مصنوعی را ممنوع کنند.
OpenAI اعلام کرد که اخیراً محافظتهای امنیتی عامل در ChatGPT Atlas را بهروزرسانی کرده و یک مدل جدید به آن داده است که «بهصورت خصمانه آموزش دیده»، و همچنین یک «چرخهٔ پاسخ سریع» برای شناسایی نقصها و رفع آنها توسعه داده است.
این اقدام در پی «رد تیمینگ» (Red Teaming) انجام شد؛ روشی که در آن یک تیم داخلی نقش مهاجمان را بازی میکند تا سیستم را از نظر نقصها و ضعفها آزمایش کند. در این مورد، یافتهها نشان میدهد تزریق پرامپت یک «چالش بلندمدت امنیتی در هوش مصنوعی» است.
OpenAI گفت:
«تزریق پرامپت، درست مانند کلاهبرداریها و مهندسی اجتماعی در وب، بعید است هرگز بهطور کامل “حل” شود.»
با این حال، این شرکت افزود:
«اما خوشبین هستیم که یک چرخهٔ پاسخ سریعِ پیشدستانه و بسیار واکنشپذیر میتواند در گذر زمان، ریسکهای دنیای واقعی را بهطور معناداری کاهش دهد.»
OpenAI ادامه داد:
«با ترکیب کشف خودکار حملات، آموزش خصمانه و محافظتهای سطح سیستم، میتوانیم الگوهای جدید حمله را زودتر شناسایی کنیم، شکافها را سریعتر ببندیم و بهطور مداوم هزینهٔ سوءاستفاده را بالا ببریم.»
چالش جدید برای مرورگرهای هوش مصنوعی
تزریق پرامپت زمانی رخ میدهد که مهاجمان بین جعبهٔ پرامپتِ عامل و مدل هوش مصنوعی قرار میگیرند و دستورها را تغییر میدهند تا نتایج مخرب ایجاد کنند. این یک مشکل جدید برای مرورگرهایی است که به قابلیتهای هوش مصنوعی مجهز شدهاند — و تعدادشان هم رو به افزایش است.
مسئلهٔ اصلی این است که از آنجا که عاملها میتوانند بسیاری از همان کارهایی را انجام دهند که یک کاربر انجام میدهد، OpenAI میگوید پیامدهای یک حملهٔ موفق میتواند «به همان اندازه گسترده» باشد.
بهعنوان مثال، OpenAI توضیح داد که یک مهاجم میتواند ایمیلی مخرب ارسال کند تا عامل را فریب دهد و بهجای درخواست واقعی کاربر، دستور دهد اسناد حساس را ارسال کند.
کاربر برای یک کار مشروع — مثلاً خلاصهسازی ایمیلها — دسترسی به ایمیل میدهد، اما اگر عامل دستورهای تزریقشده را هم اجرا کند، ممکن است دادههای حساس افشا شوند.
مقابله با تهدید
OpenAI پیشتر هم تلاشهایی برای محافظت در برابر چنین حملاتی انجام داده بود، اما اکنون تکنیکهای جدیدی را برای جلوگیری از تزریق پرامپت اضافه میکند.
نخست، این شرکت یک «هکرِ مبتنی بر هوش مصنوعی» ساخته است تا بهعنوان ابزار رد تیمینگ خودکار استفاده شود و بهصورت پیشدستانه به دنبال حملات تزریق پرامپت بگردد — حتی حملات پیچیدهای که صدها مرحله دارند.
OpenAI گفت:
«ما این مهاجم را بهصورت سرتاسری با یادگیری تقویتی آموزش دادیم، بهطوری که از موفقیتها و شکستهای خودش یاد میگیرد تا مهارتهای رد تیمینگ خود را بهبود دهد.»
علاوه بر این، OpenAI چیزی را توسعه داده که آن را «چرخهٔ جواب سریع» مینامد. وقتی رد تیم خودکار یک تکنیک بالقوهٔ تزریق را شناسایی میکند، آن یافته از طریق آموزش خصمانه به هوش مصنوعی بازخورانده میشود.
این شرکت افزود:
«ما بهطور مداوم مدلهای عاملِ بهروزشده را در برابر بهترین مهاجم خودکارمان آموزش میدهیم — با اولویت دادن به حملاتی که عاملهای هدف در حال حاضر در برابرشان شکست میخورند.»
OpenAI توضیح داد:
«هدف این است که به عاملها آموزش دهیم دستورهای خصمانه را نادیده بگیرند و با نیت کاربر همراستا بمانند، تا مقاومت آنها در برابر راهبردهای تازهکشفشدهٔ تزریق پرامپت افزایش یابد.»
همچنین، هنگام استفاده از عامل در مرورگر ChatGPT Atlas، OpenAI توصیه کرد تا حد امکان از حالت «خارج از حساب» (logged out) استفاده شود و فقط زمانی که برای انجام یک کار لازم است وارد حساب شوید، و از کاربران خواست همهٔ درخواستهای تأیید را با دقت بررسی کنند.
در مورد پرامپتها هم بهتر است مشخص و دقیق باشید، نه کلی؛ مثلاً گفتنِ «ایمیلهایم را بررسی کن و هر کاری لازم است انجام بده» فضای دخالت را برای مهاجمان فراهم میکند.
