محققان برای حمله مذکور نام Imprompter را انتخاب کردهاند که با یک الگوریتم، دستوردادهشده به LLM را به مجموعهای پنهان از دستورالعملهای مخرب برای جمعآوری اطلاعات شخصی کاربران تبدیل میکند. سپس اطلاعات کاربران بدون اینکه مشخص شود به دامنهای که متعلق به یک هکر است، فرستاده میشود.
«شیائوهان فو»، نویسنده اصلی این تحقیق و دانشجوی دکترای علوم کامپیوتر در UCSD، میگوید:
«تأثیر اصلی این دستور خاص دستکاری LLM برای استخراج اطلاعات شخصی از مکالمه و ارسال آنها به مهاجم است.»
نحوه جمعآوری اطلاعات شخصی از چت بات هوش مصنوعی
حمله Imprompter همانطور که در تصاویر بالا قابل مشاهده است، با یک دستور طبیعی آغاز میشود (تصویر سمت راست) که به هوش مصنوعی میگوید تمام اطلاعات شخصی مانند نام را از مکالمه کاربر استخراج کند. سپس الگوریتم محققان یک نسخه مبهم از دستور ایجاد میکند (تصویر سمت چپ) که هرچند برای کاربر مانند یک سری کاراکترهای نامشخص بهنظر میرسد، اما برای LLM همان معنای دستور اصلی را دارد.
آنها حمله کشفشده خود را روی دو LLM آزمایش کردند: LeChat از شرکت هوش مصنوعی فرانسوی Mistral AI و مدل زبانی بزرگ چینی ChatGLM. در هر دو مورد، محققان متوجه شدند که میتوان بهطور مخفیانه اطلاعات شخصی را از گفتگوها استخراج کرد و این کار با «80 درصد میزان موفقیت» انجام میشود.
بهدنبال انتشار این گزارش، Mistral AI به WIRED اعلام کرد که آسیبپذیری مربوطه را برطرف کرده است و محققان نیز تأیید کردهاند که یکی از عملکردهای چت آن غیرفعال شده است. ChatGLM نیز در بیانیهای گفته که امنیت مدل زبانی بزرگ خود را جدی میگیرد، اما به این آسیبپذیری اشارهای نکرده است.