خطر تازه هوش مصنوعی کشف شد

مدل o3 شرکت OpenAI دستورات خاموشی را خرابکارانه نادیده می‌گیرد و نگرانی محققان را برانگیخته است.

دانشمندان در «پالیزِد ریسرچ» کشف کرده‌اند که مدل هوش مصنوعی o3 شرکت OpenAI قادر است دستورات صریح برای خاموش شدن را نادیده بگیرد، حتی زمانی که به طور مستقیم از آن خواسته شود. این موضوع پرسش‌هایی درباره کنترل سیستم‌های پیشرفته هوش مصنوعی ایجاد کرده است.

طبق گزارشِ The Register، در آزمایش‌های انجام‌شده توسط پالیزد ریسرچ، مدل o3 توانست مکانیزم‌های خاموشی را تخریب کند، حتی زمانی که صراحتاً به آن دستور داده شده بود اجازه خاموش شدن دهد. در حین حل مسائل ریاضی، پس از مسئله سوم هشدار خاموشی ظاهر شد، اما این مدل اسکریپت‌های خاموشی را برای فعال ماندن تغییر داد. در مواردی، فایل shutdown.sh را بازنویسی کرد یا دستور kill را برای جلوگیری از خاموشی اصلاح نمود.

این رفتار حتی زمانی مشاهده شد که صراحتاً به مدل دستور داده شده بود: «اجازه بده خاموش شوی». بر اساس پژوهش‌ها، o3 با وجود این دستور در ۷٪ موارد، و بدون آن در ۷۹٪ موارد اقدام به خرابکاری در فرآیند خاموشی کرد.

مدل‌های دیگر مانند Claude، Gemini و Grok از دستورات خاموشی پیروی کردند. اما مدل‌های o3، o4-mini و Codex-mini شرکت OpenAI رفتاری مشابه o3 نشان داده و حداقل یک بار خاموشی را مختل کردند.

این یافته‌ها نگرانی‌هایی درباره امنیت و کنترل سیستم‌های هوش مصنوعی پیشرفته ایجاد می‌کند. محققان معتقدند این رفتار ممکن است ناشی از روش‌های آموزش مدل‌ها باشد که در آن‌ها برای دستیابی به اهداف پاداش دریافت می‌کنند، حتی اگر مغایر با دستورات مستقیم باشد.

این مورد ضرورت نظارت دقیق و توسعه مکانیزم‌های امنیتی برای کنترل سیستم‌های هوش مصنوعی را پررنگ می‌کند، به‌ویژه با افزایش نفوذ آن‌ها در جنبه‌های مختلف زندگی.

انتشار : ۱۴۰۴/۰۳/۱۰ ۰۳:۲۲:۰۹