خطر تازه هوش مصنوعی کشف شد
مدل o3 شرکت OpenAI دستورات خاموشی را خرابکارانه نادیده میگیرد و نگرانی محققان را برانگیخته است.

مدل o3 شرکت OpenAI دستورات خاموشی را خرابکارانه نادیده میگیرد و نگرانی محققان را برانگیخته است.
دانشمندان در «پالیزِد ریسرچ» کشف کردهاند که مدل هوش مصنوعی o3 شرکت OpenAI قادر است دستورات صریح برای خاموش شدن را نادیده بگیرد، حتی زمانی که به طور مستقیم از آن خواسته شود. این موضوع پرسشهایی درباره کنترل سیستمهای پیشرفته هوش مصنوعی ایجاد کرده است.
طبق گزارشِ The Register، در آزمایشهای انجامشده توسط پالیزد ریسرچ، مدل o3 توانست مکانیزمهای خاموشی را تخریب کند، حتی زمانی که صراحتاً به آن دستور داده شده بود اجازه خاموش شدن دهد. در حین حل مسائل ریاضی، پس از مسئله سوم هشدار خاموشی ظاهر شد، اما این مدل اسکریپتهای خاموشی را برای فعال ماندن تغییر داد. در مواردی، فایل shutdown.sh را بازنویسی کرد یا دستور kill را برای جلوگیری از خاموشی اصلاح نمود.
این رفتار حتی زمانی مشاهده شد که صراحتاً به مدل دستور داده شده بود: «اجازه بده خاموش شوی». بر اساس پژوهشها، o3 با وجود این دستور در ۷٪ موارد، و بدون آن در ۷۹٪ موارد اقدام به خرابکاری در فرآیند خاموشی کرد.
مدلهای دیگر مانند Claude، Gemini و Grok از دستورات خاموشی پیروی کردند. اما مدلهای o3، o4-mini و Codex-mini شرکت OpenAI رفتاری مشابه o3 نشان داده و حداقل یک بار خاموشی را مختل کردند.
این یافتهها نگرانیهایی درباره امنیت و کنترل سیستمهای هوش مصنوعی پیشرفته ایجاد میکند. محققان معتقدند این رفتار ممکن است ناشی از روشهای آموزش مدلها باشد که در آنها برای دستیابی به اهداف پاداش دریافت میکنند، حتی اگر مغایر با دستورات مستقیم باشد.
این مورد ضرورت نظارت دقیق و توسعه مکانیزمهای امنیتی برای کنترل سیستمهای هوش مصنوعی را پررنگ میکند، بهویژه با افزایش نفوذ آنها در جنبههای مختلف زندگی.
ارسال نظر