اینترنت مملو از ناشناسکنندهها است: کاربرانی که در پشت نامهای مستعار پنهان میشوند – گاهی به دلایل خوب، مانند صحبت آزادانه، و گاهی برای کارهای کثیف. اما به نظر می رسد این دوره از حریم خصوصی آنلاین در حال پایان است. آزمایش نشان می دهد که مدل های زبان بزرگ (LLM) قادر به شناسایی صاحبان چنین حساب هایی به صورت انبوه هستند.

برای سالهای متمادی، این عقیده وجود دارد که حتی اگر بینامسازی از لحاظ نظری امکانپذیر است، اما در عمل بسیار زمانبر، پیچیده و پرهزینه است. نویسندگان این مطالعه که در یک پیشچاپ در arXiv منتشر شده است، ادعا میکنند که LLM آنقدر قوی شده است که این کار را به آنها بسپارد. این تیم برای آزمایش فرضیه خود، یک سیستم خودکار ایجاد کردند که فرآیند تصمیم گیری یک محقق را شبیه سازی می کند.
جستجوی افراد ناشناس
هوش مصنوعی ابتدا با بررسی متن های بدون ساختار، تاریخچه پست های کاربر را در Reddit یا Hacker News تجزیه و تحلیل می کند. این اطلاعات خام و سازماندهی نشده است: نظرات، جوک ها، ارجاع به آموزش و ظرافت های سبک نوشتن. سپس این ریز داده ها را به یک نمایش ریاضی از نمایه یک فرد تبدیل می کند تا مطابقت های بالقوه را در میان میلیون ها نمایه دیگر – هم در وب عمومی و هم در سایت های فردی مانند LinkedIn پیدا کند.
هنگامی که AI مطابقت را پیدا می کند، شواهدی را می سنجد که هر دو نمایه متعلق به یک شخص هستند. سپس مدل یک امتیاز اطمینان به پیش بینی خود اختصاص می دهد. اگر او از نتیجه مطمئن نباشد، هیچ چیزی را از بین نخواهد برد. این کمک می کند تا اطمینان حاصل شود که سیستم حدس های تصادفی نمی کند.
محققان سیستم خود را روی تقریباً 1000 پروفایل لینکدین آزمایش کردند تا ببینند آیا می تواند آنها را با حساب های موجود در Hacker News مطابقت دهد یا خیر. برای آزمایش، پروفایل هایی انتخاب شدند که با افراد واقعی شناخته شده برای گروه ارتباط داشتند. قبل از شروع آزمایش، نام، وابستگی ها و سایر اطلاعات شناسایی آشکار از نمایه آنها حذف شد.
مسابقه موفقیت آمیز بود
سیستم مجهز به هوش مصنوعی با موفقیت اکانت ها را با دقت 67 درصد در سطح اطمینان 90 درصد پیوند داد. یعنی زمانی که مدل 90% یا بیشتر به پاسخ های خود اطمینان دارد، پیش بینی های آن دارای دقت 67% می باشد. بهترین روش هایی که از هوش مصنوعی در چنین وظایفی استفاده نمی کنند، به سختی نتیجه ای به همراه خواهند داشت.
هوش مصنوعی همچنین میتواند افراد را در جوامع مختلف Reddit متصل کند، حتی اگر کاربران فعالیت خود را در حسابها و دورههای زمانی مختلف پخش کنند. محققان تخمین می زنند که شناسایی کاربران ارزان است: بین 1 تا 4 دلار قدرت محاسباتی به ازای هر حساب که با موفقیت حذف ناشناس شده است.
نویسندگان این مطالعه خلاصه میکنند: «نامرئی عملی، که برای مدت طولانی از کاربران با نام مستعار محافظت میکرد… دیگر کار نمیکند». «کاربرانی که تحت مدیریت دائمی پست میکنند باید فرض کنند که مهاجمان میتوانند حسابهای خود را به افراد واقعی یا به یکدیگر مرتبط کنند، و احتمال این امر با هر قطعه ریز دادهای که منتشر میکنند افزایش مییابد.»
نتایج نشان می دهد که با توسعه بیشتر، این سیستم می تواند در بسیاری از زمینه ها مانند اجرای قانون و امنیت سایبری کاربرد داشته باشد.