مسدود کردن ChatGPT برای استفاده نکردن از محتوای وب سایت شما

ChatGPT به محتوای وب سایت ها دسترسی پیدا می‌کند تا از آنها برای تولید محتوا بیاموزد. چگونه محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود کنید. در این مقاله به راه های مسدود کردن ChatGPT برای استفاده نکردن از محتوای شما می‌پردازیم.

چگونه هوش مصنوعی از محتوای شما یاد می‌گیرد

مدل‌های زبان بزرگ (LLM) بر روی داده‌هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می‌شوند. به طور کلی، مدل‌های زبان بزرگ از منابع متنوعی برای آموزش استفاده می‌کنند.

نمونه هایی از انواع منابع مورد استفاده:

ویکیپدیا
سوابق دادگاه های دولتی
کتاب ها
ایمیل ها
وب سایت های خزیده شده

در واقع پورتال ها و وب سایت هایی وجود دارند که مجموعه داده هایی را ارائه می دهند که حجم زیادی از اطلاعات را ارائه می‌دهند.

مجموعه داده های مورد استفاده برای آموزش ChatGPT

مجموعه داده هایی که برای آموزش GPT-3.5 استفاده می‌شود، همان است که برای GPT-3 استفاده می‌شود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کند. پنج مجموعه داده مورد استفاده برای آموزش GPT-3 عبارتند از:

Crawl مشترک
WebText2
کتاب 1
کتاب 2
ویکیپدیا

از میان پنج مجموعه داده، دو موردی که مبتنی بر خزیدن در اینترنت هستند عبارتند از:

کرال مشترک
WebText2

درباره مجموعه داده WebText2

WebText2 یک مجموعه داده OpenAI خصوصی است که با خزیدن پیوندهایی از Reddit ایجاد شده است که سه رای موافق داشت. ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند. WebText2 یک نسخه توسعه یافته از مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.

OpenWebText2

پلتفرم WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست. با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهای خزیدن یکسان ایجاد شده است که احتمالاً مجموعه داده های URL های مشابه OpenAI WebText2 را ارائه می‌هد.

کرال مشترک

یکی از متداول‌ترین مجموعه داده‌هایی که از محتوای اینترنتی استفاده می‌شود، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام Common Crawl ایجاد شده است. داده‌های رایج Crawl از رباتی می‌آید که کل اینترنت را می‌خزد.

داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می‌شود و سپس از سایت های هرزنامه و غیره پاک می‌شود.

نام ربات Common Crawl، سی سی بات یا CCBot است. CCBot از پروتکل robots.txt تبعیت می‌کند، بنابراین می‌توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.

با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است. با این وجود، با مسدود کردن Common Crawl، می‌توانید محتوای وب‌سایت خود را از گنجاندن در مجموعه داده‌های جدید که از مجموعه داده‌های Common Crawl جدیدتر منبع می‌شوند، انصراف دهید.

قبل از مسدود کردن ChatGPT و هر رباتی یک نکته در نظر بگیرید

بسیاری از مجموعه داده‌ها، از جمله Common Crawl، می‌توانند توسط شرکت‌هایی استفاده شوند که URL‌ها را فیلتر و دسته‌بندی می‌کنند تا فهرستی از وب‌سایت‌ها را برای هدف تبلیغات ایجاد کنند. به عنوان مثال، شرکتی به نام آلفا کوانتوم مجموعه داده ای از URL ها را ارائه می دهد که با استفاده از طبقه بندی دفتر تبلیغات تعاملی طبقه بندی شده اند . مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن می‌تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.

اگر نگران ChatGPT یا سایر مدل های زبانی هستید که از محتوای وب سایت خود استفاده می کنند، چند مرحله وجود دارد که می توانید آنها را مسدود کنید.

برای مسدود کردن ChatGPT از Robots.txt استفاده کنید

یکی از ساده‌ترین راه‌ها برای جلوگیری از استفاده از محتوای وب‌سایت ChatGPT، استفاده از فایل ‘robots.txt’ است. این فایلی است که می تواند در وب سایت شما قرار داده شود و از آن برای ارائه دستورالعمل هایی به موتورهای جستجو و سایر ربات های وب استفاده شود که در چه صفحاتی نباید خزیده شوند. برای مسدود کردن ChatGPT به طور خاص، می توانید خط زیر را به فایل robots.txt خود اضافه کنید:

User-agent: OpenAI

Disallow: /

این به ChatGPT (که توسط OpenAI اداره می‌شود) می‌گوید که وب سایت شما را نخزد. با این حال، مهم است که توجه داشته باشید که robots.txt یک روش بی‌خطر نیست، زیرا هیچ تضمینی وجود ندارد که ChatGPT یا سایر مدل‌های زبان واقعاً از دستورالعمل‌های موجود در فایل پیروی کنند.

از متا تگ ها استفاده کنید

روش دیگر برای جلوگیری از استفاده از محتوای وب سایت ChatGPT و مسدود کردن ChatGPT استفاده از متا تگ است. متا تگ ها عناصر HTML هستند که می‌توانند به بخش head صفحات وب سایت شما اضافه شوند تا اطلاعات بیشتری را در اختیار ربات های وب قرار دهند. برای مسدود کردن ChatGPT به طور خاص، می‌توانید متا تگ زیر را به صفحات وب سایت خود اضافه کنید:

این تگ به ChatGPT (و سایر روبات‌های وب) می‌گوید که صفحات شما را ایندکس نکنند یا پیوندهای موجود در وب‌سایت شما را دنبال نکنند. باز هم، این روش بی‌خطا نیست، اما می‌تواند یک لایه حفاظتی اضافی در برابر مدل‌های زبانی با استفاده از محتوای شما ایجاد کند.

آنچه باید درباره اهمیت متا تگ ها برای سئو باید بدانید

از سیستم مدیریت محتوا استفاده کنید

اگر از یک سیستم مدیریت محتوا (CMS) مانند وردپرس استفاده می‌کنید، می‌توانید از ابزارهای داخلی برای مسدود کردن ChatGPT استفاده کنید. به عنوان مثال، افزونه Yoast SEO برای وردپرس دارای قابلیتی است که به شما امکان می دهد ربات های وب را از فهرست کردن صفحات یا پست های خاص مسدود کنید. برای استفاده از این قابلیت کافی است افزونه را نصب کنید و سپس به قسمت SEO داشبورد وب سایت خود بروید. از آنجا، می‌توانید صفحات یا پست‌هایی را که می‌خواهید مسدود کنید انتخاب کنید و قابلیت مشاهده آنها را روی ‘noindex’ تنظیم کنید.

برای مسدود کردن ChatGPT محتوای خود را واترمارک کنید

راه دیگر برای محافظت از محتوای خود این است که آن را با نام یا لوگوی خود واترمارک کنید. این به وضوح نشان می‌دهد که محتوا متعلق به شما است و می‌تواند به جلوگیری از استفاده از ChatGPT یا سایر مدل های زبانی کمک کند. می‌توانید با افزودن نام یا لوگوی خود به تصاویر، ویدیوها یا رسانه های دیگر در وب سایت خود، محتوای خود را واترمارک کنید.