مسدود کردن ChatGPT برای استفاده نکردن از محتوای وب سایت شما
ChatGPT به محتوای وب سایت ها دسترسی پیدا میکند تا از آنها برای تولید محتوا بیاموزد. چگونه محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود کنید. در این مقاله به راه های مسدود کردن ChatGPT برای استفاده نکردن از محتوای شما میپردازیم.
چگونه هوش مصنوعی از محتوای شما یاد میگیرد
مدلهای زبان بزرگ (LLM) بر روی دادههایی که از منابع متعدد نشات میگیرند آموزش داده میشوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده میشوند. به طور کلی، مدلهای زبان بزرگ از منابع متنوعی برای آموزش استفاده میکنند.
نمونه هایی از انواع منابع مورد استفاده:
- ویکیپدیا
- سوابق دادگاه های دولتی
- کتاب ها
- ایمیل ها
- وب سایت های خزیده شده
در واقع پورتال ها و وب سایت هایی وجود دارند که مجموعه داده هایی را ارائه می دهند که حجم زیادی از اطلاعات را ارائه میدهند.
مجموعه داده های مورد استفاده برای آموزش ChatGPT
مجموعه داده هایی که برای آموزش GPT-3.5 استفاده میشود، همان است که برای GPT-3 استفاده میشود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده میکند. پنج مجموعه داده مورد استفاده برای آموزش GPT-3 عبارتند از:
- Crawl مشترک
- WebText2
- کتاب 1
- کتاب 2
- ویکیپدیا
از میان پنج مجموعه داده، دو موردی که مبتنی بر خزیدن در اینترنت هستند عبارتند از:
- کرال مشترک
- WebText2
درباره مجموعه داده WebText2
WebText2 یک مجموعه داده OpenAI خصوصی است که با خزیدن پیوندهایی از Reddit ایجاد شده است که سه رای موافق داشت. ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند. WebText2 یک نسخه توسعه یافته از مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.
OpenWebText2
پلتفرم WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست. با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهای خزیدن یکسان ایجاد شده است که احتمالاً مجموعه داده های URL های مشابه OpenAI WebText2 را ارائه میهد.
کرال مشترک
یکی از متداولترین مجموعه دادههایی که از محتوای اینترنتی استفاده میشود، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام Common Crawl ایجاد شده است. دادههای رایج Crawl از رباتی میآید که کل اینترنت را میخزد.
داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود میشود و سپس از سایت های هرزنامه و غیره پاک میشود.
نام ربات Common Crawl، سی سی بات یا CCBot است. CCBot از پروتکل robots.txt تبعیت میکند، بنابراین میتوان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.
با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است. با این وجود، با مسدود کردن Common Crawl، میتوانید محتوای وبسایت خود را از گنجاندن در مجموعه دادههای جدید که از مجموعه دادههای Common Crawl جدیدتر منبع میشوند، انصراف دهید.
قبل از مسدود کردن ChatGPT و هر رباتی یک نکته در نظر بگیرید
بسیاری از مجموعه دادهها، از جمله Common Crawl، میتوانند توسط شرکتهایی استفاده شوند که URLها را فیلتر و دستهبندی میکنند تا فهرستی از وبسایتها را برای هدف تبلیغات ایجاد کنند. به عنوان مثال، شرکتی به نام آلفا کوانتوم مجموعه داده ای از URL ها را ارائه می دهد که با استفاده از طبقه بندی دفتر تبلیغات تعاملی طبقه بندی شده اند . مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن میتواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.
اگر نگران ChatGPT یا سایر مدل های زبانی هستید که از محتوای وب سایت خود استفاده می کنند، چند مرحله وجود دارد که می توانید آنها را مسدود کنید.
برای مسدود کردن ChatGPT از Robots.txt استفاده کنید
یکی از سادهترین راهها برای جلوگیری از استفاده از محتوای وبسایت ChatGPT، استفاده از فایل ‘robots.txt’ است. این فایلی است که می تواند در وب سایت شما قرار داده شود و از آن برای ارائه دستورالعمل هایی به موتورهای جستجو و سایر ربات های وب استفاده شود که در چه صفحاتی نباید خزیده شوند. برای مسدود کردن ChatGPT به طور خاص، می توانید خط زیر را به فایل robots.txt خود اضافه کنید:
User-agent: OpenAI
Disallow: /
این به ChatGPT (که توسط OpenAI اداره میشود) میگوید که وب سایت شما را نخزد. با این حال، مهم است که توجه داشته باشید که robots.txt یک روش بیخطر نیست، زیرا هیچ تضمینی وجود ندارد که ChatGPT یا سایر مدلهای زبان واقعاً از دستورالعملهای موجود در فایل پیروی کنند.
از متا تگ ها استفاده کنید
روش دیگر برای جلوگیری از استفاده از محتوای وب سایت ChatGPT و مسدود کردن ChatGPT استفاده از متا تگ است. متا تگ ها عناصر HTML هستند که میتوانند به بخش head صفحات وب سایت شما اضافه شوند تا اطلاعات بیشتری را در اختیار ربات های وب قرار دهند. برای مسدود کردن ChatGPT به طور خاص، میتوانید متا تگ زیر را به صفحات وب سایت خود اضافه کنید:
<meta name=’robots’ content=’noindex, nofollow’>
این تگ به ChatGPT (و سایر روباتهای وب) میگوید که صفحات شما را ایندکس نکنند یا پیوندهای موجود در وبسایت شما را دنبال نکنند. باز هم، این روش بیخطا نیست، اما میتواند یک لایه حفاظتی اضافی در برابر مدلهای زبانی با استفاده از محتوای شما ایجاد کند.
از سیستم مدیریت محتوا استفاده کنید
اگر از یک سیستم مدیریت محتوا (CMS) مانند وردپرس استفاده میکنید، میتوانید از ابزارهای داخلی برای مسدود کردن ChatGPT استفاده کنید. به عنوان مثال، افزونه Yoast SEO برای وردپرس دارای قابلیتی است که به شما امکان می دهد ربات های وب را از فهرست کردن صفحات یا پست های خاص مسدود کنید. برای استفاده از این قابلیت کافی است افزونه را نصب کنید و سپس به قسمت SEO داشبورد وب سایت خود بروید. از آنجا، میتوانید صفحات یا پستهایی را که میخواهید مسدود کنید انتخاب کنید و قابلیت مشاهده آنها را روی ‘noindex’ تنظیم کنید.
برای مسدود کردن ChatGPT محتوای خود را واترمارک کنید
راه دیگر برای محافظت از محتوای خود این است که آن را با نام یا لوگوی خود واترمارک کنید. این به وضوح نشان میدهد که محتوا متعلق به شما است و میتواند به جلوگیری از استفاده از ChatGPT یا سایر مدل های زبانی کمک کند. میتوانید با افزودن نام یا لوگوی خود به تصاویر، ویدیوها یا رسانه های دیگر در وب سایت خود، محتوای خود را واترمارک کنید.