از چه سایت هایی برای آموزش هوش مصنوعی گوگل بارد استفاده شده است؟

بات جنجالی Bard AI گوگل با استفاده از محتوای وب سایت ها آموزش دیده است، اما اطلاعات کمی در مورد نحوه جمع آوری و محتوای استفاده شده برای آموزش هوش مصنوعی گوگل بارد وجود دارد.

جزئیات وب‌سایت‌های مورد استفاده برای آموزش Bard/LaMDA محرمانه است.
50 درصد از داده های آموزشی برای آموزش هوش مصنوعی گوگل بارد از انجمن های عمومی است.
وب سایت های پرسش و پاسخ برنامه نویسی و سایت های آموزشی مورد استفاده برای آموزش

منابع آموزش هوش مصنوعی گوگل بارد چیست؟

Google’s Bard بر اساس مدل زبان LaMDA است که بر روی مجموعه داده‌های مبتنی بر محتوای اینترنتی به نام Infiniset آموزش داده شده است که اطلاعات بسیار کمی در مورد اینکه داده‌ها از کجا آمده‌اند و چگونه آن‌ها را دریافت کرده‌اند.

گوگل ادز و کاربرد آن در کسب‌و‌کار‌ها

مقاله تحقیقاتی LaMDA درصدی از انواع مختلف داده های مورد استفاده برای آموزش LaMDA را فهرست کرد اما تنها 12.5٪ از مجموعه داده های عمومی از محتوای خزیده شده از وب و 12.5٪ دیگر از ویکی پدیا می آید. منابع آموزش هوش مصنوعی گوگل بارد مبهم است اما نکاتی درباره اینکه چه سایت‌هایی در آن مجموعه داده‌ها هستند وجود دارد.

مجموعه داده Infiniset Google

LaMDA بر روی مجموعه داده ای به نام Infiniset آموزش داده شد. Infiniset ترکیبی از محتوای اینترنتی است که عمداً برای افزایش توانایی مدل برای درگیر شدن در گفتگو انتخاب شده است. مقاله تحقیقاتی LaMDA توضیح می‌دهد که چرا آنها این ترکیب محتوا را انتخاب کردند:

این ترکیب برای دستیابی به عملکرد قوی تری در وظایف محاوره ای انتخاب شد … در حالی که هنوز توانایی خود را برای انجام سایر وظایف مانند تولید کد حفظ می‌کند.

به عنوان کار آینده، ما می‌توانیم بررسی کنیم که چگونه انتخاب این ترکیب ممکن است بر کیفیت برخی از وظایف NLP دیگر انجام شده توسط مدل تأثیر بگذارد.

در مجموع، LaMDA روی 1.56 تریلیون کلمه داده های گفتگوی عمومی و متن وب از قبل آموزش داده شده بود. مجموعه داده های آموزش هوش مصنوعی گوگل بارد از ترکیب زیر تشکیل شده است:

12.5 درصد داده های مبتنی بر C4
12.5% ویکی پدیای انگلیسی زبان
12.5٪ اسناد کد از وب سایت های برنامه نویسی پرسش و پاسخ، آموزش ها و موارد دیگر
6.25٪ اسناد وب انگلیسی
6.25٪ اسناد وب غیر انگلیسی
50٪ داده ها از انجمن های عمومی

مجموعه داده C4، که به زودی مورد بررسی قرار خواهد گرفت، یک نسخه فیلتر شده ویژه از مجموعه داده Common Crawl است. تنها 25 درصد از داده ها از یک منبع نامگذاری شده (مجموعه داده های C4 و ویکی پدیا) است. بقیه داده‌هایی که 75 درصد از مجموعه داده‌های Infiniset را تشکیل می‌دهند، شامل کلماتی است که از اینترنت برداشته شده‌اند.

داده‌های دیالوگ از انجمن‌های عمومی چه می‌تواند باشد؟

50٪ از داده های آموزشی از داده های گفتگو از انجمن های عمومی می آید. این تمام چیزی است که مقاله تحقیقاتی LaMDA گوگل در مورد این داده های آموزشی می‌گوید. اگر بخواهیم حدس بزنیم، Reddit و دیگر جوامع برتر مانند StackOverflow می‌توانند گزینه های اصلی باشند.