از چه سایت هایی برای آموزش هوش مصنوعی گوگل بارد استفاده شده است؟
بات جنجالی Bard AI گوگل با استفاده از محتوای وب سایت ها آموزش دیده است، اما اطلاعات کمی در مورد نحوه جمع آوری و محتوای استفاده شده برای آموزش هوش مصنوعی گوگل بارد وجود دارد.
- جزئیات وبسایتهای مورد استفاده برای آموزش Bard/LaMDA محرمانه است.
- 50 درصد از داده های آموزشی برای آموزش هوش مصنوعی گوگل بارد از انجمن های عمومی است.
- وب سایت های پرسش و پاسخ برنامه نویسی و سایت های آموزشی مورد استفاده برای آموزش
منابع آموزش هوش مصنوعی گوگل بارد چیست؟
Google’s Bard بر اساس مدل زبان LaMDA است که بر روی مجموعه دادههای مبتنی بر محتوای اینترنتی به نام Infiniset آموزش داده شده است که اطلاعات بسیار کمی در مورد اینکه دادهها از کجا آمدهاند و چگونه آنها را دریافت کردهاند.
مقاله تحقیقاتی LaMDA درصدی از انواع مختلف داده های مورد استفاده برای آموزش LaMDA را فهرست کرد اما تنها 12.5٪ از مجموعه داده های عمومی از محتوای خزیده شده از وب و 12.5٪ دیگر از ویکی پدیا می آید. منابع آموزش هوش مصنوعی گوگل بارد مبهم است اما نکاتی درباره اینکه چه سایتهایی در آن مجموعه دادهها هستند وجود دارد.
مجموعه داده Infiniset Google
LaMDA بر روی مجموعه داده ای به نام Infiniset آموزش داده شد. Infiniset ترکیبی از محتوای اینترنتی است که عمداً برای افزایش توانایی مدل برای درگیر شدن در گفتگو انتخاب شده است. مقاله تحقیقاتی LaMDA توضیح میدهد که چرا آنها این ترکیب محتوا را انتخاب کردند:
این ترکیب برای دستیابی به عملکرد قوی تری در وظایف محاوره ای انتخاب شد … در حالی که هنوز توانایی خود را برای انجام سایر وظایف مانند تولید کد حفظ میکند.
به عنوان کار آینده، ما میتوانیم بررسی کنیم که چگونه انتخاب این ترکیب ممکن است بر کیفیت برخی از وظایف NLP دیگر انجام شده توسط مدل تأثیر بگذارد.
در مجموع، LaMDA روی 1.56 تریلیون کلمه داده های گفتگوی عمومی و متن وب از قبل آموزش داده شده بود. مجموعه داده های آموزش هوش مصنوعی گوگل بارد از ترکیب زیر تشکیل شده است:
- 12.5 درصد داده های مبتنی بر C4
- 12.5% ویکی پدیای انگلیسی زبان
- 12.5٪ اسناد کد از وب سایت های برنامه نویسی پرسش و پاسخ، آموزش ها و موارد دیگر
- 6.25٪ اسناد وب انگلیسی
- 6.25٪ اسناد وب غیر انگلیسی
- 50٪ داده ها از انجمن های عمومی
مجموعه داده C4، که به زودی مورد بررسی قرار خواهد گرفت، یک نسخه فیلتر شده ویژه از مجموعه داده Common Crawl است. تنها 25 درصد از داده ها از یک منبع نامگذاری شده (مجموعه داده های C4 و ویکی پدیا) است. بقیه دادههایی که 75 درصد از مجموعه دادههای Infiniset را تشکیل میدهند، شامل کلماتی است که از اینترنت برداشته شدهاند.
دادههای دیالوگ از انجمنهای عمومی چه میتواند باشد؟
50٪ از داده های آموزشی از داده های گفتگو از انجمن های عمومی می آید. این تمام چیزی است که مقاله تحقیقاتی LaMDA گوگل در مورد این داده های آموزشی میگوید. اگر بخواهیم حدس بزنیم، Reddit و دیگر جوامع برتر مانند StackOverflow میتوانند گزینه های اصلی باشند.