آیا «یادگیری عمیق» واقعا به کلانداده احتیاج دارد؟
05/07/2020
ادمین بلاگ
اولین قدم برای اجرای یک پروژهی یادگیری ماشین یا یادگیری عمیق، جمعآوری دادهها برای آموزش است. این دادهها امروز به قدری اهمیت پیدا کردهاند که از آنها به عنوان داراییهایی با ارزشی مانند نفت یاد میشود. ولی جمعآوری این دادهها میتواند هزینههای زیادی داشته باشد و این مسئله که به چقدر داده برای آموزش نیاز داریم تا به سطح مقبولی از عملکرد برسیم به یک چالش اصلی تبدیل شدهاست. در این پست نگاهی جامع به نتایج تحقیقات پژوهشی و آزمایشگاهی در مورد مقدار دادههای آموزش که اصطلاحا به آن «پیچیدگی نمونهها» هم گفته میشود، میاندازیم.
در این پست به طور خاص:
- حدود اندازهی دادههای آموزشی تجربی برای بینایی ماشین و رگرسیون را ارائه میکنیم.
- به این میپردازیم که با مشخص بودن میزان توان مطلوب تست آماری، چگونه مقدار نمونهها را تعیین کنیم. البته این یک موضوع آماری است.
- نتایج نظریه آموزش آماری را با نظر به این که چه چیزی اندازهی دادههای آموزشی را کنترل میکند، ارائه میکنیم.
- به این سوال که «آیا با زیاد شدن دادههای آموزش عملکرد نیز بهبود مییابد؟» پاسخ میدهیم.
- روشی برای تعیین مقدار دادههای آموزشی برای طبقهبندی مطرح میکنیم.
- و در انتها به این سوال میپردازیم که آیا افزایش دادههای آموزشی بهترین راه برای برخورد با دادههای نامتوازن است؟
نتایج تجربی برای اندازهی دادههای آموزش
اجازه دهید در ابتدا برخی از روشهای بیشتر استفاده شده برای تعیین اندازهی دادههای آموزش را با توجه به مدلی که استفاده میکنیم بررسی کنیم:
- تحلیل رگرسیون: بر طبق یکی از ده قانون کلی، به ازای هر پیشگو به ده مورد نیاز داریم. در برخی مقالات تا مقادیر دیگری نیز مطرح شده است، مثل نسبت یک به بیست برای کاهش ضرایب رگرسیون. در برخی مقالات نویسندگان اندازهی دادههای آموزش را با در نظر گرفتن تعداد متغیر پیشگوها، اندازهی کلی نمونهها، و کسری از نسبت نمونههای مثبت به اندازهی کلی نمونهها تخمین میزنند.
- بینایی ماشین: برای ردهبندی بینایی ماشین با استفاده از یادگیری عمیق، یک قانون کلی ۱۰۰۰ عکس در هر دسته است، که در صورت استفاده از مدلهای از قبل آموزش دیده میتواند تا حد زیادی کاهش یابد.
https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee
https://towardsdatascience.com/does-deep-learning-really-require-big-data-no-13890b014ded
یادگیریعمیق
تعداد نظرات 0
اولین نفری باشید که یک نظر منتشر میکند.