هوش مصنوعی

چگونه یادگیری ماشین را شروع کنیم (بدون غرق شدن)

نویسنده: Hadi ZareZadeh۱۶ فروردین ۱۴۰۵۲۸۷۱ بازدید
چگونه یادگیری ماشین را شروع کنیم (بدون غرق شدن)

سخت‌ترین بخش شروع یادگیری ماشین، دشواری آن نیست — فراوانی آن است. هزاران دوره وجود دارد، ده‌ها «نقشه راه نهایی»، و عرضه بی‌پایانی از آدم‌هایی که به شما می‌گویند قبل از اینکه اجازه داشته باشید .fit() را صدا بزنید باید احتمال نظریه اندازه را در حد تسلط بدانید. همین سروصداست که باعث می‌شود این‌قدر از مبتدی‌ها در جا بزنند. این همان ترتیبی است که امروز به یک تازه‌کار می‌دادم.

اول، درباره هدفتان صادق باشید

«یادگیری ماشین یاد بگیر» برای عمل کردن خیلی مبهم است. می‌خواهید محصولاتی بسازید که از یادگیری ماشین استفاده کنند، پژوهش کنید، یا داده تحلیل کنید؟ برای بیشتر کسانی که وبلاگ یک برنامه‌نویس را می‌خوانند، پاسخ اولی است — و این مسیر را تغییر می‌دهد. به اندازه‌ای تئوری لازم دارید که خطرناک نباشید و به مقدار زیادی تمرین تحویل دادن چیزها.

برای استفاده خوب از یادگیری ماشین به دکترا نیاز ندارید. به کنجکاوی، تمایل به دیباگ و نظمِ تمام‌کردن پروژه‌ها نیاز دارید.

ریاضیاتی که واقعاً لازم دارید (و آنچه لازم ندارید)

می‌توانید با ریاضیات شگفت‌انگیزاندکی یادگیری ماشین را شروع کنید و بعد هرجا پروژه‌ها طلب کردند عمیق‌ترش کنید. حداقل مجموعه قابل‌اجرا:

  • جبر خطی: بردارها، ماتریس‌ها، ضرب نقطه‌ای و اینکه ضرب ماتریسی از نظر هندسی چه می‌کند.
  • حساب دیفرانسیل: معنای مشتق و گرادیان. لازم نیست انتگرال‌های سخت را با دست حساب کنید.
  • احتمال و آمار: توزیع‌ها، میانگین/واریانس، احتمال شرطی و تفاوت همبستگی با علیت.

این را همراه با کد یاد بگیرید، نه به‌عنوان پیش‌نیاز شش‌ماهه. وقتی مفهومی مثل «گرادیان کاهشی» سروکله‌اش پیدا شد، همان لحظه‌ای است که باید گرادیان را بفهمید — باانگیزه و ملموس از انتزاعی و فراموش‌شده بهتر است.

کتابخانه‌هایی که اول باید یاد بگیرید

به‌ترتیب، چون ترتیب مهم است:

  1. NumPy و pandas. اگر نتوانید روان با آرایه‌ها و دیتافریم‌ها کار کنید، بقیه چیزها دردناک‌اند. اینجا واقعاً وقت بگذارید.
  2. scikit-learn. بهترین جا برای یادگیری گردش کار یادگیری ماشین: تقسیم، آموزش، ارزیابی، تنظیم.
  3. Matplotlib / seaborn. باید بتوانید به داده و خطاهایتان نگاه کنید.
  4. PyTorch. فقط وقتی یادگیری ماشین کلاسیک راحت شد. یادگیری عمیق وقتی بیش‌برازش و ارزیابی را می‌فهمید آسان‌تر است.
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

df = pd.read_csv("data.csv")
X = df.drop(columns=["target"])
y = df["target"]

scores = cross_val_score(RandomForestClassifier(), X, y, cv=5, scoring="f1")
print(scores.mean())

کلاسیک قبل از عمیق

وسوسه این است که چون شبکه‌های عصبی هیجان‌انگیزند مستقیم به سراغشان بروید. چند هفته مقاومت کنید. رگرسیون خطی و لجستیک، درخت تصمیم و نظم train/validation/test گرامر کل این حوزه را یاد می‌دهند. بعد یادگیری عمیق را بسیار سریع‌تر می‌فهمید، چون ایده‌های اصلی — تابع زیان، بیش‌برازش، منظم‌سازی — یکسان‌اند.

فرار از تله جمع‌کردن دوره

خریدن دوره حس پیشرفت می‌دهد. اما نیست. پادزهر یک قانون ساده است که روی خودم اعمال می‌کنم: هر بار یک دوره، و باید قبل از شروع دوره بعدی با آن چیزی بسازید.

  • یک بخش را تماشا کنید، بعد ببندیدش و ایده را از یک فایل خالی بازسازی کنید.
  • بعد از هر ماژول دوره، یک پروژه کوچک انجام دهید که از آن روی داده‌ای که دوره فراهم نکرده استفاده کند.
  • تکمیل پروژه‌ها را ردیابی کنید، نه ویدیوها را. ویدیو محصول نهایی نیست.

اشتباهات رایج

  • منتظر ماندن تا «به اندازه کافی ریاضی بدانید». تا ابد منتظر می‌مانید. شروع به ساختن کنید؛ بگذارید پروژه‌ها ریاضی را از شما بیرون بکشند.
  • حفظ کردن الگوریتم‌ها. فهمیدن اینکه کِی و چرا از یکی استفاده کنید، از طوطی‌وار گفتن نحوه کار درونی‌اش بهتر است.
  • هرگز به داده واقعی و کثیف دست نزدن. دیتاست‌های اسباب‌بازی کار واقعی را پنهان می‌کنند، که تمیزکاری و فهمیدن داده است.

بهترین شیوه‌ها

  • یک دفترچه یادگیری از آنچه امتحان کردید و چه چیزی گیجتان کرد نگه دارید.
  • نتایج را با دست روی ورودی‌های کوچک بازتولید کنید تا شهود بسازید.
  • به یک جامعه بپیوندید و سوال‌های مشخص بپرسید؛ توضیح دادن مسئله‌تان آن را روشن می‌کند.

جمع‌بندی

شروع یادگیری ماشین کمتر درباره هوش و بیشتر درباره ترتیب‌بندی و خویشتن‌داری است. به اندازه‌ای ریاضی یاد بگیرید که بتوانید دنبال کنید، با NumPy و pandas روان شوید، گردش کار را در scikit-learn مسلط شوید و فقط بعد به سراغ یادگیری عمیق بروید. مهم‌تر از همه، پروژه بسازید و تمامشان کنید. این هفته یک دیتاست کوچک انتخاب کنید و آن را از فایل خام تا مدل ارزیابی‌شده ببرید — همین یک حلقه بیشتر از یک ماه تماشای منفعلانه یاد می‌دهد.