ده پروژه یادگیری ماشین که واقعاً به شما یاد می‌دهند

اگر «پروژه‌های یادگیری ماشین» را جست‌وجو کنید، صد فهرست به دستتان می‌رسد که در واقع آموزش‌هایی با لباس مبدل‌اند: یک دیتاست تمیز را بارگذاری کن، .fit() را صدا بزن، دقت را چاپ کن، تمام. این پروژه‌ها تقریباً هیچ‌چیز درباره یادگیری ماشین واقعی به شما یاد نمی‌دهند، چون یادگیری ماشین واقعی بیشتر درباره بخش‌های کثیفی است که این آموزش‌ها از آن‌ها می‌پرند.

پروژه‌های زیر فرق دارند. هرکدام شما را مجبور می‌کنند با چیزی ناخوشایند روبه‌رو شوید — داده کثیف، ویژگی‌هایی که نشت می‌کنند، معیار ارزیابی‌ای که دروغ می‌گوید، یا فاصله بین یک نوت‌بوک و یک سرویس در حال اجرا. همین ناخوشایندی، نکته اصلی است. این‌ها پروژه‌هایی هستند که واقعاً مهارت‌هایم را جابه‌جا کردند و همان‌هایی هستند که در گیت‌هاب یک داوطلب دنبالشان می‌گردم.

چه چیزی یک پروژه را ارزشمند می‌کند

قبل از فهرست، یک فیلتر. یک پروژه وقتی ارزش وقتتان را دارد که حداقل سه ویژگی از این‌ها را داشته باشد:

داده تمیز دستتان داده نمی‌شود.
باید یک معیار ارزیابی را انتخاب و از آن دفاع کنید.
خطر واقعی نشت داده وجود دارد که باید جلویش را بگیرید.
به چیزی قابل‌استفاده ختم می‌شود — یک API، یک داشبورد، یا گزارشی که یک غیرمتخصص هم بفهمد.

یک مدل متوسطِ تمام‌شده و مستقرشده بیشتر از یک مدل درخشان که داخل یک نوت‌بوک زاده و دفن می‌شود به شما یاد می‌دهد.

ده پروژه

۱. پیش‌بینی ریزش مشتری از خروجی‌های خام

یک CSV کثیف بگیرید (یا یکی از یک ابزار واقعی خروجی بگیرید) و پیش‌بینی کنید چه کسی لغو خواهد کرد. درس اینجا دسته‌بند نیست — مدیریت مقادیر گمشده، کدگذاری ویژگی‌های دسته‌ای، و کشف این است که «روزهای گذشته از ثبت‌نام» اگر مراقب نباشید، پاسخ را لو می‌دهد. یاد می‌گیرید چرا یک مدل ریزش با دقت ۹۹٪ معمولاً یک مدل ۹۹٪ خراب است.

۲. یک دسته‌بند هرزنامه/سمیت بسازید و آستانه را مستقر کنید

دسته‌بندی متن معلم خوبی است چون باید تصمیم بگیرید آستانه تصمیم را کجا بگذارید. بهینه‌سازی برای دقت در برابر فراخوانی پیامد واقعی دارد: زیادی مسدود کنید کاربران را عصبانی می‌کنید، کم مسدود کنید کار را به‌درستی انجام نمی‌دهید.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ("tfidf", TfidfVectorizer(ngram_range=(1, 2), min_df=2)),
    ("clf", LogisticRegression(max_iter=1000, class_weight="balanced")),
])
pipe.fit(train_texts, train_labels)

۳. یک پیش‌بین سری زمانی که نتوانید در آن تقلب کنید

چیزی با ساختار زمانی واقعی را پیش‌بینی کنید (فروش، مصرف انرژی، داده‌های عادت خودتان). سری زمانی اعتبارسنجی متقابل ساده‌لوحانه را به‌شدت تنبیه می‌کند: foldها را به‌هم بزنید، آینده را به گذشته نشت می‌دهید. یاد گرفتن تقسیم درست با پنجره غلتان/گسترش‌یابنده یک آیین گذار است.

۴. دسته‌بند تصویر با یادگیری انتقالی

از صفر آموزش ندهید — یک ستون فقرات از‌پیش‌آموزش‌دیده را روی یک دیتاست سفارشی کوچک تنظیم دقیق کنید (قفسه کتابتان، گونه‌های گیاه، هر چیزی). داده‌افزایی، چرایی خراب‌شدن دقت با عدم توازن کلاس، و خواندن ماتریس درهم‌ریختگی به‌جای یک عدد تنها را یاد می‌گیرید.

۵. یک پیشنهادگر که با مسئله شروع سرد روبه‌رو می‌شود

یک پیشنهادگر فیلترینگ مشارکتی ساده بسازید، بعد عمداً خرابش کنید: برای یک کاربر کاملاً جدید بدون هیچ تاریخچه‌ای چه اتفاقی می‌افتد؟ حل شروع سرد با راه‌حل‌های محتوامحور به شما یاد می‌دهد که سیستم‌های واقعی ترکیبی‌اند، نه یک الگوریتم تنها.

۶. دیتاست خودتان را اسکرپ، تمیز و تحلیل کنید

موضوعی را که برایتان مهم است انتخاب کنید، داده‌اش را خودتان اسکرپ کنید و به یک سوال واقعی پاسخ دهید. نود درصد این پروژه تمیزکاری است. همین نسبت دقیقاً درست است — بازتاب کار واقعی است.

۷. یک مدل سرتاسری پشت یک API واقعی

هر مدلی از بالا را بردارید و سرویس‌اش کنید. اینجا جایی است که برنامه‌نویس‌ها می‌درخشند و دانشمندان داده خالص دست‌وپا می‌زنند.

from fastapi import FastAPI
import joblib

app = FastAPI()
model = joblib.load("model.joblib")

@app.post("/predict")
def predict(features: dict):
    score = float(model.predict_proba([list(features.values())])[0][1])
    return {"probability": score}

حالا باید به اعتبارسنجی ورودی، تأخیر، نسخه‌بندی مدل و این فکر کنید که وقتی ورودی هیچ شباهتی به داده آموزش ندارد چه می‌شود.

۸. نتیجه اصلی یک مقاله کوچک را بازتولید کنید

یک مقاله کوتاه و قدیمی‌تر با نتیجه‌ای متواضع انتخاب و بازتولید کنید. یاد می‌گیرید مقالات چقدر جزئیات را حذف می‌کنند و چطور شکاف‌ها را با پیش‌فرض‌های معقول پر کنید — مهارتی که مصرف‌کننده‌های پژوهش را از استفاده‌کننده‌ها جدا می‌کند.

۹. یک تشخیص‌دهنده ناهنجاری برای داده واقعی و خسته‌کننده

ناهنجاری‌ها را در لاگ سرور، تراکنش‌ها یا داده حسگرها تشخیص دهید. تشخیص ناهنجاری به شما یاد می‌دهد بدون برچسب تمیز کار کنید و وقتی «حقیقت زمینی» به‌سختی وجود دارد ارزیابی کنید. فروتن‌کننده و بسیار عملی است.

۱۰. یک ابزار کوچک مبتنی بر مدل زبانی با حفاظ

چیزی مفید روی یک مدل زبانی بسازید — یک ابزار پرسش‌وپاسخ سند، یک دسته‌بند، یک خلاصه‌ساز — اما بخش‌های بی‌زرق‌وبرق را اضافه کنید: نسخه‌بندی پرامپت، ارزیابی روی یک مجموعه آزمون ثابت، و مدیریت خروجی‌های بد یا خالی. تازگی‌اش زود می‌پرد؛ مهندسی‌اش درس است.

اشتباهات رایج

بهینه‌سازی دقت روی داده نامتوازن. اگر ۹۵٪ موارد منفی باشند، مدلی که همیشه می‌گوید «منفی» ۹۵٪ دقیق و ۱۰۰٪ بی‌فایده است. از precision، recall، F1 یا AUC استفاده کنید.
تنظیم روی مجموعه آزمون. لحظه‌ای که برای تصمیم‌گیری به عملکرد آزمون سرک می‌کشید، آن مجموعه آلوده می‌شود. یک نگه‌داشت واقعی داشته باشید که فقط یک‌بار به آن دست می‌زنید.
پریدن از روی پایه. همیشه با چیزی پیش‌پاافتاده مقایسه کنید. اگر مدل عمیق شما به‌زحمت از «میانگین را پیش‌بینی کن» بهتر است، چیز مهمی یاد گرفته‌اید.

بهترین شیوه‌ها

قبل از کدنویسی یک README یک‌پاراگرافی بنویسید که مسئله، معیار و نتیجه را بیان کند.
داده و مدل را نسخه‌بندی کنید، نه فقط کد را.
به خطاهایتان نگاه کنید. ده پیش‌بینی بدتر را چاپ کنید و بپرسید چرا شکست خوردند.
هر پروژه را به یک مخاطب تحویل دهید، حتی اگر یک اسکرین‌شات در یک پست وبلاگ باشد.

جمع‌بندی

پروژه‌هایی که شما را قابل استخدام می‌کنند، آن‌هایی با پرزرق‌وبرق‌ترین مدل‌ها نیستند — آن‌هایی هستند که در آن‌ها با واقعیت کشتی گرفتید و بردید. سه پروژه از این فهرست انتخاب کنید، سرتاسری انجامشان دهید و درباره آنچه خراب شد بنویسید. از بخش‌هایی که ناامیدتان می‌کنند بیشتر از هر دوره‌ای یاد می‌گیرید. همین امروز یکی را انتخاب کنید و قبل از شروع بعدی، متعهد شوید آن را تحویل دهید.

ده پروژه یادگیری ماشین که واقعاً چیزی یادتان می‌دهند