Toán × AI · in A4 để học
Bộ 138 phiếu tính tay theo tinh thần Prof. Tom Yeh: chạy softmax, attention, backprop bằng số thật trên giấy. Không thư viện, không lý thuyết suông — hiểu vì bạn tự tính.
Khóa 1 học miễn phí · thanh toán QR chuyển khoản
Tự điền ma trận, nhân–cộng từng ô bằng số thật. Hiểu cơ chế tận gốc.
Mỗi bài 2 trang: ĐỀ + ĐÁP ÁN. In ra hoặc lưu PDF.
Bấm một nút là có bộ số mới để luyện lại — không bao giờ hết bài.
Mỗi bài dùng lại kết quả bài trước, dắt từ dot product đến Transformer.
Khóa nền tảng học miễn phí. Nâng cấp khi bạn muốn đi sâu hơn — trả một lần, không thuê bao.
Phiếu là gì? Mỗi phiếu là một bài tập in A4: bạn tự điền số bằng tay, có đề và đáp án.
Nền tảng vững + huấn luyện & kiến trúc
Thêm Transformer & LLM — phần được hỏi nhiều nhất
Tiết kiệm 99.000đ
138 bài đã có, ra thêm liên tục — học theo thứ tự từ nền tảng đến chuyên sâu.
Toán nền + ML cổ điển + Nơ-ron/MLP
FREE — Miễn phí cho mọi người học
Cộng/trừ từng ô, nhân hệ số — phép tay nền của mọi bài sau.
Tính √(Σx²) và Σ|x| — đo độ lớn của một vectơ.
Nhân từng cặp rồi cộng → một con số. Viên gạch của mọi phép tính AI.
dot ÷ (‖a‖‖b‖) → độ giống nhau về hướng giữa hai vectơ.
(a·b/‖b‖²)·b — bóng của a lên hướng b.
Lật hàng ↔ cột — thao tác xuất hiện khắp attention/backprop.
Xếp nhiều tích vô hướng: Cᵢⱼ = hàng i · cột j.
Mỗi hàng một tích vô hướng → vectơ kết quả.
ad − bc, rồi công thức nghịch đảo ma trận 2×2.
Khử Gauss cho hệ 2×2 bằng tay.
Giải đa thức đặc trưng → trị riêng & vectơ riêng.
Quy tắc lũy thừa/hằng — viên gạch của gradient.
dy/dx = dy/du · du/dx với số thật — gốc của backprop.
Đạo hàm riêng từng biến → gom thành vectơ ∇.
Bảng đạo hàm riêng 2×2 cho hàm vectơ → vectơ.
Tính E[X], Var(X) trên một bảng nhỏ.
Xác suất từng lớp, kiểm tổng = 1.
Tra eˣ, ln x bằng bảng cho sẵn — phục vụ softmax/CE.
(x−min)/(max−min) và (x−μ)/σ.
Nhãn → vectơ 0/1 để máy hiểu được.
Least squares, tìm y = ax + b khớp dữ liệu.
Normal equation nhỏ (XᵀX) bằng tay.
sigmoid(wx+b) → loss → một bước cập nhật.
Tính khoảng cách, bỏ phiếu chọn lớp.
Gán điểm vào cụm + cập nhật tâm cụm.
Hiệp phương sai → trục chính → chiếu dữ liệu.
Nhân các xác suất → so sánh hậu nghiệm.
Chọn split tốt nhất theo độ lợi thông tin.
Tính chỉ số Gini cho từng split.
Khoảng cách điểm tới siêu phẳng phân tách.
Khớp phần dư của mô hình trước, một bước.
Khối Lego của deep learning: W trộn đầu vào, b dịch chuyển.
σ(z) và σ'(z) = σ(1−σ).
tanh(z) và đạo hàm 1 − tanh².
ReLU = max(0,z), sigmoid ép về (0,1). Vì sao cần phi tuyến.
z = w·x + b → a = f(z). Tế bào của mạng.
Nhiều nơ-ron song song → vectơ h = ReLU(Wx + b).
2 → 2(ẩn) → 1. Lan truyền xuôi qua hai lớp.
So hai kiến trúc cùng số tham số, hình dáng khác hẳn.
Σ(W + b) từng lớp → tổng tham số.
Logit → eˣ → chuẩn hóa thành xác suất cộng = 1.
Tối ưu + Chuẩn hóa + CNN + RNN/LSTM
Có trong gói: Cơ bản · Pro · Trọn bộ
Trung bình bình phương / tuyệt đối của sai số.
−[y ln p + (1−y) ln(1−p)] cho bài nhị phân.
ℒ = −ln p(đúng); gradient gọn g = p − y.
Σ p ln(p/q) — khoảng cách giữa hai phân phối.
θ ← θ − η∇: bi lăn xuống đáy parabol. Vai trò của η.
Đi theo ∇ trên mặt đường đồng mức.
Forward ra ℒ, backward bằng quy tắc chuỗi ra mọi gradient.
δ lan ngược qua từng lớp ẩn.
Rút gọn đẹp: g = p − y.
Trung bình gradient cả batch → một bước cập nhật.
v ← βv + ∇; θ ← θ − ηv — quán tính giúp đi nhanh.
Chia bước theo √(trung bình ∇²) từng tham số.
m, v, hiệu chỉnh bias, bước thích nghi θ ← θ − η·m̂/√v̂.
Tách phạt trọng số ra khỏi gradient của Adam.
Tính phương sai khởi tạo theo fan-in.
Nhân chuỗi đạo hàm < 1 hoặc > 1 → tắt/nổ.
Thêm λ‖w‖² vào loss & gradient.
λΣ|w| — đẩy trọng số nhỏ về 0 (thưa).
Nhân mask 0/1 rồi chia (1−p) khi huấn luyện.
μ, σ trên batch rồi γ, β.
Chuẩn hóa theo hàng: μ, σ, γ, β; RMSNorm rẻ hơn.
Tính η tại bước t theo lịch.
Cắt gradient theo chuẩn ‖g‖ để tránh nổ.
Trung bình gradient theo cỡ batch khác nhau.
Đọc đường train/val, chọn điểm dừng.
Trượt kernel 3×3 → feature map → ReLU → max-pool.
(W − K + 2P)/S + 1.
Cộng tích chập trên 3 kênh màu.
Mỗi filter cho một bản đồ đặc trưng.
Lấy max / trung bình mỗi cửa sổ.
Vùng ảnh ảnh hưởng tới một ô sâu.
Trộn kênh theo từng điểm ảnh.
Trải ô ra lưới lớn hơn để phóng to.
y = F(x) + x — giúp mạng rất sâu học được.
K·K·Cᵢₙ·Cₒᵤₜ + bias.
hₜ = tanh(Wₓxₜ + Wₕhₜ₋₁ + b): ký ức qua thời gian.
Chạy 3 bước, thấy gradient nhân chuỗi qua thời gian.
Cổng quên / vào / ra với số thật; băng chuyền ký ức.
Cổng cập nhật / đặt lại — gọn hơn LSTM.
Gộp hai chiều xuôi/ngược của chuỗi.
Nén chuỗi → vectơ ngữ cảnh → giải mã.
Chọn token theo xác suất, giữ top-b nhánh.
Dùng nhãn thật làm đầu vào bước kế khi huấn luyện.
Attention + LLM + Mô hình sinh
Có trong gói: Pro · Trọn bộ
Tra bảng token → vectơ, cộng dấu vị trí sin/cos.
QKᵀ/√d → softmax → ·V (bản chi tiết từng bước).
Q, K, V → S = QKᵀ → √d → softmax → O = A·V.
Thêm mask nhân quả → ma trận chú ý tam giác dưới.
Chạy nhiều đầu song song, Concat rồi trộn bằng Wᴼ.
Decoder lấy Q hỏi sang bộ nhớ K,V của encoder.
Z=LN(X+Attn), Y=LN(Z+FFN(Z)). Viên gạch của GPT/BERT.
Tính nhiều vị trí × nhiều tần số.
Xoay một cặp chiều theo vị trí token.
Che các token đệm khỏi điểm chú ý.
Tái dùng K,V cũ, chỉ tính cho token mới.
Hai lớp Linear + GELU, tính riêng từng ô.
Gộp cặp ký tự hay gặp nhất, từng bước.
top-k, top-p và nhiệt độ τ.
exp(trung bình −ln p) — đo độ 'ngạc nhiên'.
Router softmax chọn top-k chuyên gia cho mỗi token.
ΔW = B·A với hạng nhỏ, tiết kiệm tham số.
scale + làm tròn trọng số về số nguyên.
Cosine giữa truy vấn & tài liệu → chọn top.
Sinh từng token đến khi kết thúc.
Điều chỉnh logit trước softmax.
Gói system/user/assistant thành chuỗi token.
Nén x → z → dựng lại; reparam z = μ + σ⊙ε để sinh mẫu.
z = μ + σ⊙ε; phạt KL kéo về N(0,1).
Discriminator chấm thật/giả, generator học lừa.
xₜ = √ᾱ x₀ + √(1−ᾱ) ε.
Đoán nhiễu ε → ước lượng x̂₀ → trộn lại ít nhiễu hơn.
Tính β, α, ᾱ theo từng bước thời gian.
So hai cách lấy mẫu khi sinh ảnh.
RL + Đánh giá + Nâng cao + Capstone
Có trong gói: Trọn bộ
Return G = Σ γᵏ rₖ — cộng thưởng có chiết khấu.
V(s) ← r + γ V(s').
Q ← Q + α[r + γ max Q' − Q].
Cập nhật theo hành động thực sự đã đi.
Cân giữa khám phá ngẫu nhiên và khai thác tham lam.
∇ log π · G, một bước cập nhật chính sách.
A = G − V để giảm phương sai.
Kẹp tỉ lệ xác suất để bước cập nhật an toàn.
Đếm TP/FP/FN/TN → Accuracy, Precision, Recall, F1.
Vẽ điểm theo ngưỡng, tính diện tích hình thang.
So hai vectơ biểu diễn bằng cosine.
Đếm n-gram trùng + brevity penalty.
Đúng nếu nhãn nằm trong top-k dự đoán.
So xác suất dự đoán với tần suất thực tế.
Đếm nhân–cộng của matmul / conv.
Ước lượng thời gian chạy và throughput.
Gộp tin nhắn từ các đỉnh hàng xóm.
Kéo cặp dương lại, đẩy cặp âm ra.
anchor – positive – negative.
Cosine ảnh × chữ trong cùng không gian.
Học từ nhãn mềm của mô hình thầy.
forward → loss → backward → cập nhật, trọn một vòng.
conv → pool → FC → softmax.
embedding → attention → FFN → logits.
Lặp vài vòng đến khi loss giảm rõ.
★ 4.9/5 · hơn 400 lượt học
“Học attention bao lần đọc lý thuyết vẫn mơ hồ. Tự điền Q·Kᵀ rồi softmax bằng số thật một lần là thông luôn. Cảm giác cầm bút tính rất khác.”
“Backprop từng làm mình sợ. Phiếu dắt đi từng ô, nhân–cộng ra gradient, đến lúc nhìn lại thấy nó… dễ thương. In A4 giải bằng bút chì cực cuốn.”
“Nút 🎲 đổi số là tuyệt chiêu — luyện lại bao nhiêu lần cũng có đề mới. Mình làm softmax với cross-entropy đến khi bấm số nào cũng ra đúng.”
“Nội dung chắc, đi từ dot product lên Transformer rất mạch lạc. Mong ra thêm phần RL sớm. Còn lại thì quá đáng tiền.”
“Mình dùng để hiểu AI mà dạy lại cho học sinh giỏi. Cách trình bày 'đề + đáp án' giống đề kiểm tra nên rất hợp để giảng.”
“Không code, không thư viện — chỉ giấy và bút mà hiểu được LayerNorm, multi-head. Tự tin hẳn khi đọc paper vì biết bên trong nó tính gì.”
“Lúc đầu hơi ngợp vì nhiều phiếu, nhưng học theo thứ tự là ổn. Phiếu CNN với embedding giúp mình qua môn Deep Learning ngon lành.”
“Mua trọn bộ, học buổi tối cho vui mà nghiện. Tự tay chạy một bước Adam rồi diffusion khử nhiễu — kiểu kiến thức nhớ rất lâu.”