Toán × AI · in A4 để học

Học AI bằng tay ✍️

Bộ 138 phiếu tính tay theo tinh thần Prof. Tom Yeh: chạy softmax, attention, backprop bằng số thật trên giấy. Không thư viện, không lý thuyết suông — hiểu vì bạn tự tính.

Khóa 1 học miễn phí · thanh toán QR chuyển khoản

Không code

Tự điền ma trận, nhân–cộng từng ô bằng số thật. Hiểu cơ chế tận gốc.

In A4, giải bằng bút chì

Mỗi bài 2 trang: ĐỀ + ĐÁP ÁN. In ra hoặc lưu PDF.

🎲 Đổi số vô hạn

Bấm một nút là có bộ số mới để luyện lại — không bao giờ hết bài.

Học theo thứ tự

Mỗi bài dùng lại kết quả bài trước, dắt từ dot product đến Transformer.

Các gói khóa học

Khóa nền tảng học miễn phí. Nâng cấp khi bạn muốn đi sâu hơn — trả một lần, không thuê bao.

Phiếu là gì? Mỗi phiếu là một bài tập in A4: bạn tự điền số bằng tay, có đề và đáp án.

FREE Khóa nền tảng học miễn phí cho mọi người. Nâng cấp khi bạn muốn đi sâu hơn.

Cơ bản

Nền tảng vững + huấn luyện & kiến trúc

149.000đ

Nền tảng AI (miễn phí)
Huấn luyện & Kiến trúc

✓ Học một lần, xem trọn đời

★ Phổ biến nhất

Pro

Thêm Transformer & LLM — phần được hỏi nhiều nhất

249.000đ348.000đ

Tiết kiệm 99.000đ

Nền tảng AI (miễn phí)
Huấn luyện & Kiến trúc
Transformer & LLM

✓ Gồm trọn gói Cơ bản
✓ Học một lần, xem trọn đời

Trọn bộ

Đầy đủ nhất

Đủ mọi chủ đề, gồm chuyên sâu & dự án

349.000đ497.000đ

Tiết kiệm 148.000đ

Nền tảng AI (miễn phí)
Huấn luyện & Kiến trúc
Transformer & LLM
Chuyên sâu & Dự án

✓ Trọn đời nội dung hiện có
✓ Cập nhật mới miễn phí 12 tháng
✓ Bonus: dự án capstone + cộng đồng

Toàn bộ lộ trình

138 bài đã có, ra thêm liên tục — học theo thứ tự từ nền tảng đến chuyên sâu.

Nền tảng AIK1

Toán nền + ML cổ điển + Nơ-ron/MLP

41/41 phiếu

FREE — Miễn phí cho mọi người học

A1A

FREE

Vectơ: cộng, trừ, nhân vô hướng

Cộng/trừ từng ô, nhân hệ số — phép tay nền của mọi bài sau.

A2A

FREE

Độ dài & chuẩn

Tính √(Σx²) và Σ|x| — đo độ lớn của một vectơ.

01A

FREE

Tích vô hướng

Nhân từng cặp rồi cộng → một con số. Viên gạch của mọi phép tính AI.

A4A

FREE

Cosine similarity

dot ÷ (‖a‖‖b‖) → độ giống nhau về hướng giữa hai vectơ.

A5A

FREE

Phép chiếu vectơ

(a·b/‖b‖²)·b — bóng của a lên hướng b.

A6A

FREE

Ma trận chuyển vị

Lật hàng ↔ cột — thao tác xuất hiện khắp attention/backprop.

02A

FREE

Nhân ma trận

Xếp nhiều tích vô hướng: Cᵢⱼ = hàng i · cột j.

A8A

FREE

Ma trận × vectơ

Mỗi hàng một tích vô hướng → vectơ kết quả.

A9A

FREE

Định thức & nghịch đảo 2×2

ad − bc, rồi công thức nghịch đảo ma trận 2×2.

A10A

FREE

Hệ phương trình tuyến tính nhỏ

Khử Gauss cho hệ 2×2 bằng tay.

A11A

FREE

Trị riêng / vectơ riêng 2×2

Giải đa thức đặc trưng → trị riêng & vectơ riêng.

A12A

FREE

Đạo hàm một biến

Quy tắc lũy thừa/hằng — viên gạch của gradient.

A13A

FREE

Quy tắc chuỗi

dy/dx = dy/du · du/dx với số thật — gốc của backprop.

A14A

FREE

Gradient hàm nhiều biến

Đạo hàm riêng từng biến → gom thành vectơ ∇.

A15A

FREE

Ma trận Jacobian nhỏ

Bảng đạo hàm riêng 2×2 cho hàm vectơ → vectơ.

A16A

FREE

Xác suất, kỳ vọng, phương sai

Tính E[X], Var(X) trên một bảng nhỏ.

A17A

FREE

Phân phối Bernoulli / Categorical

Xác suất từng lớp, kiểm tổng = 1.

A18A

FREE

exp & log (dùng bảng tra)

Tra eˣ, ln x bằng bảng cho sẵn — phục vụ softmax/CE.

A19A

FREE

Chuẩn hóa dữ liệu: min-max & z-score

(x−min)/(max−min) và (x−μ)/σ.

A20A

FREE

One-hot encoding

Nhãn → vectơ 0/1 để máy hiểu được.

B1B

FREE

Hồi quy tuyến tính 1 biến

Least squares, tìm y = ax + b khớp dữ liệu.

B2B

FREE

Hồi quy tuyến tính nhiều biến

Normal equation nhỏ (XᵀX) bằng tay.

B3B

FREE

Hồi quy logistic 1 bước

sigmoid(wx+b) → loss → một bước cập nhật.

B4B

FREE

k-NN — k láng giềng gần nhất

Tính khoảng cách, bỏ phiếu chọn lớp.

B5B

FREE

k-means 1 vòng

Gán điểm vào cụm + cập nhật tâm cụm.

B6B

FREE

PCA 2D

Hiệp phương sai → trục chính → chiếu dữ liệu.

B7B

FREE

Naive Bayes

Nhân các xác suất → so sánh hậu nghiệm.

B8B

FREE

Cây quyết định: Entropy & Information Gain

Chọn split tốt nhất theo độ lợi thông tin.

B9B

FREE

Cây quyết định: Gini

Tính chỉ số Gini cho từng split.

B10B

FREE

SVM: lề hình học

Khoảng cách điểm tới siêu phẳng phân tách.

B11B

FREE

Gradient Boosting — ý tưởng

Khớp phần dư của mô hình trước, một bước.

03C

FREE

Lớp tuyến tính

Khối Lego của deep learning: W trộn đầu vào, b dịch chuyển.

C2C

FREE

Sigmoid chi tiết + đạo hàm

σ(z) và σ'(z) = σ(1−σ).

C3C

FREE

Tanh + đạo hàm

tanh(z) và đạo hàm 1 − tanh².

04C

FREE

Hàm kích hoạt

ReLU = max(0,z), sigmoid ép về (0,1). Vì sao cần phi tuyến.

05C

FREE

Một nơ-ron

z = w·x + b → a = f(z). Tế bào của mạng.

06C

FREE

Một lớp nơ-ron

Nhiều nơ-ron song song → vectơ h = ReLU(Wx + b).

07C

FREE

Lớp ẩn — MLP nhỏ

2 → 2(ẩn) → 1. Lan truyền xuôi qua hai lớp.

08C

FREE

Mạng sâu / rộng

So hai kiến trúc cùng số tham số, hình dáng khác hẳn.

C9C

FREE

Đếm tham số mạng

Σ(W + b) từng lớp → tổng tham số.

09C

FREE

Softmax đầu ra

Logit → eˣ → chuẩn hóa thành xác suất cộng = 1.

Huấn luyện & Kiến trúcK2

Tối ưu + Chuẩn hóa + CNN + RNN/LSTM

43/43 phiếu

Có trong gói: Cơ bản · Pro · Trọn bộ

D1D

🔒

MSE / MAE

Trung bình bình phương / tuyệt đối của sai số.

D2D

🔒

Binary Cross-Entropy

−[y ln p + (1−y) ln(1−p)] cho bài nhị phân.

17D

🔒

Cross-Entropy

ℒ = −ln p(đúng); gradient gọn g = p − y.

D4D

🔒

KL Divergence

Σ p ln(p/q) — khoảng cách giữa hai phân phối.

10D

🔒

Gradient — một bước học

θ ← θ − η∇: bi lăn xuống đáy parabol. Vai trò của η.

D6D

🔒

Gradient descent 2 biến

Đi theo ∇ trên mặt đường đồng mức.

12D

🔒

Backpropagation

Forward ra ℒ, backward bằng quy tắc chuỗi ra mọi gradient.

D8D

🔒

Backprop qua MLP nhiều lớp

δ lan ngược qua từng lớp ẩn.

D9D

🔒

Backprop qua Softmax + CE

Rút gọn đẹp: g = p − y.

D10D

🔒

SGD vanilla (1 mini-batch)

Trung bình gradient cả batch → một bước cập nhật.

D11D

🔒

Momentum

v ← βv + ∇; θ ← θ − ηv — quán tính giúp đi nhanh.

D12D

🔒

RMSProp

Chia bước theo √(trung bình ∇²) từng tham số.

23D

🔒

Adam — một bước cập nhật

m, v, hiệu chỉnh bias, bước thích nghi θ ← θ − η·m̂/√v̂.

D14D

🔒

AdamW (weight decay)

Tách phạt trọng số ra khỏi gradient của Adam.

E1E

🔒

Khởi tạo trọng số (Xavier / He)

Tính phương sai khởi tạo theo fan-in.

E2E

🔒

Vanishing / Exploding gradient

Nhân chuỗi đạo hàm < 1 hoặc > 1 → tắt/nổ.

E3E

🔒

L2 regularization / weight decay

Thêm λ‖w‖² vào loss & gradient.

E4E

🔒

L1 regularization

λΣ|w| — đẩy trọng số nhỏ về 0 (thưa).

E5E

🔒

Dropout (mask + scale)

Nhân mask 0/1 rồi chia (1−p) khi huấn luyện.

E6E

🔒

BatchNorm — chuẩn hóa theo batch

μ, σ trên batch rồi γ, β.

20E

🔒

LayerNorm / RMSNorm

Chuẩn hóa theo hàng: μ, σ, γ, β; RMSNorm rẻ hơn.

E8E

🔒

Learning rate schedule (step / cosine)

Tính η tại bước t theo lịch.

E9E

🔒

Gradient clipping

Cắt gradient theo chuẩn ‖g‖ để tránh nổ.

E10E

🔒

Mini-batch vs full-batch

Trung bình gradient theo cỡ batch khác nhau.

E11E

🔒

Early stopping

Đọc đường train/val, chọn điểm dừng.

16F

🔒

CNN — một bộ lọc

Trượt kernel 3×3 → feature map → ReLU → max-pool.

F2F

🔒

Kích thước đầu ra (stride, padding)

(W − K + 2P)/S + 1.

F3F

🔒

Conv nhiều kênh (RGB)

Cộng tích chập trên 3 kênh màu.

F4F

🔒

Nhiều bộ lọc → nhiều feature map

Mỗi filter cho một bản đồ đặc trưng.

F5F

🔒

Max / Average Pooling

Lấy max / trung bình mỗi cửa sổ.

F6F

🔒

Receptive field

Vùng ảnh ảnh hưởng tới một ô sâu.

F7F

🔒

Conv 1×1

Trộn kênh theo từng điểm ảnh.

F8F

🔒

Transposed conv (upsampling)

Trải ô ra lưới lớn hơn để phóng to.

F9F

🔒

Kết nối tắt (Residual / skip)

y = F(x) + x — giúp mạng rất sâu học được.

F10F

🔒

Đếm tham số một lớp conv

K·K·Cᵢₙ·Cₒᵤₜ + bias.

21G

🔒

RNN — một bước hồi quy

hₜ = tanh(Wₓxₜ + Wₕhₜ₋₁ + b): ký ức qua thời gian.

G3G

🔒

RNN trải nhiều bước (BPTT)

Chạy 3 bước, thấy gradient nhân chuỗi qua thời gian.

22G

🔒

LSTM — một ô nhớ

Cổng quên / vào / ra với số thật; băng chuyền ký ức.

G5G

🔒

GRU 1 ô

Cổng cập nhật / đặt lại — gọn hơn LSTM.

G6G

🔒

Bi-directional RNN

Gộp hai chiều xuôi/ngược của chuỗi.

G7G

🔒

Seq2seq encoder → decoder

Nén chuỗi → vectơ ngữ cảnh → giải mã.

G8G

🔒

Giải mã: Greedy vs Beam search

Chọn token theo xác suất, giữ top-b nhánh.

G9G

🔒

Teacher forcing

Dùng nhãn thật làm đầu vào bước kế khi huấn luyện.

Transformer & LLMK3

Attention + LLM + Mô hình sinh

29/29 phiếu

Có trong gói: Pro · Trọn bộ

19G

🔒

Embedding & Positional

Tra bảng token → vectơ, cộng dấu vị trí sin/cos.

H1H

🔒

Scaled dot-product attention

QKᵀ/√d → softmax → ·V (bản chi tiết từng bước).

11H

🔒

Self-Attention

Q, K, V → S = QKᵀ → √d → softmax → O = A·V.

14H

🔒

Khối GPT — Masked Attention

Thêm mask nhân quả → ma trận chú ý tam giác dưới.

18H

🔒

Multi-Head Attention

Chạy nhiều đầu song song, Concat rồi trộn bằng Wᴼ.

15H

🔒

Cross-Attention

Decoder lấy Q hỏi sang bộ nhớ K,V của encoder.

13H

🔒

Khối Transformer

Z=LN(X+Attn), Y=LN(Z+FFN(Z)). Viên gạch của GPT/BERT.

H7H

🔒

Positional Encoding sin/cos (chi tiết)

Tính nhiều vị trí × nhiều tần số.

H8H

🔒

RoPE — Rotary embedding

Xoay một cặp chiều theo vị trí token.

H9H

🔒

Padding mask trong attention

Che các token đệm khỏi điểm chú ý.

H10H

🔒

KV cache — sinh token tiếp theo

Tái dùng K,V cũ, chỉ tính cho token mới.

H11H

🔒

FFN trong Transformer

Hai lớp Linear + GELU, tính riêng từng ô.

I1I

🔒

Tokenization / BPE

Gộp cặp ký tự hay gặp nhất, từng bước.

I2I

🔒

Logits → softmax → sampling

top-k, top-p và nhiệt độ τ.

I3I

🔒

Perplexity

exp(trung bình −ln p) — đo độ 'ngạc nhiên'.

26I

🔒

Mixture of Experts

Router softmax chọn top-k chuyên gia cho mỗi token.

I5I

🔒

LoRA — cập nhật hạng thấp

ΔW = B·A với hạng nhỏ, tiết kiệm tham số.

I6I

🔒

Quantization int8

scale + làm tròn trọng số về số nguyên.

I7I

🔒

Embedding similarity / RAG retrieval

Cosine giữa truy vấn & tài liệu → chọn top.

I8I

🔒

Greedy decode trọn một chuỗi

Sinh từng token đến khi kết thúc.

I9I

🔒

Repetition penalty / logit bias

Điều chỉnh logit trước softmax.

I10I

🔒

Chat template → token hóa

Gói system/user/assistant thành chuỗi token.

24J

🔒

Autoencoder / VAE

Nén x → z → dựng lại; reparam z = μ + σ⊙ε để sinh mẫu.

J2J

🔒

VAE — reparam + KL (chi tiết)

z = μ + σ⊙ε; phạt KL kéo về N(0,1).

J3J

🔒

GAN — một bước D và G

Discriminator chấm thật/giả, generator học lừa.

J4J

🔒

Diffusion: forward (thêm nhiễu)

xₜ = √ᾱ x₀ + √(1−ᾱ) ε.

25J

🔒

Diffusion — một bước khử nhiễu

Đoán nhiễu ε → ước lượng x̂₀ → trộn lại ít nhiễu hơn.

J6J

🔒

Noise schedule

Tính β, α, ᾱ theo từng bước thời gian.

J7J

🔒

Sampling DDPM vs DDIM

So hai cách lấy mẫu khi sinh ảnh.

Chuyên sâu & Dự ánK4

RL + Đánh giá + Nâng cao + Capstone

25/25 phiếu

Có trong gói: Trọn bộ

K1K

🔒

Phần thưởng & chiết khấu

Return G = Σ γᵏ rₖ — cộng thưởng có chiết khấu.

K2K

🔒

Phương trình Bellman

V(s) ← r + γ V(s').

K3K

🔒

Q-learning — một cập nhật

Q ← Q + α[r + γ max Q' − Q].

K4K

🔒

SARSA

Cập nhật theo hành động thực sự đã đi.

K5K

🔒

Chính sách ε-greedy

Cân giữa khám phá ngẫu nhiên và khai thác tham lam.

K6K

🔒

Policy Gradient (REINFORCE)

∇ log π · G, một bước cập nhật chính sách.

K7K

🔒

Advantage / baseline

A = G − V để giảm phương sai.

K8K

🔒

PPO — ý tưởng cắt (clip)

Kẹp tỉ lệ xác suất để bước cập nhật an toàn.

L1L

🔒

Ma trận nhầm lẫn → Acc/P/R/F1

Đếm TP/FP/FN/TN → Accuracy, Precision, Recall, F1.

L2L

🔒

ROC & AUC

Vẽ điểm theo ngưỡng, tính diện tích hình thang.

L3L

🔒

Cosine similarity (đo embedding)

So hai vectơ biểu diễn bằng cosine.

L4L

🔒

BLEU — n-gram

Đếm n-gram trùng + brevity penalty.

L5L

🔒

Top-k accuracy

Đúng nếu nhãn nằm trong top-k dự đoán.

L6L

🔒

Calibration (độ tin cậy)

So xác suất dự đoán với tần suất thực tế.

L7L

🔒

FLOPs — đếm phép tính một lớp

Đếm nhân–cộng của matmul / conv.

L8L

🔒

Độ trễ & thông lượng (ý tưởng)

Ước lượng thời gian chạy và throughput.

M1M

🔒

GNN — message passing một bước

Gộp tin nhắn từ các đỉnh hàng xóm.

M2M

🔒

Contrastive learning (InfoNCE)

Kéo cặp dương lại, đẩy cặp âm ra.

M3M

🔒

Triplet loss

anchor – positive – negative.

M4M

🔒

Multi-modal (CLIP)

Cosine ảnh × chữ trong cùng không gian.

M5M

🔒

Knowledge distillation

Học từ nhãn mềm của mô hình thầy.

N1N

🔒

MLP phân loại điểm 2D — đủ vòng

forward → loss → backward → cập nhật, trọn một vòng.

N2N

🔒

Mini-CNN nhận chữ số

conv → pool → FC → softmax.

N3N

🔒

Mini-GPT: 2 token, sinh 1 token

embedding → attention → FFN → logits.

N4N

🔒

Logistic regression hội tụ

Lặp vài vòng đến khi loss giảm rõ.

Học viên nói gì

★ 4.9/5 · hơn 400 lượt học

M

Nguyễn Hoàng Minh

Sinh viên CNTT, ĐH Bách Khoa

★★★★★

“Học attention bao lần đọc lý thuyết vẫn mơ hồ. Tự điền Q·Kᵀ rồi softmax bằng số thật một lần là thông luôn. Cảm giác cầm bút tính rất khác.”

V

Trần Thảo Vy

Data Analyst

★★★★★

“Backprop từng làm mình sợ. Phiếu dắt đi từng ô, nhân–cộng ra gradient, đến lúc nhìn lại thấy nó… dễ thương. In A4 giải bằng bút chì cực cuốn.”

B

Lê Quốc Bảo

Kỹ sư phần mềm

★★★★★

“Nút 🎲 đổi số là tuyệt chiêu — luyện lại bao nhiêu lần cũng có đề mới. Mình làm softmax với cross-entropy đến khi bấm số nào cũng ra đúng.”

T

Phạm Anh Tú

Học viên tự học

★★★★⯪

“Nội dung chắc, đi từ dot product lên Transformer rất mạch lạc. Mong ra thêm phần RL sớm. Còn lại thì quá đáng tiền.”

H

Đỗ Thu Hà

Giáo viên Toán THPT

★★★★★

“Mình dùng để hiểu AI mà dạy lại cho học sinh giỏi. Cách trình bày 'đề + đáp án' giống đề kiểm tra nên rất hợp để giảng.”

K

Vũ Đình Khoa

Chuyển ngành sang ML

★★★★★

“Không code, không thư viện — chỉ giấy và bút mà hiểu được LayerNorm, multi-head. Tự tin hẳn khi đọc paper vì biết bên trong nó tính gì.”

L

Hoàng Mỹ Linh

Sinh viên năm 3

★★★★⯪

“Lúc đầu hơi ngợp vì nhiều phiếu, nhưng học theo thứ tự là ổn. Phiếu CNN với embedding giúp mình qua môn Deep Learning ngon lành.”

P

Ngô Tấn Phát

Backend Developer

★★★★★

“Mua trọn bộ, học buổi tối cho vui mà nghiện. Tự tay chạy một bước Adam rồi diffusion khử nhiễu — kiểu kiến thức nhớ rất lâu.”

Trọn bộ, một lần trả

Mở khóa tất cả bài hiện có, kèm cập nhật mới miễn phí trong 12 tháng.

349.000đ