- Biến đổi những thông tin chữ, số hóa thành vector
- chữ x nét đôi, in đậm, mcos mũi tên thì
- Trong bộ dữ liệu ,không phải lúc nào cũng lấy tất cả các feautures của bộ dữ liệu
- Số hóa từng feautures của nó
- Tại sao n từ 1 đến vô cùng
- n trên R là số chiều (dimensity) của vector
- dữ liệu +, - được lấy từ tập huấn luyện
- Cần tách dữ liệu trời nắng, trời mưa ra
- Mã hóa trời nắng băng dấu +
- Mã hóa trời mua bằng dấu -
- Mã hóa từng dữ liệu (-1 hoặc +1 )
- Chỉ có 2 lớp nắng mưa thì chỉ có -1 và +1
- Mỗi sample được gán nhãn: (vector x, y) vetor x có nhãn y
- n nhỏ là số chiều
- N là số lượng sample
- xi là dữ liệu ở hàng đầu tiên được mã hóa, yi là dữ liệu trong cái hàng đó
- Training dataset là input data của svm
- Biến thành bảng dữ liệu ở dạng vector
- Tìm đường phân cách để tách ra dấu +, dấu - (Đấy là nhiệm vụ cuối cùng của svm)
- Bảng dữ liệu vector đưa vào không gian vector (data point in vector space)
- R2: LINE R1 (y = ax + b)
- R3 PLANE R2 (z = ax + by + c)
- dữ liệu đầu vào là không gian n chiều (hyperlance: siêu phẳng) Rn ...... được biểu diễn ở không gian con R(n-1)->sub space
- Siêu phẳng là một cái mặt có hình dáng gì đó để phân cách dữ liệu thành 2 hay nhiều chiều
- Cài đặt siêu phẳng dưới dạng phương trình f(x) = w(t)x + b
- (vector xi, yi (là nhãn nhan))
vis duj y=ax+ bL thay đổi a là xoay cái đường thẳng
- thay đổi b là dịch chuyển lên xuống
f(vector (x)) = vector t * vector x + vector b
vector (x) là đại diện cho tất cả vector xi trong không gian (i-1...N)
f(vector (x)) như là một cụ để tìm được mặt nào là cái mặt phân cách dữ liệu đó thành 2 mặt riêng biệt hoặc nhiều mặt tùy theo chiều của dữ liệu (hyperlance)
vector w là normal vector , là nghiêng mặt phẳng (vì vector w luôn vuông góc với mặt phẳng), gọi là weight vector (vector trọng số)
chỉnh bias là kéo lên xuống
vậy SVM nó tìm hai vector w và vector b