Skip to content

Latest commit

 

History

History
54 lines (50 loc) · 3.93 KB

GhiChu30-03-2022.md

File metadata and controls

54 lines (50 loc) · 3.93 KB

Bản chất toán học SVM ?

  • Tham số ?
  • SVM là một công cụ dùng để classification
  • SVM là một trong những công cụ sử dujg phương thức học có giám sát (Supervised) để thực hiện classiffication
  • có hai loại 1 là phân thành 2 lớp là binary classification
  • hai là nhiều lớp multi-classificcation

phân lớp là phân lớp gì? tại sao?

  • Mình có một tập dữ liệu, trong đó mình có cột loại, lớp từng sample (cột cuối cùng đặc trưng) ví dụ cột loại nghề nghiệp, loại sinh viên. Tập đó là tập dữ liệu huấn luyện để đưa vào SVm tạo model
  • Huấn luyện tạo ra bộ classifier
  • Huấn luyện cái công thức toán học của svm, những tham số của công thức đó sẽ được thay đổi, sẽ được học dựa theo bộ dữ liệu đó (data-driven)
  • Nhưng tham số là gì, ví dụ y=ax+b, a, b là tham số. ví dụ y-ã+b gọi là bộ phân loại.
  • Những dữ liệu không có trong bộ dataset training khi được đưa vào bộ phân loại ấy. Nó sẽ tự gán nhãn cho phù hợp, hoặc không gán nhãn nêu sample đó.
  • Cho một tập dữ liệu gồm có những vector i chạy từ 1 đến n
  • Sử dunjgxasc suất thống kê, có vùng phân bổ, để nếu sample đó thuộc trong tập phân bố đó thì mới gán nhãn
  • SVM không phải là thuật toán duy nhất , có nhiều biến thể khác dựa trên svm được phát triển thêm

SVM

- Biến đổi những thông tin chữ, số hóa thành vector
- chữ x nét đôi, in đậm, mcos mũi tên thì
- Trong bộ dữ liệu ,không phải lúc nào cũng lấy tất cả các feautures của bộ dữ liệu
- Số hóa từng feautures của nó
- Tại sao n từ 1 đến vô cùng
- n trên R là số chiều (dimensity) của vector
- dữ liệu +, - được lấy từ tập huấn luyện 
- Cần tách dữ liệu trời nắng, trời mưa ra
- Mã hóa trời nắng băng dấu +
- Mã hóa trời mua bằng dấu -
- Mã hóa từng dữ liệu (-1 hoặc +1 )
- Chỉ có 2 lớp nắng mưa thì chỉ có -1 và +1
- Mỗi sample được gán nhãn: (vector x, y) vetor x có nhãn y
- n nhỏ là số chiều
- N là số lượng sample
- xi là dữ liệu ở hàng đầu tiên được mã hóa, yi là dữ liệu trong cái hàng đó
- Training dataset là input data của svm
- Biến thành bảng dữ liệu ở dạng vector 
- Tìm đường phân cách để tách ra dấu +, dấu - (Đấy là nhiệm vụ cuối cùng của svm)
- Bảng dữ liệu vector đưa vào không gian vector (data point in vector space)
- R2: LINE R1 (y = ax + b)
- R3 PLANE R2 (z = ax + by + c)
- dữ liệu đầu vào là không gian n chiều (hyperlance: siêu phẳng) Rn ......  được biểu diễn ở không gian con R(n-1)->sub space
- Siêu phẳng là một cái mặt có hình dáng gì đó để phân cách dữ liệu thành 2 hay nhiều chiều
- Cài đặt siêu phẳng dưới dạng phương trình f(x) = w(t)x + b
-  (vector xi, yi (là nhãn nhan))
vis duj y=ax+ bL thay đổi a là xoay cái đường thẳng
- thay đổi b là dịch chuyển lên xuống
 f(vector (x)) = vector t * vector x + vector b
     vector (x) là đại diện cho tất cả  vector xi trong không gian (i-1...N)
f(vector (x)) như là một cụ để tìm được mặt nào là cái mặt phân cách dữ liệu đó thành 2 mặt riêng biệt hoặc nhiều mặt tùy theo chiều của dữ liệu (hyperlance) 
vector w là normal vector , là nghiêng mặt phẳng (vì vector w luôn vuông góc với mặt phẳng), gọi là weight vector (vector trọng số)
chỉnh bias là kéo lên xuống
vậy SVM nó tìm hai vector w và vector b