Bài 1: Giới thiệu - Hồi quy Logistic - Python

Đăng bởi: Admin | Lượt xem: 2153 | Chuyên mục: AI


Logistic Regression là một phương pháp thống kê phân loại các đối tượng. Bài này chủ yếu giới thiệu về hồi quy logistic với một số ví dụ.

1. Classification (Bài toán phân loại)

Để hiểu hồi quy logistic, bạn nên biết phân loại nghĩa là gì. Chúng ta hãy xem xét các ví dụ sau để hiểu rõ hơn :
  • Một bác sĩ phân loại khối u là ác tính hoặc lành tính.
  • Giao dịch ngân hàng có thể là gian lận hoặc giả mạo.
Trong nhiều năm, con người đã thực hiện những công việc như vậy - mặc dù dễ xảy ra lỗi. Câu hỏi đặt ra là chúng ta có thể huấn luyện máy móc làm những công việc này cho chúng ta với độ chính xác tốt hơn không?
Một ví dụ như vậy về máy thực hiện phân loại là Ứng dụng khách email trên máy của bạn phân loại mọi thư đến là “thư rác” hoặc “không phải thư rác” và nó thực hiện điều đó với độ chính xác khá lớn. Kỹ thuật thống kê hồi quy logistic đã được áp dụng thành công trong ứng dụng email. Trong trường hợp này, ta đã huấn luyện máy của mình giải quyết vấn đề phân loại.
Hồi quy logistic chỉ là một phần của máy học được sử dụng để giải quyết loại vấn đề phân loại nhị phân này. Có một số kỹ thuật học máy khác đã được phát triển và đang trong thực tế để giải quyết các loại vấn đề khác.
Trong tất cả các ví dụ trên, kết quả của phép dự đoán chỉ có hai giá trị - Có hoặc Không. Ta gọi chúng là các lớp - để nói rằng trình phân loại các đối tượng trong hai lớp. Về mặt kỹ thuật, biến kết quả hoặc biến mục tiêu có bản chất là lưỡng phân.
Có những vấn đề phân loại khác trong đó đầu ra có thể được phân loại thành nhiều hơn hai lớp. Ví dụ, được đưa cho một giỏ đầy trái cây, bạn được yêu cầu tách các loại trái cây khác nhau. Bây giờ, giỏ có thể chứa Cam, Táo, Xoài, v.v. Vì vậy, khi bạn tách các quả ra, bạn tách chúng ra thành nhiều hơn hai lớp. Đây là một bài toán phân loại đa biến.

2. Trường hợp nghiên cứu :

Cân nhắc rằng một ngân hàng tiếp cận bạn để phát triển một ứng dụng học máy sẽ giúp họ xác định những khách hàng tiềm năng sẽ mở một Khoản tiền gửi có kỳ hạn (còn được gọi là Tiền gửi cố định của một số ngân hàng) . Ngân hàng thường xuyên thực hiện một cuộc khảo sát bằng cách gọi điện thoại hoặc biểu mẫu web để thu thập thông tin về khách hàng tiềm năng. Cuộc khảo sát này có tính chất chung và được thực hiện trên một đối tượng rất lớn, trong đó nhiều người có thể không quan tâm đến việc giao dịch với chính ngân hàng này. Trong số những người còn lại, chỉ một số ít quan tâm đến việc mở Tiền gửi có kỳ hạn. Những người khác có thể quan tâm đến các tiện ích khác do ngân hàng cung cấp. Vì vậy, khảo sát không nhất thiết phải được thực hiện để xác định khách hàng mở TDs. Nhiệm vụ của bạn là xác định tất cả những khách hàng có khả năng mở TD cao từ dữ liệu khảo sát khổng lồ mà ngân hàng sẽ chia sẻ với bạn.
May mắn, một loại dữ liệu như vậy được công bố rộng rãi cho những người có nguyện vọng phát triển mô hình học máy. Dữ liệu này được chuẩn bị bởi một số sinh viên tại UC Irvine với sự tài trợ bên ngoài. Cơ sở dữ liệu có sẵn như một phần của Kho lưu trữ Máy học UCI và được sử dụng rộng rãi bởi sinh viên, nhà giáo dục và nhà nghiên cứu trên toàn thế giới. Dữ liệu có thể được tải xuống từ đây.
Trong các chương tiếp theo, bây giờ chúng ta hãy thực hiện phát triển ứng dụng bằng cách sử dụng cùng một dữ liệu.
Bài tiếp theo: Thiết lập project >>
vncoder logo

Theo dõi VnCoder trên Facebook, để cập nhật những bài viết, tin tức và khoá học mới nhất!