Tìm kiểu thuật toán gợi ý video của Tiktok

Đăng bởi: Admin | Lượt xem: 3241 | Chuyên mục: Chia Sẻ

Thuật toán của TikTok là hiện tại là tài sản trí tuệ quan trọng nhất của mạng xã hội này, và cũng là cái khiến cho một app non trẻ mới mà đã sở hữu hơn 800 triệu người dùng tích cực hàng tháng. Thuật toán tự động gợi ý bài của TikTok là một “tượng đài” vì nó học sở thích, thói quen của người dùng về nội dung và ngay lập tức đưa ra một loạt các video đúng với cái mà bạn muốn xem, tới mức người ta hay nói đã cầm TikTok lên vuốt thì khó mà bỏ xuống được.


TikTok từng chia sẻ rằng công ty của họ rất non trẻ, “chúng tôi là một công ty 2 năm nhưng hoạt động với kỳ vọng của một công ty 10 năm tuổi”. TikTok không được sinh ra trong thời kỳ vàng của Internet, xung quanh TikTok đã có quá nhiều mạng xã hội khác nổi tiếng với lượng người dùng cực kì lớn. TikTok không thể thử và sai nhiều như Facebook, Google ở thời kì đầu. Họ gặp nhiều cạnh tranh về công nghệ, bị nghi ngờ về khả năng thành công, cũng như cách mà các app giám sát, quản lý nội dung.



Trong bối cảnh TikTok đang bị chính quyền tổng thống Donald Trump ép từ nhiều phía, mới đây họ đã dẫn phóng viên các báo đài Mỹ đi tham quan một vòng “trung tâm minh bạch” của mình ở Los Angeles, trong đó có một khu vực giải thích cách thuật toán và sử dụng data của TikTok.

Ở mức tổng quan, thuật toán gợi ý của TikTok sử dụng các kĩ thuật machine learning để đoán xem với nội dung nào thì người dùng sẽ tương tác, sẽ xem nhiều, dựa vào đó sẽ hiển thị nội dung đó lên giữa hàng trăm nghìn video được upload lên nền tảng của TikTok.

Khi bạn mới mở app TikTok lần đầu tiên, TikTok sẽ hiển thị 8 video phổ biến thuộc nhiều xu hướng, nhiều bài nhạc và nhiều chủ đề khác nhau. Sau đó, thuật toán sẽ tiếp tục load thêm 8 video nữa dựa theo những video nào mà user đã tương tác tốt trước đó (tương tác ở đây có nghĩa là các hành vi like, xem lâu, nhấn vào xem thêm thông tin của tác giả video…).


Thuật toán xác định các video tương tự với những video bạn đã tương tác tốt dựa trên các thông tin về caption, hashtag, âm thanh… App cũng dùng dữ liệu về tài khoản của bạn, các thiết lập trên điện thoại liên quan tới ngôn ngữ, quốc gia, loại thiết bị… để đưa vào mô hình dự đoán này.

Khi TikTok đã thu thập đủ dữ liệu về bạn, app sẽ tìm những người khác có hành vi tương tự như bạn và nhóm chung vào một “cụm” (cluster). Những video có liên quan tới nhau, ví dụ những video dùng bài hát Có Chắc Yêu Là Đây của Sơn Tùng, cũng sẽ được gom thành một cụm.

Sử dụng machine learning, thuật toán sẽ tìm xem cluster người dùng này thường xem cluster video nào, nếu bạn nằm trong cùng cluster thì TikTok sẽ hiển thị lên cho bạn xem.

Logic của thuật toán còn được xây dựng để tránh lặp nội dung, ví dụ như xem video của cùng 1 người quá nhiều lần, hoặc xem quá nhiều video của cùng topic, cùng xu hướng liên tục nhau.



TikTok nói thêm rằng việc thu thập và sử dụng dữ liệu của họ là nhằm củng cố hiểu biết của “máy” về từng người dùng, và họ không cố gắng mở rộng loại nội dung được hiển thị vì chưa chắc người dùng sẽ thích cái đó. TikTok cũng không cố gắng hiện các nội dung có quan điểm trái với cái mà người dùng thích.

TikTok có nhắc tới khái niệm filter bubble. Đây là thuật ngữ dùng để chỉ việc các hệ thống đoán xem người dùng muốn xem cái gì dựa trên thông tin của họ về địa điểm, hành vi, thói quen. Đúng là cách này giúp người dùng xem được cái họ thích, nhưng lại vô tình cô lập họ khỏi những quan điểm trái chiều, thậm chí cô lập người dùng khỏi chính nền văn hóa của mình. Thuật toán của TikTok đúng là có hiệu ứng filter bubble.

Nhưng song song đó, TikTok cũng đang thử nghiên cứu xem liệu họ có cần phải thay đổi điều này hay không, nếu cần gợi ý những cái có liên quan tới người dùng thôi thì nên kéo dài trong thời gian bao lâu, khi nào thì nên phục vụ loại nội dung mới cho người dùng.

Tất nhiên, vì cách thức này có thể bị lợi dụng để phục vụ cho việc đưa tin giả, tin sai, hoặc các thuyết âm mưu khác nên đội ngũ làm sản phẩm, chính sách của TikTok đang nghiên cứu kĩ về các tài khoản và video được post lên để hạn chế tác động tiêu cực đến người dùng.

Với những nội dung video hoặc những người tạo nội dung có dấu hiệu cung cấp thông tin sai lệch, dữ liệu sẽ được gửi về đội review nội dung của TikTok trên toàn cầu để quyết định xem có hiển thị cho người dùng hay không.

TikTok nói họ cố gắng phát hiện các vấn đề trên nền tảng của mình thông qua việc phát hiện những điểm dữ liệu bất thường, có thể là một video nào đó được xem nhiều hơn hẳn bình thường, hay một lỗi nào đó phát sinh ra quá nhiều trong một khung thời gian ngắn. Khi họ biết sớm những tình huống này, TikTok có thể khắc phục nhanh trước khi mọi chuyện tệ đi.

Sắp tới, TikTok dự kiến tuyển thêm 100 nhân sự về dữ liệu, bảo mật và quyền riêng tư từ đây đến cuối năm cho cơ sở tại Mỹ của mình. TikTok cũng muốn xây dựng một trung tâm giám sát tại Washington D.C. để có thể phản ứng nhanh với các tình huống khẩn cấp theo thời gian thực.

Cơ bản là TikTok đang muốn trở thành một trong những công ty hàng đầu Silicon Valley, và hãng hi vọng mức độ minh bạch thông tin của mình sẽ giúp công ty một phần trong kế hoạch này.

vncoder logo

Theo dõi VnCoder trên Facebook, để cập nhật những bài viết, tin tức và khoá học mới nhất!