Giải pháp phân loại tương tác giữa 2 người trong chuỗi ảnh rời rạc (Phần I)
GIỚI THIỆU
Mục tiêu của bài báo là phân tích tương tác của con người trong các chuỗi ảnh rời rạc hoặc video. Dữ liệu có thể được trích ra từ các đoạn video hoặc các bộ sưu tập ảnh trên Internet. Có 2 cách tiếp cận chính trong bài toán nhận dạng hành động là nhận dạng hành động trực tiếp qua dữ liệu video hoặc dựa vào các điểm chính trên khung xương (skeleton-based methods) [3], trong đó tọa độ các điểm chính trên khung xương được xác định trước. Một số giải pháp phổ biến xác định tọa độ các điểm chính trên khung xương người (skeleton estimation) có thể kể đến như: OpenPose [4], DeepPose và DeeperCut.
Trong nghiên cứu này, nhóm tác giả sẽ tập trung nhận dạng tương tác giữa 2 người trong chuỗi ảnh rời rạc, giả định rằng dữ liệu về các điểm chính trên khung xương được xác định trước. Nhóm tác giả đã xây dựng các bộ phân loại chuyên gia (expert classifier) cho các phân đoạn khác nhau của hành động. Mỗi hành động được chia ra thành 4 phân đoạn, gồm có: giai đoạn bắt đầu, giai đoạn trung gian thứ nhất, giai đoạn trung gian thứ hai và giai đoạn kết thúc. Kết quả cuối cùng sẽ được tính toán dựa trên kết quả phân loại hành động của 4 bộ phân loại chuyên gia tại mỗi phân đoạn.
Để có thể cung cấp chi tiết kết quả nghiên cứu, nhóm tác giả sẽ chia nội dung trình bày giải pháp thành hai phần. Trong phần I này, nhóm tác giả sẽ giới thiệu khái quát vấn đề nghiên cứu; các giải pháp truyền thống để giải quyết bài toán; kỹ thuật phát hiện điểm chính trên khung xương, thuật toán gộp điểm và trích xuất đặc trưng cho mô hình.
Chi tiết bài viết Quý độc giả vui lòng tham khảo tại đây.
TS. Đỗ Văn Khánh, TS. Lê Xuân Đức, TS. Nguyễn Anh Tú (Phòng Thí nghiệm trọng điểm An toàn thông tin, Bộ Tư lệnh 86)