Gần đây, khung mã nguồn mở PAI máy học của Alibaba Cloud, EasyNLP, đã được nâng cấp và phát hành. Nó đã đưa ra mô hình CLIP tích hợp kiến thức phong phú về các kịch bản thương mại điện tử, làm mới kết quả SOTA trong hiệu ứng tìm kiếm của văn bản và đồ thị thương mại điện tử, đồng thời làm cho mô hình trên trở nên miễn phí và mã nguồn mở.
CLIP (Contrastive Language-Image Pre-training) là một mô hình truy xuất đa phương thức hình ảnh-văn bản cổ điển. Nó thực hiện đào tạo trước khi học so sánh trên các tập dữ liệu hình ảnh-văn bản quy mô lớn và có khả năng học biểu diễn đa phương thức hình ảnh-văn bản mạnh mẽ. EasyNLP dựa trên kiến trúc đào tạo trước nhẹ và dễ di chuyển của CLIP để xây dựng mô hình luồng kép dựa trên CLIP bao gồm Bộ mã hóa hình ảnh và văn bản, đồng thời dựa trên dữ liệu hàng hóa để tối ưu hóa truy xuất văn bản và hình ảnh trong các tình huống thương mại điện tử.
Tập dữ liệu Fashion-Gen là một tập dữ liệu đồ họa quy mô lớn về các cảnh thời trang. Lấy tập dữ liệu Fashion-Gen làm ví dụ, EasyNLP dựa trên pai-clip-Commercial-base-en và pai-clip-Commercial-Large-en. Mỗi mô hình được tinh chỉnh trong 20 kỷ trên tập dữ liệu Fashion-Gen. Kết quả thử nghiệm cho thấy, so với mô hình SOTA (CommerceMM) được xuất bản hiện tại, mô hình CLIP-thương mại điện tử lớn đã cải thiện đáng kể cả kết quả truy xuất văn bản thành hình ảnh và hình ảnh thành văn bản, đồng thời các chỉ số đánh giá đã tăng lên tối đa là 8,7 đến 15 điểm phần trăm.
Ngoài ra, mô hình cơ sở thương mại điện tử sử dụng ít tham số hơn khi kết quả tìm kiếm có thể so sánh với kết quả của Text-to-Graph và CommerceMM. Có thể thấy rằng CLIP thương mại điện tử đã đạt được khả năng truy xuất đa phương thức cạnh tranh trong các kịch bản thương mại điện tử bất kể cài đặt bộ mã hóa hình ảnh lớn hay cơ sở.
Kết quả đánh giá truy xuất văn bản thành hình ảnh
Kết quả đánh giá truy xuất hình ảnh thành văn bản
Hiện tại, CLIP thương mại điện tử có thể được cài đặt và sử dụng trực tiếp trong EasyNLP. Trong tương lai, khung EasyNLP sẽ tích hợp thêm nhiều mô hình kiến thức đa phương thức của NLP, bao gồm các lĩnh vực và nhiệm vụ phổ biến khác nhau, đồng thời cũng sẽ tích hợp nhiều mô hình SOTA hơn (đặc biệt là Mô hình Trung Quốc), để hỗ trợ các nhiệm vụ NLP và đa phương thức khác nhau, đồng thời xây dựng NLP và thư viện thuật toán đa phương thức.
Phiên dịch: Vanchuyendonghung Team