UIT – Nghiệm thu đề tài cấp ĐHQG-HCM loại B tại Trường Đại học Công nghệ Thông tin: Nghiên cứu mô hình học đa thể thức cho dữ liệu hình ảnh và văn bản tiếng Việt

 

1.
Tên đề tài: NGHIÊN CỨU MÔ HÌNH HỌC ĐA THỂ THỨC CHO DỮ LIỆU HÌNH ẢNH VÀ VĂN BẢN TIẾNG VIỆT
2. Mã số DS2024-26-01
3. Chủ nhiệm đề tài:

PGS.TS. Nguyễn Lưu Thùy Ngân

Nhóm nghiên cứu gồm: 2 PGS.TS, 1 TS, 3 ThS và 1 CN.

4. Đơn vị: Trường Đại học Công nghệ Thông tin, ĐHQG-HCM
5. Lĩnh vực: Công nghệ thông tin 
6. Loại hình : Nghiên cứu  cơ bản
7. Thời gian thực hiện:  24 tháng (2024-2026)
8. Kinh phí nghiên cứu: 990 triệu đồng
9 Thời gian nghiệm thu Ngày 18 tháng 7 năm 2025
10 Chủ tịch Hội đồng và quyết định thành lập HĐ

PGS.TS Vũ Đức Lung (Trường Đại học Công nghệ Thông tin, ĐHQG-HCM) theo Quyết định 874/QĐ-ĐHQG ngày 04/07/2025 của Giám đốc ĐHQG-HCM.

11. Nội dung thực hiện (chi tiết theo nội dung thực hiện/đăng ký; không quá  800 từ)

– Nội dung 1: Xây dựng bộ dữ liệu hình ảnh – văn bản cho bài toán hỏi đáp tự động dựa trên hình ảnh trên tiếng Việt.

Kết quả: Đã xây dựng 02 bộ dữ liệu ViTextVQA và ViOCRVQA.

– Nội dung 2: Nghiên cứu cách khai thác và kết hợp bố cục nội dung hình ảnh với đặc điểm ngôn ngữ tiếng Việt cho bài toán hỏi đáp tự động dựa trên hình ảnh trên tiếng Việt.

Kết quả: Đề xuất phương pháp ViConsFormer cho quá trình biểu diễn văn bản ngoại cảnh cho bài toán hỏi đáp tự động dựa trên hình ảnh và văn bản tiếng Việt.

– Nội dung 3: Nghiên cứu các phương pháp học chuyển tiếp (transfer learning) dựa trên các mô hình ngôn ngữ lớn và các mô hình thị giác – ngôn ngữ cho bài toán hỏi đáp tự động dựa trên hình ảnh và văn bản tiếng Việt.

Kết quả: Đề xuất phương pháp ViPhoVQA cho quá trình tạo sinh câu trả lời dựa trên văn bản ngoại cảnh.

– Nội dung 4: Nghiên cứu các phương pháp dựa trên prompting cho bài toán hỏi đáp tự động dựa trên hình ảnh trên tiếng Việt.

Kết quả: Đề xuất phương pháp ViTextBLIP-2, mô hình kết hợp hiệu năng của ViT5 và BLIP-2 cho bài toán hỏi đáp dựa trên hình ảnh và văn bản tiếng Việt.

12. Kết quả

* Sản phẩm mềm: 02 bộ dữ liệu ViTextVQA và ViOCRVQA đáp ứng các yêu cầu đặt ra.

* Sản phẩm cứng: Không.

* Sản phẩm đào tạo và khoa học:

– 01 bài báo (Q1)  trên tạp chí Multimedia Systems.

– 01 bài báo được chấp nhận đăng trong kỷ yếu hội nghị AAAI (hạng A*), 02 bài báo được chấp nhận đăng trong kỷ yếu hội nghị ICCCI (hạng B), 01 bài báo được chấp nhận đăng trong kỷ yếu hội nghị PACLIC (hạng C).

– Đào tạo: 01 thạc sỹ và 01 chuyên đề NCS.

13. Hình ảnh giới thiệu kết quả (1-2 hình tiêu biểu)
14. Thông tin liên hệ CNĐT

Email: nganlt@uit.edu.vn

15. Liên hệ ĐHQG-HCM Ban Khoa học và Công nghệ (Phòng 309, NĐH) và Trang điện tử thông tin về hoạt động KH&CN (https://research.vnuhcm.edu.vn/)

 

Trường Đại học Công nghệ Thông tin, ĐHQG-HCM

Lên đầu trang