HCMUS-Hệ thống xử lý dữ liệu khuyết và các ứng dụng cho dữ liệu kinh tế và môi trường

 

1.

Tên đề tài:

Hệ thống xử lý dữ liệu khuyết và các ứng dụng cho dữ liệu kinh tế và môi trường

2. Mã số D2023-18-01
3. Chủ nhiệm đề tài:

PGS.TS. Nguyễn Thanh Bình

Nhóm nghiên cứu gồm: 2PGS.TS, 3TS, 1ThS và 3HVCH

4. Đơn vị: Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
5. Lĩnh vực: Công nghệ thông tin
6. Loại hình : Nghiên cứu  cơ bản
7. Thời gian thực hiện:

36 tháng (2023-2026)

8. Kinh phí nghiên cứu: 1420 triệu đồng
9 Thời gian nghiệm thu Ngày 02 tháng 6 năm 2025
10 Chủ tịch Hội đồng và quyết định thành lập HĐ

GS.TS Phan Thị Tươi (đơn vị Trường Đại học Bách khoa, ĐHQG-HCM) theo Quyết định 494/QĐ-ĐHQG-KHCN ngày 8/5/2025 của Giám đốc ĐHQG-HCM.

11. Nội dung thực hiện 

– Nội dung 1: Khảo sát các bộ dữ liệu và xây dựng kho dữ liệu liên quan đến các bài toán xử lý dữ liệu khuyết.

– Kết quả:

  • Đã tiến hành việc thu thập dữ liệu trong các lĩnh vực kinh tế và môi trường.
  • Đã tiến hành khảo sát các trường thông tin trong từng bộ dữ liệu được thu thập để đưa ra các đánh giá ban đầu về chất lượng của dữ liệu và tỉ lệ khuyết tương ứng.
  • Đưa ra cách nhìn tổng quan về tình hình thực tại của bài toán xử lý dữ liệu khuyết.

– Nội dung 2: Thuật toán ước lượng tham số khi có dữ liệu khuyết.

. Kết quả:

  • Đã khảo sát các phương pháp và thuật toán ước lượng tham số khi có dữ liệu khuyết.
  • Đã tiến hành các thực nghiệm để đánh giá thuật toán đề xuất.
  • Đã đề xuất các phương pháp tiếp cận phù hợp để cải tiến độ chính xác và độ phức tạp của bài toán xác định khoảng tin cậy.

– Nội dung 3: Nghiên cứu và phát triển thuật toán cho dữ liệu mất cân bằng.

– Kết quả:

  • Đã nghiên cứu và so sánh các phương pháp xử lý dữ liệu khuyết trên dữ liệu mất cân bằng.
  • Phân tích ảnh hưởng của việc điền khuyết dữ liệu đến ước lượng ma trận hiệp phương sai và ma trận nghịch đảo hiệp phương sai.
  • Đề xuất xây dựng các định lý và cận trên/dưới để đánh giá sai số lan truyền trong ước lượng ma trận hiệp phương sai. Và đề xuất điều kiện đủ để đảm bảo một phương pháp điền khuyết tốt sẽ mang lại ước lượng chính xác hơn cho ma trận nghịch đảo.
  • Thực nghiệm và đánh giá trên nhiều tập dữ liệu mô phỏng.
  • Đã cài đặt các thuật toán trong fancyimpute, scikit-learn, missingpy.

– Nội dung 4: Nghiên cứu và phát triển thuật toán cho bài toán xử lý dữ liệu khuyết cho dữ liệu dạng chuỗi thời gian.

– Kết quả:

  • Đã nghiên cứu các phương pháp xử lý dữ liệu khuyết trong chuỗi thời gian.
  • Đề xuất dùng Forward Fill cho giá đóng cửa và điền 0 cho khối lượng giao dịch.
  • Thực nghiệm các mô hình học sâu trên ba bộ dữ liệu (không xử lý, nội suy tuyến tính, Forward Fill) cho thấy Forward Fill cải thiện độ ổn định của tỉ số Sharpe.
  • Xây dựng bộ công cụ tiền xử lý dữ liệu chuỗi thời gian, hỗ trợ điền khuyết và chuẩn hóa trước khi đưa vào mô hình.

– Nội dung 5: Nghiên cứu và phát triển thuật toán cho bài toán xử lý dữ liệu khuyết cho dữ liệu đa phương thức.

– Kết quả:

  • Đã khảo sát và thực nghiệm các phương pháp xử lý trên các tập dữ liệu khuyết đa phương thức, kết hợp trích xuất đặc trưng từ dấu thời gian, chuẩn hóa và xử lý dữ liệu sai sót.
  • Đề xuất 2 phương pháp dự báo ô nhiễm không khí: phương pháp dùng dữ liệu trạm quan trắc và phương pháp kết hợp đặc trưng trích xuất từ dấu thời gian.
  • Thực nghiệm trên dữ liệu thực tế và so sánh các mô hình: Kết quả cho thấy Vanilla LSTM cho kết quả tốt nhất.
  • Xây dựng bộ thư viện xử lý dữ liệu khuyết, chuẩn hóa và hỗ trợ thử nghiệm nhiều mô hình khác nhau, giúp lựa chọn phương pháp tối ưu trong từng trường hợp.
12. Kết quả

* Sản phẩm mềm:

– Giải pháp xử lý dữ liệu khuyết

  • 01 phương pháp giải quyết bài toán xử lý dữ liệu khuyết trong trường hợp dữ liệu mất cân bằng.
  • 01 phương pháp giải quyết bài toán bài toán xử lý dữ liệu khuyết cho dữ liệu chuỗi thời gian.
  • 01 phương pháp giải quyết bài toán xử lý dữ liệu khuyết đối với dữ liệu đa phương thức.

– Bộ dữ liệu cho các bài toán xử lý dữ liệu mất cân bằng

Bộ dữ liệu thu thập từ thị trường chứng khoán: thu thập từ các sàn giao dịch chứng khoán (HNX, HOSE, UPCOM), đây là các dữ liệu theo ngày, trong khoảng thời gian 6 năm, từ đầu năm 2016 đến hết năm 2021 (gồm 1,731 mã cổ phiếu).

Bộ dữ liệu thu thập từ các trạm quan trắc không khí tại Hà Nội: tại Cầu Giấy (14,689 mẫu), tại Minh Khai (15,924 mẫu).

Bộ dữ liệu trên IMDB (50,000 mẫu), Fashion MNIST (70,000 mẫu), và MNIST (70,000 mẫu), Cifar10 (60,000 mẫu).

Bộ dữ liệu Ecoli (336 mẫu), US Crime (1,994 mẫu), Ozone level (2,500 mẫu), Page Blocks (5,473 mẫu), Statlog Landsat (6,435 mẫu).  

Bộ dữ liệu “Thyroid Disease” (7,200 mẫu), Iris (150 mẫu), Parkinson (188 mẫu), Digits (43 mẫu).

  • Ngoài ra còn có các bộ dữ liệu liên quan đến  đặc tính hình học của hạt lúa (Seeds), phân tích hoá học của rượu được trồng trong cùng khu vực ở Italy nhưng xuất phát từ ba giống nho khác nhau (Wine),  các đặc trưng tính từ một hình ảnh kỹ thuật số của một mẫu kim châm tuyến vú của một khối u vú (Breast Cancer), trích xuất ngẫu nhiên của biểu hiện gen của bệnh nhân mắc các loại ung thư khác nhau (Gene), mảng pha gồm 16 ăng-ten tần số cao với tổng công suất phát tín hiệu khoản 6,4 kilowatts (Ionospher), các chiến dịch tiếp thị trực tiếp của một tổ chức ngân hàng Bồ Đào Nha (Bank Marketing), phân loại người dựa trên một tập hợp các thuộc tính là nguy cơ tín dụng tốt hay xấu (Statlog),  thành tích học sinh trong giáo dục trung học của hai trường học Bồ Đào Nha (Student Performance).
  • * Sản phẩm cứng:

    – 03 Kỷ yếu hội nghị quốc tế thuộc hạng B (đối với lĩnh vực CNTT)

    – 03 Kỷ yếu hội nghị quốc tế thuộc hạng C (đối với lĩnh vực CNTT)

    * Sản phẩm đào tạo và khoa học:

    – 03 bài báo Q1 trên các tạp chí SCIE (Web of Science).

    – Đào tạo: 04 thạc sỹ.

    – 01 Chuyên đề nghiên cứu sinh tại một trong các cơ sở đào tạo thuộc ĐHQG-HCM
13. Hình ảnh giới thiệu kết quả

Ứng dụng trong phân tích và xử lý dữ liệu trong lĩnh vực Y Tế

14. Thông tin liên hệ CNĐT

Email: ngtbinh@hcmus.edu.vn

15. Liên hệ ĐHQG-HCM Ban Khoa học và Công nghệ (Phòng 309, NĐH) và Trang điện tử thông tin về hoạt động KH&CN (https://research.vnuhcm.edu.vn/)

Đơn vị đăng tin: Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

 

Lên đầu trang