đồ án 1 tạo mô tả bằng tiếng anh

Mô hình tự động tạo ra mô tả chính xác và nhanh chóng; Hỗ trợ khả năng thị giác, ứng dụng giúp người dùng với khả năng thị giác yếu hoặc khó khăn trong việc mô tả hình ảnh; Tăng tính sán

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 3

MỤC LỤC

Chương 1 MỞ ĐẦU 1

1.1 Đông lực nghiên cứu 1

1.2 Mục tiêu của đề tài 2

1.3 Công nghệ và phạm vi 3

1.4 Đóng góp của nghiên cứu 4

1.5 Bố cục của báo cáo 5

Chương 2 CƠ SỞ LÝ THUYẾT 6

2.6 Tổng quan về Amazon Web Services (AWS) 9

2.7 Tổng quan về backend server 11

2.7.1 Mô tả tổng quan về backend server 11

2.7.2 Công nghệ và framework sử dụng 12

2.7.3 Kiến trúc backend và các API, endpoints 13

2.7.4 Xử lí dữ liệu 13

2.7.5 Tương tác với client 14

Chương 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 15

3.1 Khảo sát hiện trạng 15

Trang 4

3.1.1 Mục đích khảo sát hiện trạng 15

3.1.2 Thực trạng hiện nay 15

3.2 Xây dựng hệ thống 16

3.2.1 Công nghệ sử dụng 16

3.2.2 Sơ đồ Use case 17

3.2.3 Mô tả Use case 17

4.1.4 Màn hình hiển thị thông tin 24

4.1.5 Màn hình hiển thị thống kê về thuật toán 25

Trang 5

5.2 Kết quả đạt được 305.3 Hướng phát triển 30TÀI LIỆU THAM KHẢO 32

Trang 6

DANH MỤC HÌNH

Hình 1 Đầu vào và đầu ra của bài toán sinh câu mô tả 3

Hình 2 Bảng điểm kết của của OFA 6

Hình 3 Kiến trúc mô hình OFA 7

Hình 4 Sơ đồ Use case 17

Hình 5 Sơ đồ Activity 20

Hình 11 Màn hình so sánh thuật toán 26

Hình 12 Ứng dụng trên Play Store 27

Trang 7

DANH MỤC BẢNG

Bảng 1 Bảng mô tả Use cases 18

Trang 8

DANH MỤC TỪ VIẾT TẮT

API Application Programming Interface VinVL Visual Representations in Vision-

Language Models

Trang 9

Chương 1 MỞ ĐẦU

1.1 Đông lực nghiên cứu

Động lực nghiên cứu của chúng tôi xuất phát từ nhận thức về tiềm năng và ứng dụng rộng lớn của Image Captioning Việc có khả năng tự động tạo ra mô tả cho hình ảnh có thể mang lại nhiều lợi ích trong nhiều lĩnh vực khác nhau

Trong đời sống hằng ngày, ứng dụng này mang lại nhiều lợi ích đáng giá cho người dùng Tiết kiệm thời gian, Người dùng không cần phải tự viết mô tả cho từng ảnh Mô hình tự động tạo ra mô tả chính xác và nhanh chóng; Hỗ trợ khả năng thị giác, ứng dụng giúp người dùng với khả năng thị giác yếu hoặc khó khăn trong việc mô tả hình ảnh; Tăng tính sáng tạo, người dùng có thể tận dụng mô tả để sáng tạo và sắp xếp lại các mô tả để phù hợp với nội dung mình muốn thể hiện

Trong lĩnh vực giải trí, Image Captioning có thể cung cấp trải nghiệm tương tác mới mẻ cho người dùng Nó có thể được sử dụng để tạo ra các mô tả tự động cho các bức ảnh trên các trang web chia sẻ hình ảnh, ứng dụng xem ảnh và các nền tảng mạng xã hội Điều này giúp người dùng hiểu và tận hưởng nội dung hình ảnh một cách tốt hơn

Trong các lĩnh vực như y tế và khoa học, Image Captioning có thể hỗ trợ trong việc phân tích ảnh y khoa, phát hiện đối tượng và các ứng dụng khám phá tri thức từ hình ảnh Việc có mô tả tự động cho các hình ảnh này có thể giúp cải thiện quy trình chuẩn đoán và nghiên cứu

Ngoài ra, Image Captioning cũng có tiềm năng trong việc hỗ trợ người dùng với khuyến nghị sản phẩm, dịch vụ và trải nghiệm mua sắm trực tuyến Với một mô tả tự động cho mỗi hình ảnh, người dùng có thể nhận được thông tin chi tiết và phong phú về sản phẩm hoặc dịch vụ mà họ quan tâm, giúp họ đưa ra quyết định mua hàng thông minh và hiệu quả hơn

Với những động lực trên, chúng tôi đã tiến hành nghiên cứu và phát triển ứng dụng Image Captioning Mục tiêu của chúng tôi là tạo ra một ứng dụng dễ sử dụng,

Trang 10

chính xác và linh hoạt, giúp người dùng tận dụng tối đa tiềm năng của hình ảnh thông qua mô tả văn bản tự động

1.2 Mục tiêu của đề tài

Bài toán sinh câu mô tả tự động cho bức ảnh là một bài toán trong lĩnh vực trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên Mục tiêu của bài toán là tạo ra một câu mô tả tự động cho một bức ảnh, miêu tả những đặc điểm và chi tiết quan trọng của bức ảnh một cách tự nhiên và chính xác

Để giải quyết bài toán này, ta cần sử dụng các kỹ thuật và phương pháp của xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo Cụ thể, quá trình sinh câu mô tả tự động cho bức ảnh có thể được chia thành các bước sau:

1 Phân tích bức ảnh: Đầu tiên, ta cần sử dụng mô hình xử lý ảnh để phân tích bức ảnh và trích xuất các đặc trưng và chi tiết quan trọng như đối tượng, màu sắc, vị trí, kích thước, mối liên hệ giữa các đối tượng trong bức ảnh, v.v

2 Xây dựng câu mô tả: Tiếp theo, ta cần sử dụng mô hình xử lý ngôn ngữ tự nhiên để xây dựng câu mô tả dựa trên các thông tin và đặc điểm đã được trích xuất từ bức ảnh Các mô hình này có thể sử dụng phương pháp sinh từ đầu tiên (generate-from-scratch) hoặc kết hợp giữa sinh và chọn từ (generate-and-rank) để tạo ra câu mô tả tự nhiên và chính xác

3 Đánh giá chất lượng của câu mô tả: Cuối cùng, ta cần đánh giá chất lượng của câu mô tả tự động bằng cách so sánh với các câu mô tả được tạo ra bởi con người hoặc các tiêu chuẩn chất lượng khác để đảm bảo tính chính xác và tự nhiên của câu mô tả

Trang 11

Đầu vào Đầu ra

Hình 1 Đầu vào và đầu ra của bài toán sinh câu mô tả

Trong đồ án này, nhóm chúng tôi tập trung vào việc sử dụng mô hình đã được huấn luyện sẵn để đưa vào ứng dụng di động, nhằm sinh câu mô tả tự động cho hình ảnh được thu thập và hiển thị trên ứng dụng đó

1.3 Công nghệ và phạm vi

Ở nghiên cứu này, nhóm chúng tôi ưu tiên các mục tiêu sau:

Thứ nhất, thành thạo ngôn ngữ lập trình Javascript, Python, sử dụng framework React Native và AWS server nhằm làm nền tảng để phát triển dự án

Thứ hai, nghiên cứu và tìm hiểu cách sử dụng model pre-train cũng như cách đưa model lên server và thực hiện gọi model trên ứng dụng di động

Bên cạnh đó, mục tiêu dành ra cho dự án gồm:

Phát triển ứng dụng trên thiết bị di động: Ứng dụng này cho phép quét/ quay/ chụp/ tải lên hình ảnh và chạy được trên hầu hết các thiết bị di động hiện đại hiện nay trên thị trường

Sử dụng được chức năng sinh câu mô tả tự động cho bức ảnh: Tích hợp hoặc gọi thành công model sao cho có thể sinh câu mô tả được cho bức ảnh được quét/ quay/ chụp hoặc tải lên từ thiết bị di động

Trang 12

Tối ưu trải nghiệm người dùng: Giao diện ứng dụng trực quan, dễ sử dụng Đồng thời đảm bảo thời gian đáp ứng nhanh, chất lượng câu mô tả gần với thực tế bức hình

Nghiên cứu được triển khai dựa trên bộ dữ liệu sẵn có và model được huấn luyện sẵn, model được dùng thử và đánh giá thông qua ứng dụng di động được phát triển bằng React Native và API của AWS

1.4 Đóng góp của nghiên cứu

Nghiên cứu về sinh câu mô tả tự động sẽ phần nào đóng góp quan trọng trong kỷ nguyên công nghệ của loài người ở nhiều lĩnh vực khác nhau, cụ thể :

Xác minh và xác thực hình ảnh : Đây có thể được xem là đóng góp chính của nghiên cứu cho loài người bởi vì chú thích chứa thông tin chính xác về những gì đang diễn ra trong bức ảnh, địa điểm và thời điểm chụp ảnh, và đôi khi là lý do hoặc mô tả một số chủ thể đang diễn ra trong khung hình đó Một mô tả chính xác về một yếu tố trực quan giúp xác minh và xác thực hình ảnh Nếu không có chú thích, hình ảnh có thể bị hiểu sai ngữ cảnh và trở nên khó hiểu hoặc ngoài ý muốn

Tạo nội dung cho truyền thông: Sinh câu mô tả tự động cho bức ảnh là bước khởi đầu cho những mục đích lớn hơn trong tương lai Có thể nó sẽ được sử dụng để tạo ra các bài báo, bài viết hoặc video bằng cách tự động tóm tắt nội dung từ các nguồn khác nhau, giúp tiết kiệm thời gian và cải thiện hiệu quả sản xuất nội dung

Đóng góp trong y tế : Sinh câu mô tả tự động từ bức ảnh có thể được sử dụng để tạo ra các mô tả âm thanh, giúp cải thiện khả năng nhìn/ đọc hiểu được nội dung của người khuyết tật

Hỗ trợ phiên dịch: Sinh câu mô tả tự động có thể được sử dụng để tạo ra các câu mô tả tự động cho các bản dịch, giúp cải thiện tính chính xác và hiệu quả của các dịch vụ phiên dịch tự động

Trang 13

Tóm lại, nghiên cứu về sinh câu mô tả tự động cho bức ảnh đóng góp rất lớn vào đời sống mới của con người, cải thiện trải nghiệm người dùng ở rất nhiều lĩnh vực khác nhau

1.5 Bố cục của báo cáo

Phần còn lại của báo cáo được trình bày theo bố cục như sau:

CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT CHƯƠNG 3 – XÂY DỰNG ỨNG DỤNG

CHƯƠNG 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN:

Trang 14

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Bộ dữ liệu

Tên bộ dữ liệu : Microsoft COCO Caption

Tổng quan về bộ dữ liệu : tập dữ liệu sẽ có hơn 1.500.000 chú thích mô tả hơn 330.000 hình ảnh Đối với mỗi hình ảnh đào tạo sẽ có năm caption độc lập với nhau do con người tạo ra Để đảm bảo tính nhất quán trong việc đánh giá các thuật toán tạo phụ đề tự động, một máy chủ đánh giá đã được sử dụng Máy chủ đánh giá nhận phụ đề ứng viên và cho điểm chúng bằng một số chỉ số phổ biến, bao gồm BLEU, METEOR, ROUGE và CIDer

2.2 Phương thức huấn luyện

Model được đào tạo bằng một mô hình đào tạo trước đa phương thức chung là OFA (One For All)

OFA (One-For-All) là một mô hình đào tạo trước đa phương thức chung, sử dụng khung học tập theo trình tự đơn giản để thống nhất các phương thức (đa phương thức, hình ảnh, ngôn ngữ, v.v.) và các nhiệm vụ (chẳng hạn như tạo hình ảnh, định vị trực quan, v.v.), mô tả ảnh, phân loại ảnh, tạo văn bản, v.v.)

OFA đã thành công đứng đầu danh sách chính thức của Microsoft COCO Captions và đạt được số điểm CIDer 154,9 trong bộ kiểm tra cổ điển phân tách kiểm tra Karpathy chi tiết như sau:

Hình 2 Bảng điểm kết của của OFA [1]

Trang 15

Kiến trúc mô hình

Tiền xử lý đa phương thức: Phương pháp thông thường cho việc tiền xử lý đa phương thức là huấn luyện mô hình Transformer trên các bộ dữ liệu ảnh-văn bản quy mô lớn Điều này đòi hỏi tiền xử lý dữ liệu hoặc các bộ chuyển đổi riêng biệt cho từng phương thức để kết hợp huấn luyện cả thông tin hình ảnh và ngôn ngữ trong kiến trúc Transformer

Hình 3 Kiến trúc mô hình OFA [1][3]

Trích xuất đặc trưng hình ảnh: Thay vì trích xuất đặc trưng phức tạp từ đối tượng, phương pháp của chúng ta tập trung vào sự đơn giản Chúng ta sử dụng các mô-đun ResNet để biến đổi ma trận đặc trưng hình ảnh, biểu diễn là xv ∈ R H×W×C, thành P đặc trưng patch có kích thước ẩn

Xử lý thông tin ngôn ngữ: Đối với việc xử lý thông tin ngôn ngữ, chúng ta áp dụng phương pháp được sử dụng bởi GPT và BART Chúng ta sử dụng mã hóa byte-pair (BPE) cho chuỗi văn bản đã cho, và sau đó nhúng các mã subword thành các đặc trưng

Biểu diễn không gian thống nhất: Để xử lý hiệu quả các phương thức đa dạng mà không cần dựa vào kiến trúc đầu ra cụ thể cho từng nhiệm vụ, việc biểu diễn dữ liệu từ các phương thức khác nhau trong không gian thống nhất là điều quan trọng Một cách tiếp cận khả thi là rời rạc hóa văn bản, hình ảnh và đối tượng, và biểu diễn chúng bằng cách sử dụng các mã từ bộ từ vựng thống nhất Các tiến bộ gần đây trong

Trang 16

việc rời rạc hóa hình ảnh đã chứng minh hiệu quả trong tổng hợp văn bản thành hình ảnh Chúng ta sử dụng chiến lược này cho việc biểu diễn hình ảnh, sử dụng mã hóa thưa để giảm độ dài chuỗi biểu diễn hình ảnh

Biểu diễn đối tượng: Ngoài việc biểu diễn hình ảnh, cũng quan trọng là biểu diễn các đối tượng trong hình ảnh, đặc biệt là cho các nhiệm vụ liên quan đến vùng Chúng ta biểu diễn các đối tượng như các chuỗi mã token rời rạc Cụ thể, đối với mỗi đối tượng, chúng ta trích xuất nhãn và hộp giới hạn của nó Các tọa độ góc liên tục (trên cùng bên trái và dưới cùng bên phải) của hộp giới hạn được rời rạc thành các số nguyên là các token vị trí ⟨x1, y1, x2, y2⟩ Nhãn đối tượng, vốn là ngôn ngữ, có thể được biểu diễn hiệu quả bằng mã token BPE

2.3 Tổng quan về React-native

React Native [4] là một framework phát triển ứng dụng di động đa nền tảng sử dụng JavaScript, giúp bạn xây dựng giao diện người dùng tương tác trên cả iOS và Android Với React Native, bạn có thể tạo giao diện linh hoạt cho ứng dụng đề xuất phim, hiển thị danh sách phim, chi tiết phim, hình ảnh và video Bạn có thể tương tác với API phim để lấy thông tin phim và hiển thị nó trên ứng dụng của mình

Bên cạnh đó, React Native cung cấp khả năng tích hợp Firebase và hỗ trợ các thư viện và công cụ mở rộng cho ứng dụng của bạn Ví dụ, bạn có thể sử dụng React Navigation để quản lý điều hướng giữa các màn hình, Redux để quản lý trạng thái ứng dụng và Axios để tương tác với API Điều này giúp bạn xây dựng một ứng dụng đề xuất phim đa nền tảng, linh hoạt và có hiệu năng tốt

Tóm lại, React Native là một công cụ mạnh mẽ để xây dựng ứng dụng đề xuất phim đa nền tảng Nó cho phép bạn tạo giao diện tương tác, tích hợp dữ liệu từ API phim, quản lý người dùng và sử dụng các thư viện mở rộng để tăng cường tính năng của ứng dụng

Trang 17

2.4 Tổng quan về Visual Studio Code

Visual Studio Code (VS Code) [6] là một trình biên tập mã nguồn mở và miễn phí phát triển bởi Microsoft Nó cung cấp một môi trường phát triển tích hợp (IDE) mạnh mẽ với nhiều tính năng hỗ trợ lập trình viên, như gợi ý mã, kiểm tra lỗi, gỡ lỗi, quản lý phiên bản và tích hợp các công cụ phát triển phổ biến như Git VS Code hỗ trợ nhiều ngôn ngữ lập trình và khả năng mở rộng thông qua các tiện ích và tiện ích mở rộng của cộng đồng

2.5 Tổng quan về Docker

Docker [5] là một nền tảng phần mềm cho việc đóng gói và chạy ứng dụng trong một môi trường ảo hóa gọn nhẹ gọi là container Container cho phép bạn đóng gói tất cả các thành phần cần thiết cho ứng dụng vào một hình ảnh duy nhất, bao gồm cả các phụ thuộc và cấu hình hệ thống Điều này giúp đảm bảo tính nhất quán và di động cho ứng dụng khi chạy trên các môi trường khác nhau Docker cung cấp cách tiếp cận chuẩn hóa và dễ dàng triển khai ứng dụng trên nền tảng điện toán đám mây và môi trường sản xuất

2.6 Tổng quan về Amazon Web Services (AWS)

Amazon Web Services [7] đem đến các dịch vụ điện toán đám mây tin cậy, quy mô linh hoạt và ít tốn kém Tham gia miễn phí, chỉ trả phí cho những gì bạn sử dụng

Amazon Web Services là tập hợp các dịch vụ cung cấp cho người lập trình có khả năng truy cập tới hạ tầng kiến trúc tính toán kiểu sẵn sàng-để-sử dụng (ready-to-use) của Amazon Các máy tính có nền tảng vững chắc đã được xây dựng và tinh chế qua nhiều năm của Amazon bây giờ là có thể cho phép bất cứ ai cũng có quyền cập tới Internet Amazon cung cấp một số dịch vụ Web nhưng trong loạt bài viết này chỉ tập trung vào các dịch vụ khối hợp nhất (building-block) cơ bản, cái mà đáp ứng được một số yêu cầu cốt lõi của hầu hết các hệ thống như: lưu trữ, tính toán, truyền thông điệp và tập dữ liệu

Trang 18

Amazon Web Services (AWS) dịch vụ điện toán đám mây, mà là an toàn nhất và đáng tin cậy

Amazon Web Services (AWS) cung cấp một cơ sở hạ tầng ổn định trực tiếp đến các trung tâm mua sắm lớn nhất (Trung tâm Mua sắm tại Amazon) đã được chứng minh trên thế giới

Amazon Web Services (AWS) cung cấp khả năng mở rộng nhanh chóng và dễ dàng

Amazon Web Services (AWS) để cung cấp một nền tảng để giảm chi phí bằng cách chỉ sử dụng

Amazon Web Services (AWS) có thể được sử dụng mà không trả tốt chỉ về chi phí hoặc dài hạn

Thông thường chúng ta mua các dịch vụ về Hosting để thiết lập và “chạy” ứng dụng của mình trên các hosting truyền thống Họ cung cấp các rất nhiều tính năng và quản trị dễ dàng qua các cpanel, ftp, ssh Có nhiều gói khác nhau (giá cả cũng khác nhau) bao gồm cả shared host và dedicated service Các tuỳ chọn này phù hợp với các ứng dụng và dịch vụ cỡ nhỏ, không dễ dàng mở rộng và cũng rất bó buộc trong các giới hạn nhà dịch vụ cung cấp

AWS giúp chúng ta không cần thiết quan tâm đến việc thiết lập cả 1 hạ tầng từ phần cứng, mạng máy tính (rất mất thời gian) đến chi phí thuê Data Center, và dĩ nhiên tối thiểu hoá chi phí duy trì (maintenance) TD đơn giản, trong môi trường truyền thống, chúng ta cần phải quản lý và chăm sóc các rack các máy chủ với chi phí đắt đỏ; chúng ta có thể “quên đi” chuyện phải mua và thay thế RAM hoặc ổ cứng (bất kể loại gì) và dĩ nhiên tiết kiệm được chi phí về nhân lực Hơn nữa, khi cần cấu hình mạnh hơn, việc nâng cấp sẽ rất dễ dàng và rất nhanh chóng mà người quản trị không cần đi đến data center và cũng không cần quan tâm đến phần cứng

Trang 19

AWS giúp chúng ta đơn giản hoá việc quản trị Private Cloud và máy ảo (VSphere…) được thiết lập trên các máy tính cỡ bự Blade và đằng sau 1 mớ rối rắm các thiết lập nêu trên với các thiết bị Firewall, SAN, Load Balancer…

Elastic computing with Amazon EC2:

Amazon EC2 là dịch vụ Web cho phép bạn yêu cầu các máy ảo trong vòng một vài phút và dễ dàng thay đổi khả năng của bạn hoặc tải xuống dựa trên nhu cầu Bạn chỉ cần phải trả chi phí cho khoảng thời gian mà bạn sử dụng Nếu bạn muốn tăng khả năng tính toán của bạn nên, bạn có thể nhanh chóng tiếp cận khởi tạo máy áo và sau đó chấm dứt chúng khi mà nhu cầu của bạn giảm đi

Những trường hợp mà dựa trên Linux® và có thể chạy trên bất kỳ ứng dụng nào hoặc phần mềm nào bạn muốn Bạn có thực hiện điều khiển cho từng trường hợp cụ thể Môi trường của EC2 là được xây dựng trên cùng mã nguồn mở Xen hypervisor, cái được phát triển tại trường Đại học Cambridge Amazon cho phép bạn tạo ra hình ảnh máy Amazon (AMIs) cái thực hiện hành động như là các khuôn mẫu cho các ví dụ của bạn Truy cập với các ví dụ có thể được điều khiển bằng việc xác định được các quyền cho phép Bạn cũng có thể làm bất cứ cái gì bạn muốn với chúng tuy chỉ có một hạn chế duy nhất là yêu cầu bạn cần sử dụng dựa trên Linux

2.7 Tổng quan về backend server

2.7.1 Mô tả tổng quan về backend server

Backend server của dự án được viết bằng ngôn ngữ Python để xử lý và đưa ra kết quả thông qua API Chức năng chính của server là nhận một bức ảnh từ client và trả về một dòng caption mô tả về bức ảnh đó

Chúng tôi sử dụng một model Image Captioning được cung cấp sẵn bởi OFA (One For All) và tích hợp vào server Để thực hiện việc này, chúng tôi sử dụng thư viện modelscope có sẵn trong ngôn ngữ Python Qua đó, chúng tôi đã lựa chọn Python làm ngôn ngữ chính để viết mã cho server

Trang 20

Khi client gọi API và gửi một bức ảnh, backend server sẽ nhận được bức ảnh đó và tiến hành xử lý Sau quá trình xử lý, server sẽ trả về một câu caption mô tả cho bức ảnh tương ứng

Để đóng gói và triển khai backend server lên một máy chủ trong môi trường AWS EC2, chúng tôi sử dụng Docker Docker là một nền tảng ảo hóa dựa trên container, cho phép chúng tôi đóng gói ứng dụng và các thành phần liên quan thành các container độc lập Việc sử dụng Docker giúp đơn giản hóa quy trình triển khai và đảm bảo tính nhất quán giữa môi trường phát triển và môi trường triển khai

Sau khi tạo và đóng gói ứng dụng vào các container Docker, chúng tôi triển khai backend server lên một máy chủ EC2 trong AWS EC2 (Elastic Compute Cloud) cung cấp một môi trường linh hoạt để chạy các ứng dụng web và các dịch vụ khác trên đám mây Việc triển khai backend server trên EC2 cho phép chúng tôi có sẵn nguồn tài nguyên mạnh mẽ và có khả năng mở rộng khi cần thiết

b) Python: Ngôn ngữ lập trình Python đã được sử dụng trong toàn bộ quá trình phát triển backend của phần mềm Image Captioning Python cung cấp một hệ sinh thái phong phú của các thư viện và công cụ hỗ trợ cho xử lý ảnh, học máy, và xử lý ngôn ngữ tự nhiên Chúng tôi đã sử dụng Python để triển khai các thuật toán và mô hình cho việc tạo chú thích cho ảnh

c) modelscope [2]: Một thư viện hỗ trợ sử dụng model OFA_Image-Caption OFA (One-For-All) là một mô hình đào tạo trước đa phương thức chung, sử dụng