đồ án 2 tìm hiểu về mô hình ngôn ngữ lớn llm của facebook

12 0 0
Tài liệu đã được kiểm tra trùng lặp
đồ án 2 tìm hiểu về mô hình ngôn ngữ lớn llm của facebook

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 2

LỜI CẢM ƠN

Nhóm em xin chân thành cảm ơn sự hướng dẫn tận tình của thầy NguyễnCông Hoan - giảng viên hướng dẫn môn Đồ án 2 đã hỗ trợ cho nhóm trongquá trình nghiên cứu để nhóm hoàn thành đề tài này.

Trong quá trình thực hiện, cũng như quá trình làm báo cáo, tụi em khótránh khỏi những sai sót, tụi em hi vọng thầy bỏ qua cũng như tụi em rấtmong nhận được ý kiến đóng góp của thầy để tụi em học thêm được nhiềukinh nghiệm để hoàn thành tốt những đồ án lần sau Một lần nữa nhóm emxin chân thành cảm ơn thầy.

Nhóm nghiên cứu

Trang 3

NHẬN XÉT CỦA GIÁO VIÊN

Trang 4

4 Ưu điểm và nhược điểm của mô hình LLAMA 6

5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến mô hình LLAMA 6

1 Đánh giá hiệu suất của mô hình LLAMA 10

2 So sánh với các mô hình hoặc phương pháp tiếp cận khác 12

IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩm 12

V Tài liệu tham khảo 12

Trang 5

LLMs được train với số lượng dữ liệu khổng lồ và sử dụng self-supervised learning (SSL) ( mà một phương pháp tiếp cập của máy học cho phép sử dụng thuật toán máy học để sử đụng các input được quan sát để dự đoán các input chưa xác định) để dự đoán từ tiếp theodựa trên ngữ cảnh xung quanh Quá trình lập đi lặp lại đến khi mô hình đạt độ chính xác chấp nhận được.

2 Lịch sử và quá trình phát triển của mô hình LLAMA

- Ngày 24 Tháng 2 năm 2023,Meta AI phát hành mô hình LLAMA mở được huấn luyện từ 7 tỷ đến 65 tỷ tham số.

- Ngày 18 tháng 7 năm 2023, Meta AI phát hành LLAMA được tinh chỉnh và đối thoại tốt hơn, được huấn luyện từ 7 tỷ đến 70 tỷ tham số

Trang 6

3 Các thành phần chính của mô hình

1

3.1 Cấu trúc và chức năng3.2 Cách thức hoạt động

4 Ưu điểm và nhược điểm của mô hình LLAMA

5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến mô hình LLAMA

Ưu điểm: Hiệu suất cao trên nhiều thang điểm

Nhược điểm: Cần một lượng lớn dữ liệu cho mỗi nhiệm vụ cụ thể

o Few-Shot : sử dụng trong trường hợp đưa ra ít miêu tả về những nhiệm vụ cần giải quyết.

Ưu điểm: Giảm đáng kể nhu cầu về lượng dữ liệu cụ thể

Nhược điểm: Kết quả sẽ thấp hơn đáng kể so với mô hình Fine-tuningo One-Shot sử dụng trong trường hợp đưa ra chỉ một miêu tả về nhiệm vụ cần giải

Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn

Nhược điểm kết quả sẽ thấp

o Zero-Shot: sử dụng trong trường hợp không có bất cứ miêu tả hay sự hướng dẫn cụ thể

Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn

Nhược điểm kết quả sẽ thấp

oDistributed training : sử dụng để huấn luyện mô hình trên nhiều GPU

Ưu điểm: Tốc độ huấn luyện nhanh và khả năng mở rộng trên nhiều máy tính.

Nhược điểm: Cần nhiều máy tính và vấn đề kết nối giữa các máy tính.

Trang 7

- ArXiv

-Stack Exchange

Table 1: Pre-training data, gồm sampling proportion (phần trăm mẫu thử) , số lượngepoch trên một tập con khi huấn luyện trên 1,4 ngàn tỷ token và kích thước ổ đĩaCác dữ liệu sẽ được tokenize bằng byte-pair encoding ( xác định từ thường xuất hiện và thay nó bằng một token) (Sennrich et al., 2015) Đặc biệt, chia các số thành các chữ số riêng lẻ và sử dụng byte để phân giải UTF-8 không xác định.

SwiGLU activation function [PaLM] : thay ReLU non-linearity bằng the SwiGLU ac tivation function (Shazeer 2020)

Rotary Embeddings [GPTNeo] xóa absolute positional embeddings thay bằng rotary positional embeddings (Su et al 2021)

3.5 Trình tối ưu hóa

Sử dụng AdamW optimizer (Loshchilov and Hutter, 2017)

Table 2: Training loss trên 4 models 7B,13B,33B và 65B Trong đó thì 33B và 65Bđược huấn luyện trên 1,4 ngàn tỉ token Còn lại được huấn luyện trên 1 ngàn tỉ token.

Trang 8

3.6 Efficient implementation

o Đầu tiên sử dụng the causal multi-head attention giảm bộ nhớ và runtime (Rabe and Staats 2021) và (Dao et al.2022)

o Sử dụng model and sequence parallelism (Korthikantietal 2022)

Table 3: Hiệu suất Zero-Shot trên nhiệm vụ Lý luận Tri giác thông thường

BoolQ: Xác định xem câu hỏi có thể trả lời bằng "đúng" hay "sai" hay không.

PIQA: Trả lời các câu hỏi về hình ảnh.

SIQA: Trả lời các câu hỏi về bối cảnh xã hội.

HellaSwag: Trả lời các câu hỏi về suy luận xã hội.

WinoGrande: Xác định đại từ nào trong câu đề cập đến cùng một thực thể.

ARC-e: Trả lời các câu hỏi về sự kiện.

ARC-C: Trả lời các câu hỏi về lý luận.

OBQA: Trả lời các câu hỏi về bối cảnh thực tế

4 Nguồn dữ liệu5 Vấn đề đạo đức

1.1 RealToxicityPrompts

LLAMA sử dụng RealToxicityPrompts thang điểm (Gehman et al., 2020) để đánh giá mức độ độc hại của model Trong đó RealToxicityPrompts gồm 100 ngàn mà model phảihoàn thành và sẽ được đánh giá bởi PerspectiveAPI (Perspective API)

Trang 9

Table 9 : LLAMA đã sử dụng một greedy encoder để thực hiện đánh giá.Trong đó chỉ sốcàng cao thì mức độ độc hại sản sinh càng cao.

5.1 CrowS-Pairs

LLAMA đánh giá mức độ thành kiến dựa trên bộ dataset CrowS Pairs (Nangia et al., 2020) Bộ dataset cho phép tính độ thành kiến trên 9 loại : gender, religion, race/color, sexual orientation, age, nationality, disability, physical appearance and socioeconomic sta tus.

Table 10 CrowS Pairs (Nangia et al., 2020).Bảng so sánh mức độ định kiến ở các lĩnh vực khác nhau Dựa trên LLaMA-65B, OPT-175B và GPT3-175B Level càng cao nghĩa là mức độ định kiến cao

5.2 TruthfulQA

Nhắm đến việc xác độ mức độ chân thực của một hệ thống nghĩa là khả năng nhận diện khi một tuyên bố là đúng Lin et al (2021) (TruthfulQA: Measuring How Models Mimic Human Falsehoods) được sử dụng để đánh giá độ rủi ro của model để tạo ra thông tin sailệnh hoặc những nhận định sai Câu hỏi được viết bởi nhiều loại và gồm 38 thể loại khác nhau.

Trang 10

Table 10 : Thống kê mức độ trung thực và mức độ trung thực và hữu ích ở LLAMA sovới GPT-3.

1 Đánh giá hiệu suất của mô hình LLAMA

Table 4 : Hiệu suất khi thực hiện trên Natural Question.

Table 5 : Độ chính xác dựa trên khả năng đọc hiểu và thực hiện viết ( Được khảo sát từhọc sinh cấp 2 và 3 ở Trung Quốc)

Trang 11

Table 6 : Hiệu suất khả năng tính toán

Table 7: Hiệu suất code generation

Table 8: Khả năng hiểu ngôn ngữ thông qua các tác vụ khác nhau (MMLU) Đánh giátrên 5-shot accurancy

Trang 12

6 So sánh với các mô hình hoặc phương pháp tiếp cận khác

IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩmV Tài liệu tham khảo

Ngày đăng: 15/05/2024, 09:24

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan