Chúng tôi đã ra mắt TheiaChat vào tháng 8, là phiên bản chatbot alpha nhằm giới thiệu các khả năng cơ bản của Theia. Trong bài viết này, chúng tôi giới thiệu Theia là gì và lý do chúng tôi phát triển Theia. Gần đây, chúng tôi đã mở mã nguồn phiên bản đầu tiên Theia-Llama-3.1-8B, được đào tạo với tập dữ liệu thiết kế tỉ mỉ từ lĩnh vực tiền điện tử.
Triển Khai Kỹ Thuật
Tập Dữ Liệu Định Hướng Tiền Điện Tử
Tập dữ liệu đào tạo được lấy từ hai nguồn chính để tạo ra một đại diện toàn diện cho các dự án blockchain. Nguồn đầu tiên là CoinMarketCap, tập trung vào 2000 dự án hàng đầu theo vốn hóa thị trường, bao gồm các tài liệu dự án như whitepaper, bài đăng blog chính thức và các bài báo tin tức. Nguồn thứ hai bao gồm các báo cáo nghiên cứu chi tiết về các dự án này từ các nguồn internet đáng tin cậy, cung cấp những hiểu biết sâu sắc về nền tảng, tiến độ phát triển và ảnh hưởng thị trường của dự án. Sau khi biên soạn, tập dữ liệu được lọc thủ công và bằng thuật toán để đảm bảo tính chính xác và loại bỏ dư thừa.
Tinh Chỉnh và Lượng Tử Hóa Mô Hình
Theia-Llama-3.1-8B được tinh chỉnh từ mô hình gốc (Llama-3.1-8B-Instruct) và điều chỉnh cho lĩnh vực tiền điện tử. Chúng tôi sử dụng LoRA (Low-Rank Adaptation) để tinh chỉnh mô hình một cách hiệu quả, thích ứng các mô hình lớn được huấn luyện trước với các tác vụ cụ thể với ít tài nguyên tính toán hơn. Quá trình đào tạo của chúng tôi được cải tiến nhờ LLaMA Factory, một khung mã nguồn mở, và DeepSpeed, động cơ đào tạo phân tán của Microsoft. Chúng tôi đã áp dụng các kỹ thuật như ZeRO (Zero Redundancy Optimizer), offload, sparse attention, 1-bit Adam và song song hóa pipeline để tăng tốc độ đào tạo và giảm thiểu bộ nhớ sử dụng. Chúng tôi cũng xây dựng một mô hình tinh chỉnh bằng D-DoRA, một phương pháp đào tạo phi tập trung do Chainbase Labs phát triển. Chúng tôi phát hành phiên bản LoRA trước vì nó dễ triển khai và thử nghiệm hơn cho cộng đồng AI Tiền Điện Tử.
Ngoài việc tinh chỉnh, chúng tôi đã lượng tử hóa mô hình để tối ưu hóa cho việc triển khai hiệu quả, cụ thể là trong định dạng Q8 GGUF - Theia-Llama-3.1-8B-Q8_0.gguf. Lượng tử hóa mô hình giảm độ chính xác của trọng số mô hình từ floating-point (thường là FP16 hoặc FP32) xuống các biểu diễn bit thấp hơn, trong trường hợp này là số nguyên 8 bit (Q8). Lợi ích chính của lượng tử hóa là giúp giảm đáng kể kích thước bộ nhớ của mô hình và tăng tốc độ suy luận, đồng thời duy trì độ chính xác chấp nhận được. Điều này làm cho mô hình dễ sử dụng hơn trong các môi trường hạn chế về tài nguyên, chẳng hạn như thiết bị biên hoặc GPU cấp thấp.
Đánh Giá Hiệu Suất
Để đánh giá các LLM trong lĩnh vực tiền điện tử, chúng tôi đã đề xuất một chuẩn đánh giá cho các mô hình AI tiền điện tử—chuẩn đầu tiên được thiết kế riêng cho lĩnh vực này. Các mô hình được đánh giá trên bảy tiêu chí, bao gồm khả năng hiểu và tạo nội dung về tiền điện tử, phạm vi kiến thức và khả năng suy luận. Một bài viết chi tiết về chuẩn đánh giá này sẽ sớm được phát hành.
Hiện tại, chúng tôi công bố kết quả đánh giá khả năng hiểu và tạo nội dung trong lĩnh vực tiền điện tử cho 11 mô hình LLM—cả mã nguồn mở và mã nguồn đóng—từ OpenAI, Google, Meta, Qwen và DeepSeek. Đối với các LLM mã nguồn mở, chúng tôi chọn các mô hình có số lượng tham số tương đương (~8B). Đối với các LLM mã nguồn đóng, chúng tôi chọn các mô hình phổ biến với nhiều người dùng cuối nhất.
Mô Hình | Perplexity ↓ | BERT ↑ |
---|---|---|
Theia-Llama-3.1-8B | 1.184 | 0.861 |
ChatGPT-4o | 1.256 | 0.837 |
ChatGPT-4o-mini | 1.257 | 0.794 |
ChatGPT-3.5-turbo | 1.233 | 0.838 |
Claude-3-sonnet (~70b) | N.A. | 0.848 |
Gemini-1.5-Pro | N.A. | 0.830 |
Gemini-1.5-Flash | N.A. | 0.828 |
Llama-3.1-8B-Instruct | 1.270 | 0.835 |
Mistral-7B-Instruct-v0.3 | 1.258 | 0.844 |
Qwen2.5-7B-Instruct | 1.392 | 0.832 |
Gemma-2-9b | 1.248 | 0.832 |
Deepseek-llm-7b-chat | 1.348 | 0.846 |
Giá trị perplexity càng thấp, hiệu suất càng tốt. Giá trị BERT càng cao, hiệu suất càng tốt. Có thể thấy rằng hiệu suất của Theia-Llama-3.1-8B vượt qua các mô hình phổ biến trên thị trường.
Tiếp theo, chúng tôi sẽ xây dựng các mô hình lớn hơn và đánh giá thêm nhiều tiêu chí của các mô hình. Nếu bạn quan tâm đến chi tiết kỹ thuật, hãy theo dõi.
Giới Thiệu về Chainbase
Chainbase là mạng dữ liệu omnichain lớn nhất thế giới, được thiết kế để tích hợp tất cả dữ liệu blockchain vào một hệ sinh thái thống nhất, cung cấp một lớp tương tác dữ liệu mở và minh bạch cho kỷ nguyên AI. Chainbase đã thiết kế một kiến trúc công nghệ chuỗi kép mới, kết nối tính lập trình và tính kết hợp của dữ liệu tiền điện tử, hỗ trợ thông lượng cao, độ trễ thấp và quyết định cuối cùng, cũng như tăng cường bảo mật thông qua mô hình đặt cược kép.
Chainbase thu hút hơn 15.000 nhà phát triển và nhà khoa học dữ liệu, và 8.000 ứng dụng xây dựng trên đó tạo thành một hệ sinh thái sống động. Người dùng hiện có thể tự do truy cập và huấn luyện các mô hình dữ liệu để tích hợp dự đoán, phân tích và các thông tin chi tiết vào ứng dụng của mình.
🔗 Liên kết:
Website: https://chainbase.com/
Discord: https://discord.gg/chainbase
Tài liệu: https://docs.chainbase.com/
Twitter: https://twitter.com/ChainbaseHQ
Huggingface: https://huggingface.co/Chainbase-Labs