Databricks hôm thứ 4 vừa rồi đã ra mắt mô hình ngôn ngữ quy mô lớn (LLM) mã nguồn mở đầu tiên mang tên Dolly 2.0. Mô hình này đã được huấn luyện và tinh chỉnh dựa trên gói dữ liệu do con người tạo ra, và đã sẵn sàng để biến thành những giải pháp thương mại hoá, nói cách khác là dựa vào Dolly 2.0 để làm những chatbot với tính năng giống hệt như ChatGPT, Bard hay Bing Chat.
Databricks được thành lập năm 2013 bởi những kỹ sư từng làm việc tạo ra Apache Spark, công cụ framework xử lý dữ liệu quy mô lớn, cũng là mã nguồn mở. Với Dolly, Databricks kỳ vọng công cụ này có thể giúp các tổ chức, doanh nghiệp hay thậm chí là cả các cá nhân có thể tạo ra và tuỳ chỉnh những LLM mà không phải trả tiền thuê API thuật toán, hoặc chia sẻ dữ liệu cá nhân của người dùng với các bên thứ ba.
Hãy Làm Theo Các Bước Nhé
Dolly 2.0 được huấn luyện dựa trên 12 tỷ tham số, dựa trên nền tảng mô hình pythia của EleutherAI, và được tinh chỉnh dựa vào dữ liệu tự học do chính những nhân viên của Databricks tự nguyện cung cấp. Việc tinh chỉnh và tự học này cho phép Dolly 2.0 trở thành nền tảng cho những chatbot với khả năng vận hành không thua gì ChatGPT của OpenAI, tức là rất giỏi trong việc đi tìm câu trả lời cho những câu hỏi của người dùng, và biết cách bắt chuyện, giữ câu chuyện tiếp diễn giữa người và máy.
Tháng 3 vừa rồi, Dolly 1.0 đã ra mắt, nhưng vì thiếu dữ liệu tự học, đặc biệt là bị phụ thuộc vào gói dữ liệu từ các bên khác, phải có thoả thuận sử dụng, nên gặp nhiều khó khăn trong việc ứng dụng thương mại hoá. Để giải quyết vấn đề này và tạo ra Dolly 2.0, Databricks đã phải “crowdsource” dữ liệu đủ điều kiện để các bên tạo ra ứng dụng thương mại mà không bị phụ thuộc vào những thoả thuận sử dụng với các bên khác.
Để làm được điều đó, từ tháng 3 đến tháng 4, Databricks đã xin hơn 5 nghìn nhân viên của họ làm việc với Dolly để trò chuyện với máy móc, tạo ra 13 nghìn tệp dữ liệu cho phép AI dựa vào để tự học. Data set thu được trong quá trình này cũng như chính bản thân mô hình Dolly mới và code huấn luyện thuật toán AI đều được biến thành dữ liệu mã nguồn mở, tuân thủ giấy phép Creative Commons, tức là ai cũng có thể sử dụng, tuỳ chỉnh và mở rộng, kể cả những đơn vị và cá nhân có nhu cầu thương mại hoá thuật toán.
Còn trong khi đó, cái tên nổi tiếng nhất hiện giờ, ChatGPT thì dựa trên mô hình thương mại yêu cầu người dùng trả tiền để thuê API, phải tuân thủ quy định sử dụng dịch vụ của OpenAI. Điều này có thể giới hạn khả năng tuỳ biến API để phục vụ đúng nhu cầu của từng đơn vị. Còn trong khi đó, LLaMA của Meta cũng không cho phép sử dụng tự do và miễn phí. Nó được ứng dụng để tạo ra vài chatbot kể từ thời điểm model bị rò rỉ trên BitTorrent.
Việc ra mắt một mô hình ngôn ngữ mã nguồn mở, theo nhà nghiên cứu AI Simon Willison, là thứ rất quan trọng. Kể cả khi Dolly 2.0 vận hành không như ý muốn, thì nó vẫn đủ khả năng tạo ra một xu hướng mới, đó là những mô hình ngôn ngữ không bị giới hạn bởi những rào cản do các đơn vị nghiên cứu tạo ra, bao gồm thoả thuận sử dụng và bản quyền dữ liệu.
Theo ArsTechnica