Năm 2022, công bố của ChatGPT đã gây ra một cuộc "cách mạng AI" mà ít ai dự báo được sự ảnh hưởng to lớn. Chỉ trong vài năm, trí tuệ nhân tạo đã thay đổi cách chúng ta học tập, làm việc và tìm kiếm thông tin. ChatGPT, Claude, Gemini... những mô hình này có thể viết bài luận, giải toán phức tạp, lập trình code, thậm chí tranh luận logic như một con người thực sự. Điều kỳ diệu là gì?
Đằng sau những câu trả lời thông minh đó là những nguyên lý toán học vô cùng thú vị. Trong bài viết này, chúng ta sẽ cùng khám phá thế giới của Large Language Model (LLM) - bộ não của ChatGPT và các AI hiện đại.
LLM (Large Language Model) là một mô hình trí tuệ nhân tạo được huấn luyện trên lượng dữ liệu văn bản khổng lồ từ internet, sách, bài báo và nhiều nguồn khác. Nhưng mục tiêu cốt lõi của chúng rất đơn giản là dự đoán token tiếp theo trong một chuỗi văn bản. Từ "Large" thể hiện quy mô: hàng tỷ tham số (parameters) và mỗi tham số là một "đốc" (hay núm vặn) điều chỉnh để cải thiện dự đoán, hàng nghìn tỷ token dữ liệu huấn luyện các công ty phải xử lý một lượng dữ liệu kinh khủng và các siêu máy tính và GPU
LLM là máy dự đoán xác suất
Tưởng tượng bạn viết: "Tôi rất đói nên tôi muốn ăn..."
LLM sẽ tính toán xác suất của từ tiếp theo: cơm (45%), phở (20%), bánh mì (15%), cơm rượu (10%) và những từ khác với xác suất nhỏ hơn. Sau đó, nó chọn một từ (thường là từ có xác suất cao nhất) và tiếp tục dự đoán từ tiếp theo. Thực chất, LLM là một cỗ máy dự đoán xác suất cực kỳ mạnh mẽ.
Khi bạn hỏi ChatGPT một câu hỏi, nó không suy nghĩ một cách và sau đó viết ra toàn bộ câu trả lời. Thay vào đó, nó thực hiện một quy trình lặp đi lặp lại: dự đoán token tiếp theo dựa trên các từ trước đó, chọn token phù hợp (thường là cái có xác suất cao nhất, hoặc có thể ngẫu nhiên để thêm sự sáng tạo), thêm vào câu hiện tại và tiếp tục lặp lại từ bước 1
Quá trình này lặp đi lặp lại hàng trăm lần cho một câu trả lời thông thường, hoặc hàng nghìn lần cho các bài viết dài.
Điểm mấu chốt là: mỗi dự đoán đều dựa trên toàn bộ ngữ cảnh trước đó. Không phải LLM chỉ nhìn vào từ liền trước, mà nó "nhìn" vào tất cả các từ trước (hay cụ thể hơn, vào context window - sẽ được giải thích cụ thể ở phần tiếp theo). Nhờ vậy, câu trả lời không phải là những từ ngẫu nhiên, mà là một dòng chảy logic, mạch lạc, với ý tưởng xuyên suốt.
Máy tính không hiểu "từ" giống như con người hiểu. Nó cần chuyển mọi thứ thành số, đó chính là vai trò của token.
Token là những mảnh nhỏ của văn bản được chuyển thành số. Ví dụ: Câu: "Tôi yêu Việt Nam", có thể được chia thành: token 1: "Tôi" (số 1234); token 2: "yêu" (số 5678); token 3: "Việt" (số 9012) và Token 4: "Nam" (số 3456). Hoặc có thể chia nhỏ hơn nữa thành các ký tự hoặc bộ phận của từ, tùy thuộc vào cách thiết kế của mô hình.
Token ảnh hưởng trực tiếp đến ba yếu tố quan trọng: chi phí sử dụng AI vì các API LLM thường tính phí theo số token (ví dụ: OpenAI tính phí dựa trên số token đầu vào và đầu ra); tốc độ xử lý (càng nhiều token, càng mất thời gian để xử lý) và giới hạn context window vì mỗi mô hình có giới hạn token có thể xử lý cùng một lúc
Trước tiên, các công ty phải thu thập một lượng dữ liệu khổng lồ từ khắp nơi như website và blog (Hàng tỷ trang web), wikipedia (Nguồn kiến thức tập trung), sách (Văn bản cổ điển, sách điện tử), diễn đàn (Stack Overflow, Reddit,...), tài liệu công khai (báo cáo, giấy tờ chính phủ)
Tất cả dữ liệu đó không sạch và các kỹ sư phải loại bỏ spam (nội dung rác, quảng cáo), loại bỏ nội dung kém chất lượng (Sai ngữ pháp, nội dung không liên quan) và xây dựng bộ dữ liệu chuẩn (Ví dụ như FineWeb của Hugging Face là bộ dữ liệu web được làm sạch quy mô lớn)
Điều quan trọng cần hiểu là: Pre-training không phải để học "sự thật", mà để học các mẫu hình ngôn ngữ. LLM không học "Thủ đô của Pháp là Paris" một cách nhận thức. Thay vào đó, nó học mẫu: "khi mô hình đó xuất hiện, từ kia thường theo sau".
Sau Pre-training, chúng ta có Base Model. Nó có kiến thức rộng lớn nhưng chưa biết cách làm một trợ lý thực sự. Base Model giống một sinh viên đã đọc hết thư viện quốc gia nhưng chưa được dạy kỹ năng giao tiếp, trả lời câu hỏi một cách mạch lạc, và tuân theo yêu cầu cụ thể.
Base Model có thể trả lời lan man, không tuân theo yêu cầu và dễ tạo nội dung không mong muốn.
Để khắc phục, các kỹ sư tạo những cuộc hội thoại mẫu - Supervised Fine-Tuning (SFT) - những ví dụ về câu hỏi và câu trả lời "tốt". Ví dụ như Câu hỏi: "Viết một bài thơ ngắn về mùa xuân" thì câu trả lời tốt: [một bài thơ hay, mạch lạc, đúng định dạng]. LLM được huấn luyện trên hàng ngàn ví dụ như thế này và học cách trả lời đúng định dạng, lịch sự.
Bước tiếp theo là dạy mô hình hiểu và làm theo hướng dẫn (Instruction Tuning). Chẳng hạn như bạn yêu cầu "Tóm tắt bài viết này trong 5 ý" thì AI biết cần tóm tắt, đúng 5 ý, chứ không phải làm gì khác và khi bạn yêu cầu "Giải thích như tôi là trẻ em 5 tuổi" thì AI biết cần đơn giản hóa
RLHF - Reinforcement Learning from Human Feedback là một bước tinh vi hơn vì con người đánh giá câu trả lời và AI học từ phản hồi, điều chỉnh để tạo ra câu trả lời tốt hơn lần sau.Vì không phải lúc nào "đúng" hay "sai" là rõ ràng. Có thể có nhiều câu trả lời tốt. RLHF giúp LLM học "cái nào tốt hơn". Đó là lý do tại sao ChatGPT lại khác hoàn toàn so với GPT phiên bản đầu tiên (chỉ qua Pre-training).
Năm 2017, một bài báo khoa học đã thay đổi toàn bộ lĩnh vực AI. Tiêu đề: "Attention Is All You Need". Bài báo này giới thiệu kiến trúc Transformer - cơ chế cho phép LLM hiểu ngôn ngữ một cách hiệu quả chưa từng có. Mọi LLM hiện đại (ChatGPT, Claude, Gemini, v.v.) đều dựa trên Transformer.
Trước tiên, mỗi từ được chuyển thành một vector (một danh sách số). Những từ có ý nghĩa tương đồng sẽ nằm gần nhau trong không gian vector. Ví dụ: vua, hoàng đế, nữ hoàng. Những từ này được chuyển thành các vector, và khoảng cách vector giữa "vua" và "hoàng đế" sẽ gần hơn so với "vua" và "nữ hoàng". Điều này cho phép mô hình hiểu mối quan hệ ngữ nghĩa giữa các từ.
Attention - đây là cơ chế thực sự đặc biệt - cho phép các từ trong câu "nhìn" vào nhau và hiểu mối quan hệ. Ví dụ câu: "Lan đưa sách cho Mai vì cô ấy cần học". Vậy ở đây trong câu ai là "cô ấy", Lan hay Mai? Đó là một vấn đề khó, LLM cần nhận ra rằng "cô ấy" là một đại từ, xác định nó đề cập đến ai (Lan hay Mai?) và sử dụng ngữ cảnh để quyết định
Attention mechanism cho phép mô hình "tập trung" vào từng từ có liên quan, hiểu tương quan, và quyết định "cô ấy" = "Mai". Cơ chế này được lặp lại nhiều lần (gọi là "multi-head attention"), cho phép mô hình hiểu các mối quan hệ phức tạp từ nhiều góc độ.
Sau Attention, mỗi từ được xử lý qua một feedforward neural network để tinh chỉnh và làm phong phú thông tin. Đây là nơi mô hình học các quy luật ngôn ngữ phức tạp, các quy luật tinh tế của logic và ngữ pháp.
Context window là bộ nhớ ngắn hạn của mô hình - số lượng token tối đa mà nó có thể "nhìn" cùng một lúc. Ví dụ: ChatGPT-3.5 có context window ~4,000 token, Claude 3 có context window 200,000 token và một số mô hình mới có đến 1 triệu token
Nếu cuộc trò chuyện của bạn quá dài, thông tin cũ bị đẩy ra ngoài cửa sổ ngữ cảnh. Mô hình không thể nhìn thấy nó nữa, vì vậy nó "quên". Giống như trí nhớ làm việc của bạn. Nếu ai đó kể cho bạn nghe 10 sự kiện, nhưng bạn chỉ có thể nhớ 7 sự kiện cùng lúc, bạn sẽ quên 3 sự kiện đầu tiên. Đó là lý do tại sao bạn thỉnh thoảng thấy LLM "quên" bối cảnh của cuộc trò chuyện cũ.
Góc nhìn kỹ thuật, thành thật mà nói thì AI không suy nghĩ như con người mà nó dự đoán token tiếp theo, không có ý thức, không có hiểu biết thực sự, không có sự sáng tạo theo nghĩa con người.
Nhưng nếu chỉ dự đoán token tiếp theo, tại sao kết quả lại thông minh đến vậy? Câu trả lời nằm ở quy mô dữ liệu khổng lồ, hàng tỷ tham số và khả năng nhận diện mẫu cực mạnh. Với dữ liệu và tham số cả tỷ, mô hình có thể nhận diện các mẫu ngôn ngữ vô cùng tinh tế
Điều kỳ lạ xảy ra khi một mô hình đủ lớn, những khả năng hoàn toàn mới bất ngờ xuất hiện , mặc dù chúng ta không lập trình chúng. Ví dụ: giải toán (Base model không được dạy giải toán, nhưng sau khi lớn đủ, nó có thể giải toán), lập trình (Không được dạy lập trình, nhưng tự học được), dịch thuật (Có thể dịch giữa các ngôn ngữ mà không được huấn luyện cụ thể trên chúng) và lập luận logic (Có thể suy luận và tranh luận theo logic). Những khả năng này gọi là "emergent abilities" - chúng xuất hiện tự động từ quy mô và cấu trúc, chứ không phải từ lập trình tường minh.
Reinforcement Learning (RL) là một cách tiếp cận khác - AI học thông qua phần thưởng và hình phạt. Nếu nó làm tốt, nó được thưởng. Nếu sai, nó bị phạt. Qua hàng ngàn, triệu lần lặp lại, nó học để tối đa hóa phần thưởng.
Giả sử AI đang chơi game Mario. Lúc đầu, AI hoàn toàn không biết gì. Quy luật của trò chơi là đi sang phải được +1 điểm, ăn được đồng xu được +5 điểm, hoàn thành màn chơi được +100 điểm và rơi xuống hố bị -50 điểm. Ban đầu AI sẽ làm đủ thứ như đi lùi, nhảy lung tung, rơi xuống vực, nhưng sau hàng triệu lần chơi thì AI nhận ra rằng: "Đi sang phải và nhảy qua hố giúp mình sống lâu hơn và kiếm được nhiều điểm hơn" Dần dần nó trở thành người chơi cực giỏi.
Vì nó cải thiện khả năng suy luận và tăng hiệu suất giải quyết vấn đề phức tạp. Thay vì chỉ dự đoán token tiếp theo một cách cơ học, RL cho phép mô hình "suy nghĩ trước khi nói", kiểm tra logic của nó, và đảo lại nếu thấy sai. Ví dự như AlphaGo chơi cờ vây tốt hơn cả nhân vô địch thế giới - RL giúp nó tìm ra các nước đi chiến lược mà con người chưa bao giờ khám phá; DeepSeek-R1 và các mô hình reasoning hiện đại sử dụng RL để cho phép chúng "suy nghĩ" qua nhiều bước trước khi đưa ra câu trả lời cuối cùng. Kết quả là chúng giải quyết các bài toán khó và lô-gic phức tạp tốt hơn hơn nhiều.
Một kỹ thuật mới gọi là "chain-of-thought reasoning" - mô hình không chỉ cho đáp số, mà còn giải thích từng bước suy luận của nó. Ví dụ: Câu hỏi: 17 × 24 = ? thay vì chỉ trả lời 408 thì với reasoning chain câu trả lời sẽ là: Bước 1: 17 × 20 = 340; Bước 2: 17 × 4 = 68 và Bước 3: 340 + 68 = 408
Kỹ thuật này giúp mô hình (và con người kiểm tra) hiểu logic, và nó cũng cải thiện độ chính xác vì mô hình có cơ hội để kiểm tra lại. Đó là lý do tại sao các mô hình reasoning mới giải toán và lập luận tốt hơn thế hệ trước.
LLM có thể tự tin nói ra những điều sai sự thật. Ví dụ, bạn hỏi: "Bộ phim 'Avatar 2' ra mắt khi nào?" và nó có thể trả lời: "Năm 2019" rất tự tin nhưng thật ra câu trả lời đúng là 2022. Điều này xảy ra vì LLM chỉ đang dự đoán token "hợp lý" tiếp theo, chứ không kiểm tra sự thật.
LLM được huấn luyện trên dữ liệu tính đến một thời điểm nhất định. Sau đó, nó không tự động cập nhật. Nếu bạn hỏi về sự kiện xảy ra sau ngày huấn luyện, nó sẽ không biết.
Huấn luyện một LLM tiên tiến có thể tốn hàng chục triệu đô la và tiêu thụ năng lượng rất lơn. Bên cạnh đó việc chạy nó cũng rất tốn kém, đó là lý do tại sao OpenAI, Google, và các công ty khác phải sử dụng hàng loạt máy chủ GPU.
Nhiều dữ liệu được lấy từ internet mà không có sự đồng ý rõ ràng. Vấn đề về quyền riêng tư vì Liệu mô hình có "nhớ" các thông tin cá nhân trong quá trình chúng ta trao đổi trò chuyện không? Bên cạnh đó, nếu LLM tạo một bức tranh hoặc bài viết, ai là chủ sở hữu bản quyền? Những vấn đề này chưa có lời giải hoàn toàn.
AI đa phương thức (Multimodal): AI có thể hiểu và tạo ra văn bản, hình ảnh, âm thanh, video.
AI biết sử dụng công cụ, tìm kiếm Internet, viết và chạy code, truy cập dữ liệu bên ngoài (Cơ sở dữ liệu, API, tệp của bạn). Điều này sẽ giảm hallucination và làm cho AI hữu ích hơn nhiều.
AI Agent khi mà AI không chỉ trả lời, mà có thể tự thực hiện nhiệm vụ. Ví dụ: khi bạn yêu cầu "Đặt cho tôi một vé máy bay từ Hà Nội đến TP. Hồ Chí Minh" thì Agent tự tìm kiếm, so sánh giá, và đặt vé hoặc bạn yêu cầu "Viết một email cho khách hàng và gửi đi" sau đó Agent tự soạn thảo, kiểm tra, và gửi. Các agent này sẽ tích hợp với các dịch vụ hiện có để làm việc thực tế.
LLM mạnh nhất chỉ chạy trên máy chủ của các công ty lớn. Nhưng xu hướng Local AI đang dần phát triển như LM Studio (Cho phép bạn chạy LLM trên máy tính cá nhân), ollama (Công cụ để chạy mô hình mã nguồn mở) hoặc mô hình mã nguồn mở như Llama, Mistral, v.v. có thể chạy ngoại tuyến. Trong tương lai, bạn có thể có một "ChatGPT riêng" trên máy tính của mình, hoàn toàn offline.
Đừng Xem AI Là "Người Biết Tất Cả" vì LLM không phải Wikipedia và có thể sai, đặc biệt về những sự kiện gần đây hoặc các chi tiết cụ thể. Hãy luôn kiểm chứng thông tin quan trọng từ các nguồn đáng tin cậy.
Học cách đặt câu hỏi tốt - prompt (cách bạn hỏi) rất quan trọng vì nếu bạn hỏi mơ hồ bạn sẽ không nhận được kết quả mong muốn, bạn sẽ chỉ nhận được câu trả lời tốt hơn nếu bạn cụ thể. Ví dụ: thay vì yêu cầu "Hãy giải thích AI" hãy viết lệnh "Giải thích Large Language Model cho một người không có nền tảng kỹ thuật, sử dụng các ví dụ từ đời sống hàng ngày". Hãy nhớ rằng câu hỏi tốt = câu trả lời tốt.
AI sẽ không thay thế người biết sử dụng AI. Người không sử dụng AI sẽ bị thay thế bởi người biết sử dụng AI. Nhưng người biết sử dụng AI sẽ không bị thay thế. Vì vậy, câu hỏi không phải "AI sẽ thay thế tôi không?" mà là "Tôi sẽ sử dụng AI như thế nào để trở nên tốt hơn?"
Chúng ta vừa cùng nhau đi qua một hành trình dài để hiểu cách các mô hình AI hiện đại được xây dựng và vận hành. Từ những viên gạch nền tảng như token - đơn vị nhỏ nhất mà AI sử dụng để xử lý ngôn ngữ - cho đến quá trình pre-training giúp mô hình hấp thụ kiến thức từ khối lượng dữ liệu khổng lồ. Từ đó, chúng ta khám phá kiến trúc Transformer mang tính đột phá, cơ chế Attention cho phép AI xác định thông tin quan trọng trong ngữ cảnh, các bước post-training như Supervised Fine-Tuning (SFT) và Reinforcement Learning from Human Feedback (RLHF), cho đến những chuỗi suy luận (Reasoning Chains) giúp mô hình giải quyết các vấn đề phức tạp. Tất cả những mảnh ghép này kết hợp lại để tạo nên những trợ lý AI mà hàng triệu người đang sử dụng mỗi ngày như ChatGPT, Claude hay Gemini.
Điều quan trọng cần hiểu là những hệ thống AI này không phải là phép màu. Chúng không "suy nghĩ" theo cách con người vẫn thường hình dung, mà là thành quả của hàng chục năm nghiên cứu và phát triển trong nhiều lĩnh vực khoa học khác nhau. Đằng sau mỗi câu trả lời mà AI tạo ra là sự kết hợp giữa Deep Learning (học sâu), Natural Language Processing (xử lý ngôn ngữ tự nhiên), các thuật toán tối ưu hóa toán học và những kiến trúc mạng nơ-ron ngày càng tinh vi hơn.
Mỗi thành phần trong mô hình đều đại diện cho một bước tiến quan trọng của khoa học máy tính. Embedding giúp chuyển đổi ngôn ngữ thành các biểu diễn toán học mà máy tính có thể hiểu. Attention giúp mô hình xác định thông tin nào cần được ưu tiên trong ngữ cảnh. Feedforward Network xử lý và biến đổi dữ liệu để tạo ra những dự đoán chính xác hơn. Trong khi đó, Reinforcement Learning giúp AI cải thiện chất lượng phản hồi thông qua cơ chế thưởng và phạt. Những khái niệm tưởng chừng đơn giản này chính là nền tảng tạo nên cuộc cách mạng AI mà chúng ta đang chứng kiến ngày nay.
Nhìn về tương lai, AI vẫn đang phát triển với tốc độ chưa từng có. Các mô hình mới không chỉ trở nên thông minh hơn mà còn có khả năng suy luận sâu hơn, xử lý đa phương thức tốt hơn và thực hiện những nhiệm vụ ngày càng phức tạp. Tuy nhiên, giá trị lớn nhất của AI có lẽ không nằm ở việc thay thế con người, mà ở khả năng khuếch đại năng lực của chúng ta. Những người biết cách hiểu, sử dụng và cộng tác với AI sẽ có lợi thế lớn trong học tập, công việc và sáng tạo trong những năm tới.
Vì vậy, thay vì xem AI như một chiếc hộp đen đầy bí ẩn, hãy coi nó như một công cụ được xây dựng từ khoa học, dữ liệu và sự đổi mới không ngừng của con người. Càng hiểu rõ cách AI hoạt động, bạn càng có thể khai thác hiệu quả tiềm năng của công nghệ này và chuẩn bị tốt hơn cho tương lai đang dần được định hình bởi trí tuệ nhân tạo.
Mỗi cuộc cách mạng công nghệ đều thay đổi cách chúng ta sống và làm việc. Internet thay đổi cách chúng ta tiếp cận thông tin. Smartphone thay đổi cách chúng ta giao tiếp. Và bây giờ, AI đang bắt đầu thay đổi cách chúng ta suy nghĩ. AI không phải chỉ là một công cụ mà chúng ta sử dụng mà là một cộng sự trí tuệ.
Bài viết này sẽ đi sâu vào phân tích những chia sẻ của Sam Altman, CEO của OpenAI về GPT-5, siêu trí tuệ, tương lai của công việc, và những cách chúng ta nên chuẩn bị cho những thay đổi sắp tới.