Tôi tin rằng vào cuối thế kỷ này, việc sử dụng từ ngữ và quan điểm giáo dục phổ thông sẽ thay đổi rất nhiều, đến mức người ta có thể nói về tư duy của máy móc mà không bị phủ nhận.
— Alan Turing, năm 1950
NGAY KHI CHÚNG TA PHÁT TRIỂN MÁY TÍNH KỸ THUẬT SỐ, CHÚNG TA ĐÃ CỐ GẮNG khiến chúng hoạt động theo tư duy của con người. Rõ ràng ngay từ đầu, máy tính đã rất hữu ích trong việc thực hiện các phép toán thông thường, nhưng điều này không có gì mới lạ. Sau tất cả, con người đã chế tạo ra những chiếc máy tính đầu tiên – từ các bàn tính ở Nhật Bản và Babylon, đến cơ chế máy móc Antikythera bí ẩn của Hy Lạp1 – từ trước thời của Chúa Kitô.
1. Chiếc máy có kích thước bằng một chiếc đồng hồ này được sử dụng để dự đoán chuyển động của mặt trời, mặt trăng và các hành tinh. Sự xuất hiện của chiếc máy vào thời điểm đó là rất khó hiểu. Theo một bài viết của Jo Marchant vào năm 2015: “Chưa có bất cứ một thứ gì giống như thế này được phát hiện từ thời cổ đại. Không có gì phức tạp, hoặc thậm chí tương đối phức tạp xuất hiện trong hơn một nghìn năm trở lại đây.” – Jo Marchant. Trích cuốn Decoding the Antikythera Mechanism, the First Computer (tạm dịch: Giải mã cỗ máy Antikythera, Máy tính đầu tiên), Smithsonian, tháng 02 năm 2015, http://www.smithsonianmag.com/ history/ decoding-antikythera-mechanism-first-computer-180953979. (TG)
Điều mới lạ là khả năng lập trình cho các máy tính kỹ thuật số mới – nhập vào máy các hướng dẫn phức tạp tùy ý.1 Như đã trình bày trong chương trước, các chương trình máy tính rất lý tưởng khi thực hiện các thuật toán: hướng dẫn chính xác, từng bước để hoàn thành một nhiệm vụ. Nhưng các nhà tư tưởng xuất sắc trong nhiều lĩnh vực đã sớm bắt đầu cố gắng cải thiện các cỗ máy mới để chúng có khả năng làm được nhiều việc hơn, thay vì chỉ đơn thuần thực hiện các lệnh được lập trình trước. Những người tiên phong này muốn tạo ra sự kết hợp giữa phần cứng và phần mềm để chúng có thể tự hoạt động một cách thông minh, nói cách khác, để chúng có thể lý luận như con người và từ đó sở hữu trí tuệ nhân tạo.
1. Alan Turing đã chứng minh rằng một máy tính cơ bản lưu trữ một chương trình có thể được coi là một máy tính phổ quát, mà trên nguyên tắc, nó có thể được hướng dẫn để giải quyết bất kỳ vấn đề nào có khả năng giải quyết được bằng thuật toán. (TG)
HAI CON ĐƯỜNG TÁCH BIỆT TRÊN HÀNH TRÌNH ĐI ĐẾN TRÍ TUỆ NHÂN TẠO
John McCarthy, Giáo sư Toán học tại Dartmouth, đã định nghĩa trí tuệ nhân tạo là “khoa học và kỹ thuật chế tạo những chiếc máy thông minh.” Ông đã tổ chức hội nghị đầu tiên về chủ đề này vào năm 1956 trong khuôn viên trường. Chỉ vài năm sau, cuộc tranh cãi lớn nhất và dai dẳng nhất về lĩnh vực này đã xảy ra. Để hiểu về nó và tại sao nó lại đóng vai trò quan trọng như vậy, hãy xem xét sự khác biệt giữa cách trẻ con học một ngôn ngữ và cách mà hầu hết người lớn học ngôn ngữ thứ hai.
Trẻ con chủ yếu học ngôn ngữ bằng cách lắng nghe. Chúng nghe những người xung quanh nói, tiếp thu một số từ và quy tắc tạo nên ngôn ngữ, đến một lúc nào đó, chúng bắt đầu có khả năng tự nói. Những đứa trẻ sẽ nhận được phản hồi và sửa chữa những lỗi sai mà chúng mắc phải, cuối cùng trở nên thành thạo trong việc giao tiếp bằng ngôn ngữ của một con người.
Người học trưởng thành biết điều này khó khăn như thế nào. Khi họ bắt đầu làm chủ ngôn ngữ thứ hai, họ ngay lập tức phải đối mặt với một loạt các quy tắc: đặt các đại từ ở đâu trong một câu, sử dụng giới từ nào, cách chia động từ, danh từ có chia giới tính hay không và nếu có thì bao nhiêu giới, làm thế nào để phân biệt giữa chủ ngữ và vị ngữ (để chúng ta biết liệu con chó cắn người đàn ông hay ngược lại),… Đối với hầu hết những người trưởng thành học ngôn ngữ thứ hai, việc ghi nhớ các từ vựng đã đủ khó, nói chi đến một khối lượng lớn các quy tắc chồng chất, phức tạp và đôi khi còn không nhất quán.
Trẻ nhỏ không cần những bài học rõ ràng về các quy tắc để có thể nói tốt.1 Hầu hết người lớn không thể học nếu thiếu chúng. Giữa hai cách tiếp cận, tất nhiên cũng có điểm chung – nhiều đứa trẻ cuối cùng cũng sẽ tham gia vào các lớp học ngôn ngữ, và người lớn cũng học một số thứ bằng cách lắng nghe – nhưng hai đối tượng này hoàn toàn khác nhau. Trong khi bộ não của trẻ nhỏ chuyên về học ngôn ngữ: bộ não của trẻ hoạt động dựa trên các nguyên tắc thống kê để phân biệt các mô hình trong ngôn ngữ2 (ví dụ: Khi mẹ nói về bản thân như một chủ ngữ, mẹ sử dụng từ “I” và đặt nó ở đầu câu. Khi mẹ là vị ngữ, mẹ sẽ sử dụng từ “me” và đặt nó ở phía sau). Bởi vì bộ não của mỗi người trưởng thành là khác nhau, họ thường học các quy tắc một cách rõ ràng khi tiếp thu một ngôn ngữ mới.
1. Trong cuốn The Language Instinct (tạm dịch: Bản năng ngôn ngữ) của nhà ngôn ngữ học Steven Pinker xuất bản năm 1994, ông chỉ ra rằng nếu một đứa trẻ thất vọng với quyển sách được bố mẹ chúng chọn để đọc trước khi đi ngủ, chúng có thể nói được một câu phức tạp như: “Bố ơi, tại sao bố lại mang cuốn sách mà con không muốn nghe ra đây?” – Steven Steven Pinker, The Language Instinct (New York: HarperCollins, 1994), trang 23. (TG)
2. Một nghiên cứu trường hợp đã chứng minh rất thuyết phục rằng sau một độ tuổi nhất định, trẻ con sẽ mất khả năng tiếp thu ngôn ngữ. Năm 1970, các nhà chức trách ở miền nam California biết đến một cô gái 13 tuổi, có bút danh là Genie, người từng là nạn nhân của một vụ bạo hành và bị bỏ bê khủng khiếp. Kể từ khi mới chập chững biết đi, Genie đã bị người cha cô lập gần như hoàn toàn với xã hội. Cô bị trói và bỏ lại một mình trong một căn phòng trống và không được nói chuyện với ai. Sau khi Genie được giải cứu, nhiều nhà nghiên cứu và nhà trị liệu làm việc với cô bé tin rằng Genie không bị chậm phát triển bẩm sinh, dù vậy, cô không thể học được cách nói bất cứ điều gì ngoài những câu cực kỳ đơn giản. Các quy tắc ngữ pháp càng phức tạp, cô càng lảng tránh. Hiện Genie đang sống trong một cơ sở dành cho người trưởng thành thiểu năng tại California. (TG)
Cộng đồng trí tuệ nhân tạo đã sớm chia thành hai phe khác biệt nhưng tương tự nhau. Một phe theo đuổi cái gọi là trí tuệ nhân tạo dựa trên quy tắc hay trí tuệ nhân tạo theo hướng “biểu tượng”1, trong khi phe kia xây dựng các hệ thống nhận dạng mẫu thống kê. Phe thứ nhất đã cố gắng xây dựng trí tuệ nhân tạo theo cách của một người trưởng thành học ngôn ngữ thứ hai, trong khi phe còn lại xây dựng theo cách giống như một đứa trẻ học tiếng mẹ đẻ. Thoạt nhìn, cách tiếp cận mang tính biểu tượng có vẻ sẽ chiếm ưu thế. Ví dụ, tại hội nghị Dartmouth năm 1956, Allen Newell, J. C. Shaw và người sau này đoạt giải Nobel là Herbert Simon đã chứng minh chương trình “Logic Theorist” (Nhà lý luận Logic), trong đó sử dụng các quy tắc logic chính thức để tự động chứng minh các định lý toán học. Chương trình đã có thể chứng minh 38 định lý trong chương thứ hai của cuốn Principia Mathematica, một cuốn sách tạo nên bước ngoặt về nền tảng logic toán học được Alfred North Whitehead và Bertrand Russell viết. Trên thực tế, một trong những bản thử của chương trình Logic Theorist còn tốt hơn nhiều so với bản thử trong cuốn sách mà chính Russell “đã trả lời với niềm vui thích” về nó. Simon tuyên bố rằng ông và các đồng nghiệp đã “phát minh ra một cỗ máy tư duy”.
1. Trí tuệ nhân tạo dựa trên quy tắc được gọi là “biểu tượng” vì nó được thể hiện bằng từ ngữ, số và các biểu tượng khác mà con người có thể hiểu được. (TG)
Tuy nhiên, những thách thức khác đã chứng minh rằng phương pháp dựa trên quy tắc không được tuân thủ. Kết quả của hàng thập kỷ nghiên cứu về nhận dạng giọng nói, phân loại hình ảnh, dịch ngôn ngữ và các lĩnh vực khác lại không mấy ấn tượng. Hệ thống tốt nhất trong số đó cho kết quả kém hơn nhiều so với khả năng của con người và hệ thống dở nhất có khả năng ghi nhớ rất kém. Ví dụ, theo một tập hợp các giai thoại năm 1979, các nhà nghiên cứu đã nhập vào tiện ích dịch thuật từ tiếng Anh sang tiếng Nga cụm từ “The spirit is willing, but the flesh is weak.” Chương trình đã cho bản dịch tương đương bằng tiếng Nga là “Rượu whisky sẵn sàng, nhưng thịt đã bị hỏng.” Câu chuyện này có lẽ không chính xác, nhưng cũng không phải là nói quá. Với tư cách là một nhóm, các hệ thống trí tuệ nhân tạo theo biểu tượng đã tạo ra kết quả không mấy ấn tượng, đến cuối những năm 1980, khi các nguồn tài trợ chính của công ty và chính phủ cho công trình nghiên cứu cạn kiệt, “Mùa đông của trí tuệ nhân tạo” đã đến.
Phản bác
Điều gì khiến cho các phương pháp tiếp cận trí tuệ nhân tạo theo biểu tượng lại thất bại? Có hai trở ngại chính. Trở ngại đầu tiên đặt ra những thách thức nghiêm trọng cho lĩnh vực này và trở ngại còn lại rõ ràng là không thể vượt qua. Đầu tiên, nói một cách đơn giản, những người trưởng thành học ngôn ngữ đều biết có rất nhiều quy tắc trên thế giới, và nói chung, việc biết và tuân theo hầu hết các quy tắc đó là chưa đủ. Thay vào đó, bạn hầu như phải thực hiện tốt tất cả. Một câu đúng 80% ngữ pháp có khả năng gây cười, hoặc thậm chí là khiến người khác hoàn toàn không thể hiểu được.
Và còn có các quy tắc nằm trong quy tắc. Chẳng hạn như việc bạn biết rằng tính từ thường được đặt trước danh từ trong một câu tiếng Anh là không đủ. Trong cuốn The Elements of Eloquence (tạm dịch: Các yếu tố của sự xuất sắc), Mark Forsyth viết rằng: “Tính từ của tiếng Anh hoàn toàn phải theo thứ tự: ý kiến-kích thước-tuổi-hình dạng-màu sắc-nguồn gốc-chất liệu-mục đích. Vì vậy, you can have a lovely little old rectangular green French silver whittling knife. Nhưng nếu bạn làm lộn xộn thứ tự từ đó dù chỉ một chút, bạn sẽ nghe như một kẻ điên. Thật kỳ lạ là mọi người nói tiếng Anh đều sử dụng trật tự đó, nhưng hầu như không ai trong chúng ta có thể viết nó ra.”
Hơn nữa, thế giới mà chúng ta đang sống, một thế giới mà trong đó các đối tượng hữu hình, các ý tưởng và khái niệm đều tệ hại trong việc tuân theo một bộ quy tắc. Ghế phải có chân, trừ khi chúng có chân xoay hoặc chân đế bọc, hoặc được treo trên trần nhà. Năm 2002, hai người đàn ông không được phép kết hôn đồng tính tại Mỹ, nhưng vào năm 2015, họ lại có thể. Những con sóc không bay, ngoại trừ những cái dù lượn hình sóc. Trong tiếng Anh, hai lần phủ định có thể tạo ra sự khẳng định (“cô ấy chưa bao giờ không vui vẻ”), nhưng hai lần khẳng định không bao giờ tạo ra sự phủ định. Vâng, đúng vậy.
Những nỗ lực mã hóa tất cả các quy tắc có liên quan cho những thứ phức tạp như ngôn ngữ hoặc đồ nội thất vào hệ thống máy tính và khiến các hệ thống làm bất cứ điều gì hữu ích phần lớn đều không thành công. Như nhà khoa học máy tính Ernest Davis và nhà khoa học thần kinh Gary Marcus viết: “Tính đến năm 2014, rất ít hệ thống thương mại sử dụng bất kỳ suy luận kiến thức thông thường tự động nào… chưa ai có thể vươn tới ngưỡng tạo ra một chiếc máy suy luận kiến thức thông thường một cách thỏa đáng.” Đối với phần lớn con người, kiến thức này có vai trò to lớn trong việc đưa chúng ta vượt qua những sự phức tạp và không nhất quán của thế giới, mặc dù, như đã thảo luận trong chương trước, nó tạo ra sai số và lỗi. Chúng ta vẫn chưa thiết kế được các hệ thống kỹ thuật số theo biểu tượng để thật sự hiểu cách thế giới hoạt động cũng như Hệ thống sinh học 1 của chúng ta. Các hệ thống của chúng ta ngày càng hiệu quả trong việc làm “hạn chế” trí tuệ nhân tạo, đối với các lĩnh vực cụ thể như cờ vây hoặc nhận dạng hình ảnh, nhưng chúng ta còn phải mất rất lâu nữa mới có thể áp dụng trí tuệ nhân tạo cho một loạt vấn đề không lường trước được, như Shane Legg, người đồng sáng lập DeepMind, được mệnh danh là Trí tuệ nhân tạo tổng hợp (AGI), từng làm.
Nghịch lý phổ biến của Polanyi
Davis và Marcus mô tả những thứ có lẽ là rào cản cơ bản nhất để xây dựng những hệ thống trên như sau: “Trong quá trình lý luận thông thường, mọi người đang dựa trên quá trình suy luận phần lớn không áp dụng cho sự tự vấn nội tâm.” Nói cách khác, việc con người chúng ta nhận thức để tuân thủ rất nhiều quy tắc một cách dễ dàng là một minh chứng tiếp diễn của Nghịch lý Polanyi, một hiện tượng kỳ lạ trong đó chúng ta biết nhiều hơn những gì chúng ta có thể nói ra. Như đã được mô tả trong Chương 1, chính nghịch lý này, cho đến gần đây, đã ngăn cản việc tạo ra phần mềm có thể chơi cờ vây giống như những kỳ thủ hàng đầu. Hãy nhớ rằng toàn bộ nghịch lý này đã được xác nhận lại. Trong nhiều trường hợp, chúng ta không biết và không thể biết những quy tắc nào chúng ta đang sử dụng để làm điều gì đó đúng đắn.
Điều này nghe có vẻ giống như một rào cản cho bất kỳ hệ thống tự động hoặc trí tuệ nhân tạo nào. Nếu không có thực thể nào trên Trái Đất biết các quy tắc mà con người sử dụng để hoàn thành một việc gì đó, kể cả chính con người, thì làm sao chúng ta có thể tạo ra một hệ thống dựa trên quy tắc, hoặc bất kỳ hệ thống máy tính nào để mô phỏng những thành tựu này? Nghịch lý Polanyi dường như đặt một giới hạn cố định cho các loại công việc có thể được tự động hóa của con người. David Autor, nhà kinh tế học, đồng nghiệp tại MIT của chúng tôi, đã viết: “Phạm vi cho loại thay thế này (của máy tính cho con người) bị giới hạn bởi có nhiều nhiệm vụ mà mọi người ngầm hiểu và hoàn thành một cách dễ dàng, nhưng không phải lập trình viên máy tính nào hay bất kỳ ai khác cũng có thể nói ra các ‘quy tắc’ hoặc ‘thủ tục’ một cách rõ ràng.”
Chúng ta có thể tạo ra những cỗ máy có khả năng tự học không?
Trung tâm nghiên cứu khác của các nhà nghiên cứu trí tuệ nhân tạo – nhóm từ bỏ những phương pháp tiếp cận bằng biểu tượng – vào cuối những năm 1950, đã cố gắng vượt qua Nghịch lý Polanyi bằng cách xây dựng các hệ thống nghiên cứu các nhiệm vụ theo cách một đứa trẻ học ngôn ngữ: bằng kinh nghiệm, sự lặp lại và thông qua phản hồi. Họ đã tạo ra lĩnh vực “học máy”, lĩnh vực thực hiện chức năng đúng như cái tên của nó.
Một trong những cỗ máy kỹ thuật số đầu tiên vận hành theo cách này là Perceptron, được Hải quân Mỹ tài trợ, một cỗ máy tư duy và tự học được dẫn dắt bởi Frank Rosenblatt, một nhà khoa học tại Phòng Thí nghiệm Hàng không Cornell Perceptron. Ra mắt vào năm 1957, mục tiêu của Perceptron là phân loại những điều mà nó đã nhìn thấy – ví dụ như chó với mèo. Để đạt được mục tiêu này, nó được cấu hình gần giống như một phiên bản thu nhỏ của bộ não con người.
100 tỷ tế bào thần kinh trong não của chúng ta không được sắp xếp theo bất kỳ một mô hình gọn gàng nào. Thay vào đó, chúng liên kết chặt chẽ với nhau: tế bào thần kinh điển hình của con người sẽ nhận thông tin đầu vào hoặc tin nhắn từ hơn 10.000 tế bào kế bên, sau đó gửi thông tin đầu ra cho số lượng tế bào gần như tương tự. Mỗi khi có đủ thông tin đầu và tín hiệu điện đủ mạnh, nơ-ron sẽ gửi tín hiệu riêng đến tất cả các đầu ra của nó. Các định nghĩa về “đủ” và “đủ mạnh” ở đây thay đổi theo thời gian, tùy thuộc vào phản hồi cũng như “trọng lượng” quan trọng mà một tế bào thần kinh cung cấp cho mỗi đầu vào của nó. Quá trình kỳ lạ, phức tạp và liên tục này làm xuất hiện những ký ức, kỹ năng, Hệ thống 1 và Hệ thống 2, làm lóe lên những hiểu biết sâu sắc và sai số về nhận thức, cùng tất cả các hoạt động nhận thức khác.
Cỗ máy Perceptron không cố làm hết công việc này. Nó được xây dựng chỉ để phân loại hình ảnh đơn giản. Nó có 400 tế bào phát hiện ánh sáng được kết nối ngẫu nhiên (để kích thích sự lộn xộn của bộ não) với một lớp tế bào thần kinh nhân tạo. Biểu hiện ban đầu của “các mạng nơ-ron nhân tạo” này, cùng với dự đoán chắc chắn của Rosenblatt, đã khiến tờ New York Times năm 1958 viết rằng đó là “phôi của một chiếc máy tính điện tử mà [Hải quân] mong đợi sẽ có thể đi bộ, nói chuyện, quan sát, viết, tái tạo và có ý thức về sự tồn tại của chính nó.”
Tuy nhiên, những đột phá không đến một cách nhanh chóng như hứa hẹn; năm 1969, Marvin Minsky và Seymour Papert đã đăng một bài phê bình gay gắt có tựa đề Perceptrons: An Introduction to Computational Geometry (Perceptrons: Tổng quan về Hình học điện toán). Về mặt toán học, họ chỉ ra rằng thiết kế của Rosenblatt không có khả năng hoàn thành một số nhiệm vụ phân loại cơ bản. Trong lĩnh vực trí tuệ nhân tạo, điều này là đủ để khiến họ quay lưng lại không chỉ với Perceptrons, mà còn cả những khái niệm rộng hơn về các mạng nơ-ron nhân tạo và học máy nói chung. Hai phe đều phải đối mặt với Mùa đông của trí tuệ nhân tạo.
Sự kiên trì với Perceptrons được đền đáp
Một vài nhóm tiếp tục thực hiện học máy vì họ vẫn tin rằng cách đúng đắn để khiến máy tính suy nghĩ theo cách của con người là xây dựng mạng nơ-ron nhân tạo lấy cảm hứng từ não để có thể học từ các ví dụ. Các nhà nghiên cứu đã hiểu và khắc phục những hạn chế của Perceptron. Họ đã thực hiện điều này với sự kết hợp của toán học phức tạp, sự phát triển mạnh mẽ của phần cứng máy tính và phương pháp tiếp cận thực tế cho phép họ lấy cảm hứng từ cách thức hoạt động của não bộ nhưng không bị hạn chế bởi nó. Chẳng hạn, tín hiệu điện chỉ truyền theo một hướng qua các nơ-ron thần kinh, nhưng các hệ thống học máy được Paul Werbos, Geoff Hinton, Yann LeCun và những người khác xây dựng thành công vào những năm 1980 cho phép thông tin truyền đi và về qua mạng.
Quá trình “truyền ngược” này đã mang đến hiệu suất tốt hơn, nhưng tiến độ vẫn khá chậm chạp. Đến những năm 1990, một hệ thống học máy do LeCun phát triển để nhận dạng các con số đã đọc tới 20% tổng số séc viết tay ở Mỹ, nhưng lại có rất ít ứng dụng trong thế giới thực.
Với chiến thắng gần đây của AlphaGo, tình hình hiện tại trở nên rất khác biệt. Trong khi AlphaGo đã kết hợp các tìm kiếm hiệu quả thông qua các tiềm năng – một yếu tố cổ điển của các hệ thống trí tuệ nhân tạo dựa trên quy tắc, bản chất của nó vẫn là một hệ thống học máy. Như những nhà sáng tạo đã viết: nó là “một phương pháp tiếp cận mới với cờ vây máy tính sử dụng mạng nơ-ron nhân tạo được phát triển bởi một sự kết hợp mới lạ của việc học có giám sát từ các trò chơi và củng cố việc học từ các trò chơi tự chơi.”
AlphaGo không phải là ví dụ duy nhất. Vài năm qua, chúng ta đã chứng kiến sự phát triển của mạng nơ-ron nhân tạo. Cho đến nay, loại hình trí tuệ nhân tạo này đang dần chiếm ưu thế và dường như chúng có thể đứng đầu trong một thời gian. Vì lý do này, lĩnh vực trí tuệ nhân tạo cuối cùng cũng đã thực hiện được ít nhất một số hứa hẹn ban đầu của nó.
TẠI SAO BÂY GIỜ CHÚNG TA LẠI CÓ TRÍ TUỆ NHÂN TẠO?
Sự phát triển này đã diễn ra như thế nào, và tại sao nó lại nhanh và bất ngờ đến như vậy? Thông thường để có được những bước tiến này, phải có sự kết hợp của một vài yếu tố, trong đó sự kiên trì và may mắn đều đóng vai trò quan trọng. Nhiều người trong cuộc tin rằng yếu tố quan trọng nhất là định luật Moore. Mạng nơ-ron nhân tạo ngày càng trở nên mạnh mẽ và có tiềm năng hơn khi kích thước của chúng được tăng lên, và chỉ mới gần đây, những mạng nơ-ron đủ lớn mới có giá rẻ hơn để các nhà nghiên cứu có thể mua và sử dụng.
Điện toán đám mây đã mở ra cơ hội nghiên cứu trí tuệ nhân tạo với các nguồn ngân sách nhỏ hơn. Doanh nhân công nghệ Elliot Turner ước tính rằng, năng lực tính toán cần thiết để thực hiện dự án học máy tiên tiến có thể được thuê từ một nhà cung cấp điện toán đám mây như Amazon Web Services với giá khoảng 13.000 đô-la vào mùa thu năm 2016. Lạ thay, sự phổ biến của các trò chơi video hiện đại cũng đã tạo lực đẩy lớn cho học máy. Các đơn vị xử lý đồ họa chuyên dụng (GPUs) điều khiển các máy chơi điện tử phổ biến hóa ra cực kỳ phù hợp với các loại tính toán cần thiết cho mạng nơ-ron nhân tạo, vì vậy chúng đã được lập trình với số lượng lớn cho nhiệm vụ này. Nhà nghiên cứu trí tuệ nhân tạo Andrew Ng nói rằng: “Các nhóm ở vị trí đầu đang thực hiện những công việc phức tạp trong GPUs mà tôi không bao giờ có thể tưởng tượng ra được cách đây hai hoặc ba năm.”
Như định luật Moore, hiện tượng “dữ liệu lớn” – sự bùng nổ gần đây của văn bản kỹ thuật số, hình ảnh, âm thanh, video, đọc cảm biến,... – khá quan trọng đối với học máy. Giống như một đứa trẻ cần nghe nhiều từ và câu để học ngôn ngữ, các hệ thống học máy cần được tiếp xúc với nhiều ví dụ để cải thiện khả năng nhận dạng giọng nói, phân loại hình ảnh và các nhiệm vụ khác.1 Bây giờ chúng ta đã có được nguồn cung cấp dữ liệu vô tận đó với nhiều thứ được tạo ra một cách liên tục. Các loại hệ thống được xây dựng bởi Hinton, LeCun, Ng và những người khác có đặc tính như mong muốn là hiệu suất của chúng được cải thiện khi chúng được tiếp cận nhiều ví dụ hơn. Hinton đã nói một cách khá khiêm tốn rằng: “trước đây, [sự thành công của học máy] chỉ là vấn đề về lượng dữ liệu và số lượng tính toán.”
1. Dữ liệu lớn và các phân tích cũng đã làm thay đổi việc ra quyết định của con người, như chúng tôi đã đề cập trong bài viết của mình Big Data: The Management Revolution (tạm dịch: Dữ liệu lớn: Cuộc cách mạng quản lý), Andrew McAfee và Erik Brynjolfsson, Tạp chí Harvard Business Review 90, Số 10 (2012), trang 61 - 67. (TG)
Hinton dường như không ghi nhận bản thân mình. Ông đã thực hiện nhiều tiến bộ trong mạng nơ-ron nhân tạo, và một trong số đó về cơ bản đã thay đổi cả lĩnh vực. Bài báo năm 2006 của ông, A Fast Learning Algorithm for Deep Belief Nets (Một thuật toán học nhanh cho mạng lưới niềm tin sâu sắc), đồng tác giả với Simon Osindero và Yee-Whye Teh, đã chứng minh rằng các mạng nơ-ron nhân tạo được cấu hình đúng và đủ mạnh về cơ bản có thể tự học, không cần đào tạo hoặc giám sát. Ví dụ, nếu có một nhóm lớn các con số viết tay được hiển thị, chúng sẽ kết luận chính xác rằng có 10 mẫu riêng biệt trong dữ liệu (tương ứng với các số từ 0 đến 9), sau đó có thể phân loại chính xác bất kỳ con số viết tay mới nào được hiển thị vào 10 loại mà chúng đã xác định trước đó.
Loại “học không có giám sát” này vẫn còn tương đối hiếm hoi trong lĩnh vực học máy. Thay vào đó, hầu hết các hệ thống thành công đều phụ thuộc vào việc “học có giám sát”, về cơ bản, chúng đã đưa ra một bộ câu hỏi và câu trả lời đúng trước khi chúng được yêu cầu tự trả lời bất kỳ câu hỏi mới nào. Ví dụ, một hệ thống học máy có thể được cung cấp một tập hợp lớn các tệp âm thanh lời nói và văn bản gồm các từ được viết tương ứng. Hệ thống sử dụng tập hợp các cặp tương ứng này để xây dựng các liên kết trong mạng nơ-ron nhân tạo, cho phép nó phiên âm các bản lời nói được ghi âm mới. Bởi cả hai phương pháp học máy có giám sát và không giám sát đều sử dụng các thuật toán được viết bởi Hinton và các đồng nghiệp trong bài báo năm 2006, nên giờ đây, chúng thường được gọi là các hệ thống “học sâu” (Deep Learning).
Thực hiện và triển khai
Ngoại trừ một số ít trường hợp, chẳng hạn như hệ thống LeCun được xây dựng để nhận dạng số viết tay trên séc, thì việc ứng dụng học sâu vào kinh doanh chỉ mới diễn ra trong một vài năm. Nhưng kỹ thuật này đang lan rộng với tốc độ khác thường. Kỹ sư phần mềm Jeff Dean1, người đi đầu trong việc sử dụng công nghệ tại Google, lưu ý rằng, gần đây, vào năm 2012, công ty hoàn toàn không sử dụng học sâu để cải thiện các sản phẩm như Tìm kiếm, Gmail, YouTube hoặc Bản đồ. Tuy nhiên, đến quý III năm 2015, học sâu đã được sử dụng trong khoảng 1.200 dự án của toàn công ty, vượt qua hiệu suất của các phương pháp khác.
1. Dean trở thành một huyền thoại tại Google nhờ vào những đóng góp của mình. Các đồng nghiệp của ông đã thu thập được một tập thông tin có tên Jeff Dean facts (Những sự thật về Jeff Dean) để tổng hợp những khả năng của ông ấy. Ví dụ điển hình như “Tốc độ ánh sáng trong chân không được sử dụng là khoảng 55km/giờ. Và sau đó, Jeff Dean đã dành một ngày cuối tuần để tối ưu hóa vật lý.” – Kenton Varda, bài đăng trên Google+, ngày 28 tháng 01 năm 2012, https://plus.google.com/+KentonVarda/posts/TSDhe5CvaFe. (TG)
DeepMind, thứ đặc biệt hiệu quả trong việc kết hợp học sâu với một kỹ thuật khác gọi là học tăng cường1, đã chuyển sự chú ý và các công nghệ của nó không chỉ sang các sản phẩm thông tin cung cấp cho khách hàng, mà còn cho các quá trình quan trọng trong thế giới thực. Google điều hành một số trung tâm dữ liệu lớn nhất thế giới, vốn là những cơ sở cực kỳ tiêu hao năng lượng. Những tòa nhà này phải cung cấp năng lượng cho 100.000 máy chủ đồng thời làm mát chúng. Thách thức làm mát được kết hợp bởi thực tế rằng tải trọng tính toán của cơ sở – tổng tất cả mọi thứ mà các máy chủ đang được yêu cầu thực hiện – thay đổi khó lường theo thời gian. Thời tiết bên ngoài cũng vậy, điều này rõ ràng ảnh hưởng đến việc tòa nhà cần được làm mát như thế nào và được làm mát ở nhiệt độ bao nhiêu.
1. Học tăng cường liên quan đến việc xây dựng các tác nhân phần mềm có thể thực hiện các hành động hiệu quả trong một môi trường nhằm tối đa hóa phần thưởng. Lần trình diễn công khai đầu tiên của DeepMind trong lĩnh vực này là ra mắt “deep Q-network” (DQN), hệ thống được xây dựng để chơi các trò chơi video kinh điển Atari 2600 như Space Invaders, Pong, Breakout và Battlezone. Hệ thống DQN không biết các lập trình viên đang cho nó chơi trò chơi nào, luật chơi là gì, chiến lược nào có thể hiệu quả hoặc bộ điều khiển và hành động nào có sẵn cho nó. Trên thực tế, nó thậm chí còn không biết rằng mình đang chơi một trò chơi. Nó chỉ đơn giản là hiển thị màn hình của mỗi trò chơi và được yêu cầu tối đa hóa điểm số bằng cách di chuyển bộ điều khiển. DQN đã có thể nhanh chóng đánh bại điểm số của những người chơi chuyên nghiệp tại hơn một nửa trong 49 trò chơi được trình bày. –Volodymyr Mnih và cộng sự, Human-Level Control through Deep Reinforcement Learning (Kiểm soát cấp độ con người thông qua tăng cường học sâu), Tạp chí Nature 518 (ngày 28 tháng 02 năm 2015), trang 529–33, https://storage.googleapis.com/ deepmind-data/assets/papers/ DeepMindNature14236Paper.pdf. (TG)
Con người thường điều khiển máy bơm, máy làm mát, tháp giải nhiệt và các thiết bị khác để giữ cho trung tâm dữ liệu ở nhiệt độ phù hợp. Những người này theo dõi nhiệt kế, đồng hồ đo áp suất và nhiều cảm biến khác, sau đó đưa ra quyết định về cách tốt nhất để làm mát cơ sở theo thời gian. DeepMind muốn xem liệu rằng có thể sử dụng học máy để thay thế con người làm những công việc này hay không. Họ mất nhiều năm nghiên cứu dữ liệu lịch sử về tải trọng tính toán, bộ đọc cảm biến và các yếu tố môi trường như nhiệt độ và độ ẩm tại các trung tâm dữ liệu, sau đó sử dụng tất cả những thông tin này để đào tạo một mạng nơ-ron nhân tạo điều khiển tất cả thiết bị làm mát có sẵn. Trên một phương diện nào đó, họ xem trung tâm dữ liệu như một trò chơi video khổng lồ và hướng dẫn các thuật toán để cố gắng đạt điểm cao hơn, trong trường hợp này có nghĩa là sử dụng năng lượng hiệu quả hơn.
Khi quyền kiểm soát của một trung tâm dữ liệu thực tế được chuyển sang các hệ thống này, kết quả xuất hiện tức khắc và rất ấn tượng. Tổng số năng lượng được sử dụng để làm mát giảm tới 40% và năng lượng gián tiếp của cơ sở – năng lượng không được sử dụng trực tiếp cho thiết bị công nghệ thông tin, bao gồm phụ tải và tổn thất điện năng – được cải thiện khoảng 15%. Đồng sáng lập của DeepMind, Mustafa Suleyman, nói rằng đây là một trong những cải tiến lớn nhất mà nhóm Trung tâm dữ liệu Google từng thấy.
Suleyman cũng nhấn mạnh rằng phương pháp DeepMind có tính khái quát cao. Các mạng nơ-ron nhân tạo được nhóm sử dụng không cần phải cấu hình lại hoàn toàn cho mỗi trung tâm dữ liệu mới. Chúng chỉ cần được cung cấp càng nhiều dữ liệu lịch sử càng tốt. Công việc này khá tinh vi và khó khăn1, nhưng rõ ràng nó sẽ được đền đáp xứng đáng.
1. Thiết lập một mạng nơ-ron nhân tạo hoạt động đúng cách nghe có vẻ dễ dàng, chỉ cần đổ dữ liệu vào và để hệ thống tạo ra các liên kết của nó. Nhưng hiện tại, nó thật sự tốn thời gian và khó khăn, ngay cả với những người có nền tảng vững chắc về khoa học máy tính. (TG)
Trên thực tế, các hệ thống học máy có hiệu suất tốt nhất hiện nay được sử dụng cho các ứng dụng không giống với quản lý năng lượng của trung tâm dữ liệu, nhận dạng giọng nói, phân loại hình ảnh và dịch tự động. Thay vì thay đổi rất nhiều theo tên miền, chúng đã tập hợp tất cả các biến thể của học sâu. Điều này rất quan trọng vì nó cho thấy phương pháp tiếp cận trí tuệ nhân tạo này có thể lan tỏa khắp các ngành công nghiệp và nền kinh tế với tốc độ nhanh chóng. Các mạng nơ-ron nhân tạo mới có thể được nhân đôi và nhân rộng gần như ngay lập tức, được cung cấp với các dữ liệu mới và sau đó đưa vào hoạt động.
Những gã khổng lồ công nghệ bao gồm Microsoft, Amazon, Google và IBM đã cung cấp các công nghệ học máy được phát triển nội bộ cho các công ty khác thông qua sự kết hợp giữa các giao diện lập trình ứng dụng (API) và đám mây, về cơ bản là những quy tắc được công bố rõ ràng, nhất quán về cách thức từng phần của phần mềm tương tác với nhau. Các API giúp việc kết hợp mã từ nhiều nguồn khác nhau vào một ứng dụng trở nên dễ dàng hơn và đám mây cung cấp sẵn mã này theo yêu cầu, trên phạm vi toàn thế giới.
Với cơ sở hạ tầng tại chỗ này, cơ hội cho việc triển khai học máy đã lan tỏa nhanh chóng và sâu rộng trên toàn thế giới. Tuy nhiên, vì những lý do được thảo luận trong Chương 1, chúng tôi cũng hy vọng nó sẽ lan rộng không đồng đều, vì các quy trình kinh doanh đã được tái phát minh tại các công ty hàng đầu và các mô hình kinh doanh mới đã xuất hiện. Điều này đã xảy ra tại một số nơi không ngờ tới.
Khi Makoto Koike trở lại trang trại dưa chuột của cha mẹ anh tại Nhật Bản vào năm 2015, anh đã nhìn thấy cơ hội để đưa học máy vào sử dụng. Trước đây, anh từng làm kỹ sư phần cứng và phần mềm trong ngành công nghiệp ô tô, vì vậy anh cảm thấy thoải mái khi chế tạo thiết bị kết hợp mã lệnh và máy móc. Anh tìm thấy một ứng dụng phân loại dưa chuột, được thực hiện độc quyền bởi Makoto Masaka, mẹ anh. Bà đã dùng nhiều năm kinh nghiệm của mình để tự sắp xếp tất cả các sản phẩm nông trại thành 9 loại có chất lượng. Bà có thể tự làm điều này vì trang trại có quy mô nhỏ (trang trại nonrice ở Nhật Bản trung bình chỉ rộng khoảng 1,5 ha, tức là khoảng một sân rưỡi bóng chày, hoặc hai sân bóng đá), nhưng nó là một công việc đòi hỏi tới tám giờ mỗi ngày trong thời gian cao điểm của mùa thu hoạch.
Makoto đã bị ấn tượng bởi khả năng khớp mẫu của AlphaGo, và bị cuốn hút bởi TensorFlow, một bộ công nghệ học máy được Google cung cấp vào tháng 11 năm 2016. Anh quyết định sử dụng chúng để xem liệu mình có thể tự động hóa việc phân loại dưa chuột trong trang trại gia đình không. Mặc dù không có kinh nghiệm với học máy trước đây, nhưng anh đã tự trau dồi bằng cách sử dụng TensorFlow, sau đó dạy hệ thống ghi nhớ 7.000 hình ảnh của các loại dưa chuột khác nhau. Sử dụng máy ảnh, máy tính và bộ điều khiển phần cứng rẻ tiền, anh đã xây dựng một máy chấm điểm hoàn toàn tự động với độ chính xác 70% trong năm đầu hoạt động. Chắc chắn hệ thống này sẽ có độ chính xác cao hơn với các hình ảnh có độ phân giải lớn hơn và thế hệ phần mềm học máy dựa trên đám mây tiếp theo, như những gì Makoto nói: “Tôi rất nóng lòng muốn dùng thử chúng.” Những nỗ lực của anh đã khiến chúng tôi phải đồng ý với Kaz Sato của Google rằng: “Không quá cường điệu khi nói rằng các trường hợp sử dụng cho học máy và học sâu chỉ bị giới hạn bởi trí tưởng tượng của chúng ta.”
Khi chúng tôi viết cuốn sách này, gần như tất cả thành tựu thương mại trong ngành cho đến nay đều đã sử dụng các kỹ thuật học tập có giám sát và một số ít đã sử dụng học tăng cường (ví dụ như trung tâm dữ liệu được tối ưu hóa bởi DeepMind). Tuy nhiên, cách học chính của con người là thông qua học không giám sát. Một đứa trẻ chập chững học những kiên thức vật lý đơn giản bằng cách chơi với các khối hình, rót nước tràn ra khỏi ly, ném bóng và ngã khỏi ghế, chúng không được dạy những định luật về chuyển động của Newton hay ghi nhớ các phương trình như F = ma. Yann LeCun đã nhấn mạnh tầm quan trọng đáng kể và phần lớn chưa được khai thác của việc học không có giám sát thông qua phép ẩn dụ về một chiếc bánh. Ông nói: “Nếu trí tuệ là một chiếc bánh, thì học tập không giám sát sẽ là cốt bánh, học tập có giám sát sẽ là lớp kem phủ trên chiếc bánh, và học tăng cường sẽ là quả anh đào trang trí trên cùng. Chúng tôi biết cách làm kem và hái quả anh đào, nhưng chúng tôi không biết cách làm cốt bánh.” Ông nghĩ rằng việc phát triển các thuật toán tốt hơn cho việc học không giám sát sẽ rất cần thiết nếu chúng ta đạt được AGI.
Trí óc và Học máy
Chúng ta đã không ít lần nghe các nhà xây dựng mạng nơ-ron nhân tạo hiện nay coi phương pháp theo quy tắc trước đây là “trích xuất thuộc tính” lỗi thời. Nhiều người tin rằng phương pháp cố gắng tích lũy tất cả các quy tắc có liên quan vào một nhiệm vụ và sau đó lập trình chúng trên máy tính là sai lầm. Họ tin rằng việc xây dựng các hệ thống có thể tự học các quy tắc sẽ mang lại hiệu suất cao hơn. Các chiến dịch thống kê của các nhà nghiên cứu trí tuệ nhân tạo hiện đang chiếm ưu thế và thực hiện ít nhất một vài lời hứa hẹn do ngành này đưa ra cách đây hơn nửa thế kỷ.
Khi điều này xảy ra, làm thế nào để con người kết hợp trí óc và máy móc với nhau? Có một vài cách khác nhau để làm điều này. Paul Meehl và Tom Davenport đã ủng hộ một phương pháp kết hợp mà chúng tôi đã đề cập trong chương trước: cho phép con người với kiến thức thông thường theo dõi các quyết định và hành động của trí tuệ nhân tạo, và can thiệp nếu thấy bất cứ điều gì bất thường. Đây là những gì DeepMind đã làm khi các mạng nơ-ron nhân tạo của nó chiếm quyền tối ưu hóa trong một trung tâm dữ liệu. Người kiểm soát luôn hiện hữu trong vòng lặp có thể chiếm quyền kiểm soát bất cứ lúc nào.
Cho đến nay, các nhà sản xuất ô tô sở hữu các công nghệ tự lái cũng đã thực hiện phương pháp này. Họ nhấn mạnh rằng con người có mặt trên ghế lái, theo cả nghĩa đen và nghĩa bóng, và chịu trách nhiệm về sự an toàn cho xe ngay cả khi các công nghệ tự lái đang hoạt động. Việc luôn luôn tích hợp con người vào trong vòng lặp có vẻ là biện pháp khôn ngoan đối với nhiều người, vì sự lơ là có thể là điểm yếu chí mạng. Vào mùa hè năm 2016, Joshua Brown đã tử vong khi chiếc Tesla anh ấy lái đâm vào sườn một chiếc xe tải rơ-moóc. Chiếc xe tải với một rơ-moóc màu trắng này đang rẽ trái từ đường cao tốc vào đường xe chạy. Trong khi đó, Brown đang đi về phía chiếc xe tải ở chiều ngược lại trên đường cao tốc. Do không tìm thấy dấu hiệu đạp hệ thống phanh của Tesla trước khi xảy ra sự cố, nên có vẻ như cả Brown lẫn camera trên xe đều nhầm phần rơ-moóc màu trắng của chiếc xe tải là bầu trời đầy mây của Floria. Có lẽ Brown đã quá tin tưởng vào khả năng tự lái của hệ thống sau khi thấy nó hoạt động hiệu quả trong nhiều trường hợp trước đó và đã bắt đầu ít chú ý khi di chuyển trên đường.
Google tin rằng sự thiếu tập trung của con người là một vấn đề dai dẳng, do vậy, chúng ta cần phải hoàn toàn thoát khỏi vòng lặp đó khi lái xe. Chris Urmson, cựu quản lý dự án xe tự lái của công ty, nói rằng: “Trí khôn thông thường cho rằng chúng tôi sẽ chỉ sử dụng các hệ thống hỗ trợ lái xe này và chúng tôi sẽ cố gắng đẩy mạnh cũng như cải tiến chúng, theo thời gian, những hệ thống này sẽ biến thành những chiếc xe tự lái. Vâng, tôi ở đây để nói với bạn rằng việc đó giống như nói nếu tôi siêng năng tập nhảy, thì một ngày nào đó tôi có thể bay được vậy. Chúng tôi thật sự cần phải làm một cái gì đó khác đi một chút.” Vì vậy, công ty đang nỗ lực sản xuất những chiếc xe tự lái 100% không cần sự góp sức của con người, hay được người trong ngành gọi là “Khả năng tự vận hành cấp độ 5”.
Khả năng của những chiếc xe này rất ấn tượng. Theo lời kể của Urmson tại hội nghị TED 2015: “Xe của chúng tôi đang đi qua Mountain View, và sau đây là những gì chúng tôi đã gặp phải. Một phụ nữ ngồi xe lăn điện đang đuổi lòng vòng theo một con vịt trên đường. Lúc này bạn nhận ra rằng cẩm nang lái xe của DMV1 không hướng dẫn cách xử lý tình huống đó, nhưng các phương tiện của chúng tôi khi gặp phải điều đó có thể giảm tốc độ và cho phép lái xe an toàn.” Những chiếc xe tự vận hành có thể lái an toàn trong mọi hoàn cảnh và điều kiện vẫn chưa được sản xuất. Nhưng chúng tôi nghĩ rằng chúng sẽ sớm xuất hiện.
1. Department of Motor Vehicles: Sở quản lý xe cơ giới của Mỹ.
Khả năng vượt qua Nghịch lý Polanyi của ngôn ngữ máy bắt đầu được đưa vào sử dụng trong các văn phòng hậu cần, và cho đến nay, nó đã chứng minh được năng lực tự động hóa hoàn toàn một cách đáng ngạc nhiên. “Văn phòng hậu cần” là một thuật ngữ bao hàm các công việc tri thức diễn ra ngoài tầm nhìn của khách hàng, gồm mua hàng, kế toán và công nghệ thông tin. Như chúng ta đã thảo luận trước đó, từ lâu, các doanh nghiệp đã tiến hành tự động hoá lượng dữ liệu lớn nhất và các yếu tố được tiêu chuẩn hóa nhất trong văn phòng hậu cần, nhưng phần lớn các công việc thủ công vẫn diễn ra ở hầu hết các công ty.
Một cách để tự động hóa ít nhất một vài công việc này là yêu cầu mọi người áp dụng quy tắc mà họ đang sử dụng, trừ khi khi họ đổi sang một bộ quy tắc hoặc hướng dẫn khác,… Tuy nhiên, quá trình gợi nhớ kiến thức trong các cuộc phỏng vấn sẽ tốn rất nhiều thời gian, khiến mọi người ngại làm việc và có lẽ sẽ không làm hết khả năng. Nhiều khả năng, những người không thường xuyên làm công việc văn phòng hậu cần sẽ không thể nói chính xác và đầy đủ cách họ làm việc cho người khác.
Công ty bảo hiểm Nhật Bản Fukoku Mutual Life đang thực hiện một phương pháp khác. Vào tháng 12 năm 2016, công ty đã tuyên bố nỗ lực sử dụng công nghệ Trí tuệ nhân tạo Watson của IBM để tự động hóa ít nhất một phần công việc của nhân viên xử lý yêu cầu tiền bảo hiểm sức khỏe. Hệ thống sẽ bắt đầu bằng cách trích xuất thông tin liên quan từ các tài liệu do bệnh viện và các cơ sở y tế khác cung cấp, dựa vào đó để điền các mã thích hợp bồi hoàn bảo hiểm, sau đó cung cấp thông tin này cho mọi người. Nhưng theo thời gian, mục đích của hệ thống là nhằm “tìm hiểu lịch sử đánh giá thanh toán trong quá khứ để kế thừa kinh nghiệm và chuyên môn từ các nhân viên đánh giá.” Nói cách khác, công nghệ sẽ học hỏi trong quá trình thực hiện và theo thời gian có thể tiếp quản nhiều công việc hơn từ con người.
Chúng tôi hy vọng sẽ có nhiều nỗ lực như thế này trong tương lai, đồng thời mong muốn sẽ có nhiều phương pháp học tỉ mỉ và học máy khác được lan rộng nhanh chóng. Ví dụ, phần lớn công việc dịch vụ khách hàng là lắng nghe để thấu hiểu nhu cầu của mọi người, sau đó cung cấp câu trả lời hoặc dịch vụ cho họ. Các công nghệ hiện đại có thể đảm nhận công việc phản hồi khi chúng học được các quy tắc tương tác.
Nhưng tìm ra câu trả lời không phải là phần khó nhất để tự động hoá dịch vụ khách hàng, mà chính là bước đầu tiên: lắng nghe và thấu hiểu. Nhận dạng giọng nói và các khía cạnh khác của quá trình xử lý ngôn ngữ tự nhiên là những vấn đề cực kỳ khó khăn trong trí tuệ nhân tạo kể từ khi lĩnh vực này xuất hiện, vì tất cả lý do được mô tả trước đó trong chương này. Các phương pháp mang tính biểu tượng vượt trội trước đây không phải lúc nào cũng hoạt động tốt, song những phương pháp mới hơn dựa trên quy trình học sâu đang tiến bộ nhanh đến mức khiến các chuyên gia cũng phải ngạc nhiên.
Vào tháng 10 năm 2016, một nhóm nghiên cứu của Microsoft Research thông báo rằng họ đã phát triển được một mạng nơ-ron nhân tạo có được “sự tương đồng với con người trong nhận dạng lời nói”, đó cũng là tiêu đề cho bài nghiên cứu của họ. So với các nhà phiên âm mã chuyên nghiệp, hệ thống của họ chính xác hơn trong cả trường hợp thảo luận về một chủ đề cụ thể và trong các cuộc đối thoại mở giữa bạn bè và các thành viên gia đình. Nhận xét về kết quả này, Giáo sư Ngôn ngữ học Geoffrey Pullum đã viết: “Tôi phải thú nhận rằng tôi không bao giờ nghĩ sẽ có ngày hôm nay. Vào những năm 1980, tôi cho rằng việc nhận dạng tự động hoàn toàn lời nói (nghe lời nói đối thoại và viết lại chính xác những gì đã nói) là quá khó đối với máy móc… Các chuyên gia kỹ thuật nghiên cứu lời nói đã hoàn thành điều đó mà không cần dựa vào bất kỳ phân tích cú pháp1 nào: kỹ thuật thuần túy, với sự hỗ trợ từ mô hình thống kê dựa trên lượng dữ liệu thô khổng lồ… Tôi không chỉ nghĩ rằng điều này không xảy ra, mà còn tự tin đánh cược nó sẽ thất bại.”
1. Hay nói cách khác là dựa trên quy tắc. (TG)
Một nhận xét được cho là của nhà khoa học máy tính huyền thoại Frederick Jelinek đã nắm bắt lý do đằng sau sự chuyển đổi rộng rãi trong cộng đồng trí tuệ nhân tạo từ phương pháp dựa trên quy tắc sang phương pháp thống kê. Từ giữa những năm 1980, ông đã quan sát: “Mỗi khi tôi sa thải một nhà ngôn ngữ học, hiệu suất của trình nhận dạng giọng nói lại tăng lên.” Vào giữa những năm 2010, nhóm xử lý các vấn đề liên quan đến phiên âm mã lời nói thành công nhất không có bất kỳ nhà ngôn ngữ học nào, và kết quả của họ khiến cả thế giới phải ngạc nhiên. Chúng tôi rất tự tin rằng vẫn còn nhiều bất ngờ như vậy có thể xảy ra.
Chúng tôi đồng ý với Marc Benioff, Giám đốc Điều hành của Salesforce và là người tiên phong trong ngành công nghệ, rằng chúng ta đang bước vào một thế giới, mà theo cách gọi của ông là “thế giới đầu tiên của trí tuệ nhân tạo”. Giống như chúng tôi, ông ấy nhìn thấy vô số cơ hội để thay thế việc ra quyết định bởi HiPPO bằng một thứ gì đó hoạt động tốt hơn nhiều. Như ông viết: “Nhiều doanh nghiệp vẫn đưa ra những quyết định quan trọng dựa trên bản năng thay vì thông tin… Điều này sẽ thay đổi trong vài năm tới khi trí tuệ nhân tạo trở nên phổ biến hơn, có khả năng sẽ làm cho mọi công ty và mọi nhân viên trở nên thông minh hơn, nhanh hơn và năng suất hơn. Nếu là một vài năm trước, dự đoán như vậy nghe có vẻ như một sự cường điệu điên rồ. Thì bây giờ, có vẻ như nó là một sự đặt cược an toàn.
TÓM TẮT CHƯƠNG
▶ Phương pháp dựa trên quy tắc hoặc mang tính biểu tượng cho trí tuệ nhân tạo hiện đang bất động. Nó dường như khó có thể thịnh hành trong các lĩnh vực rộng, và thậm chí có lẽ không tồn tại trong đó.
▶ Học máy, một lĩnh vực nghệ thuật và khoa học trong xây dựng hệ thống phần mềm có thể phát hiện các mô hình và hình thành các chiến lược hiệu quả sau khi được chứng minh qua nhiều ví dụ. Nó cuối cùng cũng đang thực hiện các hứa hẹn trước đó và hoàn thành công việc có ích.
▶ Các hệ thống học máy trở nên tốt hơn khi chúng lớn hơn, chạy trên phần cứng nhanh hơn, chuyên dụng hơn, có quyền truy cập vào nhiều dữ liệu hơn và chứa các thuật toán cải tiến. Học máy ngày càng tiến bộ nhanh chóng vì tất cả những cải tiến này đang diễn ra.
▶ Mạng nơ-ron nhân tạo đã đạt những thành công tốt nhất thông qua việc học có giám sát, trong đó chú trọng vào các ví dụ học tập. Nhưng chúng lại kém phát triển trong việc học không giám sát, điều mà chính con người sử dụng tìm hiểu về thế giới.
▶ Học có giám sát phù hợp một cách lý tưởng với nhiều nhiệm vụ hiện đang được con người thực hiện, đặc biệt là trong các lĩnh vực khớp mẫu, chẩn đoán, phân loại, dự đoán và đề xuất. Tầm nhìn, nhận dạng giọng nói và các khả năng mà trước đây nằm ngoài khả năng của máy móc hiện được tiến hành ở mức tương đương với con người trong nhiều lĩnh vực.
▶ Chúng ta vẫn còn trong giai đoạn đầu của thời kỳ mở rộng học máy. Học máy sẽ trở nên phổ biến trong các nền kinh tế và xã hội của chúng ta, đặc biệt kể từ khi nó hiện hữu trong điện toán đám mây và theo yêu cầu.
▶ Các hệ thống học máy (và tất cả các dạng trí tuệ nhân tạo khác) vẫn còn hạn chế về mặt kiến thức thông thường.
CÂU HỎI
1. Các hoạt động khớp mẫu, chẩn đoán, phân loại, dự đoán và đề xuất quan trọng nhất của bạn là gì? Bạn có đang khám phá các giải pháp học máy cho bất kỳ hoạt động nào như vậy không?
2. Bạn sẽ xem xét chuyển hoàn toàn sang hệ thống trí tuệ nhân tạo đối với những quyết định hoặc hoạt động quan trọng nào (nếu có)? Bạn sẽ làm gì trong khi duy trì tính hiện hữu của con người trong vòng lặp?
3. Bạn có cảm thấy thoải mái khi ngồi trong một chiếc xe tự lái để đi lại vào mỗi buổi sáng không? Bạn có nghĩ rằng bạn sẽ thoải mái làm điều đó trong năm năm nữa không? Tại sao có hoặc tại sao không?
4. Điền vào chỗ trống: Nếu các đối thủ của chúng ta triển khai một hệ thống học máy thành công cho , chúng ta sẽ gặp rắc rối nghiêm trọng.
5. Chiến lược học máy của bạn là gì? Bạn có thể áp dụng học máy vào tổ chức đến mức độ nào?