Cho đến lúc này, chúng ta đã nói về dữ liệu và những yêu cầu về các công cụ, công nghệ và cơ sở hạ tầng để hiểu rõ dữ liệu. Tuy nhiên, có một thành phần quan trọng khác mà mọi doanh nghiệp cũng cần phải xem xét như là một phần trong chiến lược dữ liệu của họ, đó là: phát triển những kỹ năng và năng lực phù hợp về dữ liệu. Việc trau dồi những kỹ năng nhất định là rất cần thiết để có thể khai thác tối đa dữ liệu. Tất nhiên, kỹ năng phân tích dữ liệu có vai trò rất quan trọng, nhưng khả năng liên kết dữ liệu với nhu cầu của doanh nghiệp hoặc truyền đạt những hiểu biết sâu sắc quan trọng từ dữ liệu đến những người không có nền tảng kỹ thuật cũng quan trọng không kém.
Có hai hướng đi chính để phát triển năng lực liên quan đến dữ liệu. Một là thúc đẩy tài năng trong nội bộ công ty (có thể thông qua việc tuyển dụng các nhà khoa học dữ liệu hoặc đầu tư vào việc đào tạo nhân sự hiện có của bạn), và hướng thứ hai là thuê ngoài (outsourcing) việc phân tích dữ liệu (bằng cách hợp tác với nhà cung cấp dữ liệu bên ngoài hoặc bằng cách tìm nguồn cung ứng cho nhu cầu phân tích của bạn). Cả hai hướng đi nêu trên đều sẽ được làm rõ trong chương này.
Từ quan điểm chiến lược dữ liệu, không có một cách tiếp cận nào phù hợp cho tất cả để xây dựng năng lực dữ liệu trong tổ chức của bạn. Bạn sẽ cần phải được dẫn dắt bởi các mục tiêu và giới hạn chiến lược của mình, chẳng hạn như thời gian và ngân sách. Ví dụ, bạn không những có thể phải tìm cách đào tạo một số nhân viên về phân tích, mà còn cần hợp tác với một đối tác bên ngoài trong khi đội ngũ của bạn đang xây dựng nền tảng kiến thức của họ. Bạn có thể xây dựng và nuôi dưỡng các kỹ năng dữ liệu trong nội bộ hoàn toàn phù hợp với việc ra quyết định và những hoạt động hàng ngày của mình, nhưng sau đó bạn có thể phải cần đến một số nhân lực phân tích bên ngoài cho một dự án dữ liệu sử dụng trong tương lai. Tôi khuyên bạn nên bắt đầu bằng cách xem xét các năng lực về dữ liệu then chốt được chỉ ra trong chương này, xác định lỗ hổng trong tổ chức của mình, và sau đó xây dựng một danh sách mong muốn về cách thức mà bạn sẽ lấp đầy những lỗ hổng một cách lý tưởng.
Sự thiếu hụt kỹ năng về dữ liệu lớn, và ý nghĩa của nó đối với doanh nghiệp
Những kỹ năng về dữ liệu hiện đang khan hiếm, đặc biệt là khi nhắc đến dữ liệu lớn cùng với các công nghệ và ứng dụng mới nổi như học máy, trí tuệ nhân tạo và phân tích dự báo. Nhu cầu về chuyên môn đối với dữ liệu lớn đang tăng lên mỗi ngày khi ngày càng có nhiều công ty muốn khai thác sức mạnh của dữ liệu. Tuy nhiên, đáng tiếc là số lượng người được đào tạo để làm việc với dữ liệu (đặc biệt là số lượng dữ liệu lớn hoặc dữ liệu đặc biệt phức tạp) và biến dữ liệu đó thành những hiểu biết sâu sắc một cách đơn giản thì lại đang phát triển không tương xứng với nhu cầu. Điều này đã tạo ra một thách thức cho những công ty đang muốn tìm cách khai thác các kỹ năng dữ liệu; với các kỹ năng dữ liệu có nhu cầu cao thì rất khó để có thể thu hút người tài, đặc biệt là ở các công ty vừa và nhỏ đang cố gắng để cạnh tranh với các tập đoàn lớn về tiền lương và phúc lợi. Trên thực tế, một cuộc khảo sát vào năm 2016 cho thấy hơn một nửa số nhà lãnh đạo được hỏi đã cảm thấy khả năng thực hiện việc phân tích của họ bị cản trở bởi những khó khăn trong việc tìm kiếm tài năng phù hợp1. Việc khắc phục vấn đề này là một thách thức mà tất cả các công ty đều phải đối mặt, từ đó xuất hiện sự gia tăng của nhiều giải pháp sáng tạo – như tìm nguồn cung ứng phân tích dữ liệu (xem chi tiết ở phần sau của chương này).
Để giải quyết vấn đề tuyển dụng được tài năng thực sự, với việc vai trò của một “nhà khoa học dữ liệu” không được xác định rõ, và có thể được sử dụng để chỉ bất kỳ ai, từ một kỹ sư dữ liệu thiết lập hệ thống back-end thu thập và lưu trữ dữ liệu số cho đến những nhà thống kê xử lý các con số. Ví dụ, tôi đã từng thấy các nhà phân tích kinh doanh tự cho mình là các nhà khoa học dữ liệu mà không hề có hiểu biết gì về công nghệ dữ liệu lớn hoặc các ngôn ngữ lập trình. Và tôi cũng từng thấy nhiều lập trình viên tự gọi mình là nhà khoa học dữ liệu, mặc dù họ vẫn còn thiếu những kỹ năng kinh doanh cần thiết để biến dữ liệu thành những hiểu biết sâu sắc. Tôi tin rằng nhà khoa học dữ liệu thực sự là những người không chỉ hiểu được các khía cạnh về khoa học máy tính và dữ liệu, mà còn cần có các kỹ năng kinh doanh và phân tích quan trọng. Sự kết hợp những kỹ năng chủ yếu này khó có thể tìm được, và có thể sẽ hợp lý hơn khi kết hợp các kỹ năng theo một cách sáng tạo, thích hợp cho tổ chức của bạn – một lần nữa, sẽ được đề cập chi tiết hơn trong phần sau của chương này.
Có những dấu hiệu cho thấy những lỗ hổng kỹ năng sẽ được khắc phục. Khi sự hứng thú dành cho dữ liệu lớn và phân tích ngày càng thu hút được nhiều sự chú ý hơn, càng có nhiều người bị lôi cuốn vào ngành khoa học dữ liệu. Harvard Business Review thậm chí đã đi xa đến mức gọi tên “nhà khoa học dữ liệu” là công việc hấp dẫn nhất của thế kỷ 212 (thậm chí một kẻ truyền giảng về dữ liệu như tôi vẫn nhướng mày vì điều này). Và theo người dùng của Glassdoor.com, nơi cho phép nhân viên đánh giá công việc và người sử dụng lao động của họ một cách ẩn danh, thì trở thành một nhà khoa học dữ liệu chính là công việc tốt nhất ở Mỹ. Công việc đã được công bố với điểm số cao nhất trong báo cáo vào năm 2016 của Glassdoor, và điều này hy vọng sẽ giúp thu hút nhiều tài năng mới đang rất cần cho ngành này3.
Đối với một số người, họ có vẻ ngạc nhiên khi biết được rằng nhà khoa học dữ liệu được chọn là công việc tốt nhất ở Mỹ. Đương nhiên, việc nó được trả lương cao và yêu cầu cao cho những kỹ năng này cũng có nghĩa là các ứng viên tốt nhất có thể lựa chọn những công việc và những nhà tuyển dụng hàng đầu – nhưng nó không có một danh tiếng mỹ miều nào. Hầu hết mọi người hình dung vai trò của nhà khoa học dữ liệu là bị mắc kẹt tại bàn làm việc với việc xử lý các con số cả ngày. Tuy nhiên, trên thực tế, như một vài chuyên gia dữ liệu hoạt động lâu năm đã quan tâm chỉ ra, cuộc sống hàng ngày của một nhà khoa học dữ liệu có thể cực kỳ đa dạng và thú vị. Gregg Gordon, phó chủ tịch của nhóm thực hành dữ liệu lớn tại Kronos, cho biết: “Đó không phải là công việc phải ngồi trong văn phòng cả ngày, chúng tôi thực hiện công việc của mình và áp dụng nó vào các vấn đề mà khách hàng gặp phải. Chúng tôi đang làm việc và tương tác với khách hàng mỗi ngày, nói về những vấn đề thực sự, sau đó cố gắng tái tạo, mô hình hóa và giải quyết chúng”. Alex Krowitz, một thành viên trong nhóm của Gordon và cũng là một người kỳ cựu với 20 năm làm việc với khoa học dữ liệu, nhất quán cho rằng: “Nó rất đáng giá khi bạn có thể nhìn thấy ánh mắt của khách hàng lúc họ nhận ra bạn có thể cung cấp một sự phân tích toàn diện về toàn bộ doanh nghiệp của họ”.
Sự lôi cuốn của việc giải quyết các vấn đề từ thực tế cuộc sống với các giải pháp thực tế rõ ràng là một phần hấp dẫn trong công việc của một nhà khoa học dữ liệu hiện đại. Đặc biệt, khi làm việc với các bộ dữ liệu được thu thập rất nhanh, rất lớn để giải quyết các vấn đề trong thời gian thực, ngay khi chúng vừa xuất hiện, kết quả thường được nhìn thấy ngay lập tức, và điều này có thể cực kỳ đáng giá. Nhưng ngay cả khi kết quả xuất hiện trong một khoảng thời gian lâu hơn, thì tác động mà dữ liệu có thể ảnh hưởng lên doanh nghiệp và phạm vi cho sự thay đổi tích cực đang trở thành một điểm thu hút lớn. Mark Schwarz, phó chủ tịch khoa học dữ liệu tại Square Root, nói với tôi rằng:
“Vào năm 2003, tôi muốn làm việc trong ngành khoa học dữ liệu để có thể đứng trong thang máy bên cạnh một phó chủ tịch kinh doanh hoặc vận hành, và có thể giải thích ngắn gọn cho họ về những gì tôi đã làm mỗi ngày. Tôi là một chuyên gia kỹ thuật, nhưng hầu như toàn bộ thời gian của tôi đều dành cho việc thu thập dữ liệu. Tất cả chúng tôi đều tưởng tượng rằng luôn có ai đó, ở một nơi nào đó sẽ sử dụng tốt dữ liệu để thúc đẩy doanh nghiệp phát triển theo những cách thức hiệu quả. Nhưng trong hầu hết các trường hợp thì thực sự không ai có thể làm được. Tôi đã chuyển sang tập trung ngày càng nhiều vào những vai trò của dữ liệu để thực sự đưa bộ sưu tập dữ liệu đó vào sử dụng trong thực tế. Tôi muốn có thể đứng bên cạnh một phó chủ tịch và nói: ‘Đây là cách mà đội ngũ của tôi đã làm để thúc đẩy doanh thu hoặc lợi nhuận’. Giờ thì tôi đã có thể làm được điều đó.”
Vì vậy, hy vọng là sẽ ngày càng có nhiều người bị hấp dẫn với công việc trong lĩnh vực khoa học dữ liệu. Các nhà giáo dục chắc chắn đang bắt đầu nắm bắt khái niệm này, đặt nền tảng cho việc có nhiều nhà khoa học dữ liệu với trình độ cao, có hiểu biết cho các doanh nghiệp lựa chọn. Trong mười năm tới, chúng ta có thể sẽ chứng kiến một động thái rất khác biệt, nơi mà nhu cầu về các nhà khoa học dữ liệu không còn nằm trong tình trạng cầu vượt xa cung nữa. Tuy nhiên, ở hiện tại, sự thiếu hụt các kỹ năng là điều mà mọi doanh nghiệp cần phải cân nhắc trong những suy xét của họ.
Xây dựng kỹ năng và năng lực nội bộ
Việc tận dụng tối đa dữ liệu không chỉ là kỹ năng về lập trình hoặc phân tích. Trình hướng dẫn kỹ thuật tốt nhất trên thế giới sẽ chẳng ý nghĩa gì nếu bạn không có sự hiểu biết vững chắc về bối cảnh kinh doanh rộng mở hơn và về những gì mà tổ chức đang cố gắng để đạt được. Với ý nghĩ này, sau đây tôi xin đặt ra các kỹ năng để bồi dưỡng mà tôi tin là cần thiết cho bất kỳ tổ chức nào, cho dù điều đó có nghĩa là tuyển dụng những tài năng mới để lấp đầy các lỗ hổng về kỹ năng, hay đào tạo những kỹ năng này cho những tài năng hiện có của bạn. Bí quyết ở đây là xây dựng các đội ngũ với sự pha trộn những kỹ năng phù hợp cho tổ chức của bạn. Ví dụ, điều này có nghĩa là kết hợp một người nào đó với những kỹ năng có liên quan đến phân tích, cùng với một người rất giỏi trong việc truyền tải những hiểu biết sâu sắc đến một đối tượng rộng lớn.
Năm kỹ năng khoa học dữ liệu cần thiết
Một trong những câu hỏi tôi nhận được nhiều nhất là: “Kỹ năng dữ liệu quan trọng nhất là gì?”. Dựa trên kinh nghiệm của tôi, tôi tin rằng năm kỹ năng sau đây là quan trọng nhất để chuyển dữ liệu thành những hiểu biết sâu sắc:
1. Kỹ năng kinh doanh
Bất kỳ một nhà khoa học dữ liệu xuất sắc nào cũng đều nên có sự hiểu biết tường tận về điều gì sẽ khiến cho doanh nghiệp trì trệ, điều gì sẽ làm cho doanh nghiệp phát triển và liệu nó có đang đi đúng hướng hay không. Việc này bao gồm sự hiểu biết về các quy trình kinh doanh chính, những mục tiêu, và các chỉ số chính được sử dụng để đánh giá hiệu suất của công ty, cũng như những gì giúp công ty trở nên nổi bật hơn so với các đối thủ cạnh tranh (Nếu nó không nổi bật, thì tại sao không và cần phải thay đổi những gì?). Kỹ năng giao tiếp cũng là một thành phần quan trọng trong việc trích xuất tối đa giá trị từ dữ liệu, từ các kỹ năng truyền đạt giữa các cá nhân một cách hiệu quả cho đến khả năng trình bày kết quả từ dữ liệu một cách rõ ràng, hấp dẫn.
2. Kỹ năng phân tích
Tất cả những khả năng phát hiện các kiểu mẫu, phân biệt mối liên hệ giữa nguyên nhân và kết quả, và xây dựng các mô hình mô phỏng có thể được gắn kết chặt chẽ với nhau cho đến khi chúng tạo ra kết quả mong muốn đều là những kỹ năng quan trọng. Việc này bao gồm một nền tảng vững chắc trong các gói phân tích tiêu chuẩn ngành (như SAS Analytics, IBM Predictive Analytics và Oracle Data Mining), cũng như hiểu biết sâu sắc về việc diễn giải các báo cáo và hình ảnh để phát hiện ra câu trả lời cho các câu hỏi kinh doanh then chốt.
3. Khoa học máy tính
Máy tính là xương sống của bất kỳ chiến lược dữ liệu nào, vì vậy danh mục mở rộng này bao gồm tất cả mọi thứ từ việc kết nối hệ thống cáp cho đến việc tạo ra các thuật toán học máy phức tạp và xử lý ngôn ngữ tự nhiên. Các ứng cử viên phải nắm vững các công nghệ mã nguồn mở quan trọng (như hệ thống Hadoop đang thịnh hành), vì đây là những nền tảng của các kế hoạch dữ liệu ở nhiều tổ chức.
4. Thống kê và toán học
Những kỹ năng của một nhà thống kê chỉ cho biết về mỗi khía cạnh nhất định trong những hoạt động dữ liệu của tổ chức, từ việc xác định các tập hợp có liên quan và kích thước mẫu thích hợp khi bắt đầu mô phỏng để phục vụ cho việc báo cáo kết quả khi kết thúc. Do đó, việc nắm bắt những số liệu thống kê cơ bản là rất cần thiết, nhưng việc thực hiện một sự giáo dục toàn diện hơn trong lĩnh vực này là điều đáng mong đợi. Toán học cũng vậy, vẫn luôn hữu ích bởi lẽ mặc dù số lượng dữ liệu phi cấu trúc và bán cấu trúc mà chúng ta đang phân tích là rất lớn và còn đang gia tăng, song phần lớn trong đó vẫn được biết đến như là những con số lỗi thời.
5. Sự sáng tạo
Điều này rất quan trọng khi làm việc với dữ liệu lớn. Xét cho cùng, đó là một ngành khoa học mới nổi và không có những quy tắc “bất di bất dịch” nào về mục đích mà một công ty nên sử dụng. Sự sáng tạo ở đây có nghĩa là khả năng áp dụng các kỹ năng chuyên môn đã được đề cập ở trên và sử dụng chúng để tạo ra một thứ có giá trị (chẳng hạn như một sự hiểu biết sâu sắc) bằng một cách khác hơn là làm theo một cách thức đã được xác định từ trước. Bất kỳ ai cũng có thể đi theo một công thức – ngày nay, các doanh nghiệp đều muốn có sự đổi mới để khiến cho họ trở nên khác biệt so với những doanh nghiệp khác, cả về kết quả kinh doanh lẫn hình ảnh mà họ thể hiện trước người tiêu dùng của mình. Với sự bùng nổ về số lượng các tổ chức tận dụng dữ liệu để có được hiểu biết sâu sắc, thì khả năng tạo ra những cách thức mới đầy sáng tạo để làm việc với dữ liệu cũng là một kỹ năng thực sự rất đáng mong đợi.
Sự đa dạng hóa các loại kỹ năng này là những gì mà chúng ta đang nhìn thấy trên toàn bộ ngành dữ liệu lớn. Như Tye Rattenbury, giám đốc khoa học dữ liệu tại Trifacta đã nói với tôi:
“Nếu bạn nhìn vào phần mô tả công việc của ngành khoa học dữ liệu từ 5 năm trước, về cơ bản nó là ’trình độ cao cấp, có kỹ năng máy tính, mô hình tiên đoán ’. Giờ đây chúng chỉ là 1/3 trong số những yêu cầu đặt ra – 2/3 còn lại là ’phối hợp tốt với những người khác ’, ’biết cách báo cáo và giao tiếp ’,...”
Khi các tổ chức tìm kiếm để có được ngày càng nhiều từ dữ liệu, thì việc chúng ta mong đợi nhiều hơn từ những người làm việc với dữ liệu cũng là lẽ tự nhiên. Rattenbury đồng ý rằng: “Thật tuyệt vời khi mọi người thật thông minh và có thể làm việc một cách thành thạo, nhưng họ cần phải có khả năng ứng dụng sự tuyệt vời đó vào doanh nghiệp, để từ đó có thể làm nên chuyện”.
Sự đa dạng ngày càng tăng của các loại kỹ năng một phần cũng là kết quả của cách thức mà những tổ chức được cấu trúc như hiện nay. Trong khi khoa học dữ liệu trước đó đã từng là một nhóm tài năng riêng biệt, có vị trí vững chắc trong lĩnh vực công nghệ thông tin, thì bây giờ nó đang bắt đầu thấm nhuần vào các phòng ban riêng lẻ trong toàn bộ tổ chức. Như Rattenbury giải thích: “Phiên bản hiện đại là nhắm vào nhóm khoa học dữ liệu tập trung và tách họ ra – hai trong số các nhà khoa học dữ liệu sẽ thực hiện marketing, một trong số họ sẽ thiết kế sản phẩm, một người khác sẽ bán hàng… và họ sẽ được gắn bó hoàn toàn với những nhóm đó”.
Tuyển dụng nhân tài mới
Nếu dữ liệu là một phần cốt lõi trong doanh nghiệp của bạn và bạn có ngân sách dồi dào dành cho việc tuyển dụng, thì việc tuyển các nhà khoa học dữ liệu là một sự đầu tư đáng giá. Nếu bạn có thể tìm thấy những ứng viên hội tụ đủ cả năm đặc điểm được liệt kê ở trên, thì họ có khả năng sẽ mang lại một giá trị lớn cho công ty. Tuy nhiên, theo kinh nghiệm của tôi, việc tuyển dụng các nhà khoa học dữ liệu sở hữu tất cả những kỹ năng này là phương án rất tốn kém và khó khăn đối với nhiều công ty. Bạn sẽ phải đối mặt với những đối thủ cạnh tranh khắc nghiệt, và bạn vẫn có nguy cơ không đạt được những khả năng hay các đội nhóm mà bạn thực sự cần. Vì vậy, trong khi việc hội tụ đủ cả năm kỹ năng là rất quan trọng để trích xuất giá trị tối đa từ dữ liệu, bạn có thể sáng tạo một chút trong công việc tuyển dụng của mình.
Ví dụ, sẽ có ý nghĩa hơn khi bạn tuyển dụng những người có kỹ năng phân tích (như các nhà toán học, những người có bằng cấp định lượng, hoặc những người có nền tảng thống kê), và sau đó đào tạo họ về những công cụ dữ liệu lớn mà bạn đang sử dụng. Hoặc bạn có thể tuyển dụng một ứng viên với kỹ năng khoa học máy tính và óc sáng tạo vượt trội dù ít kinh nghiệm kinh doanh thực tế. Kết hợp ứng viên đó với một người trong doanh nghiệp có tư duy chiến lược mạnh mẽ và thực sự hiểu rõ nhu cầu của tổ chức chính là một giải pháp tuyệt vời. Về cơ bản, bất cứ khi nào mà bạn cần tìm cách đưa những người mới vào tổ chức, thì hãy tập trung vào việc tìm kiếm sự cân bằng giữa các kỹ năng phù hợp nhất với mình. Hơn nữa, dù ở bất kỳ vị trí nào, khả năng và mong muốn phát triển là vô cùng có giá trị. Một người nào đó không thể đáp ứng tất cả các điều kiện trên nhưng lại ham học hỏi các kỹ năng mới và phát triển cùng với doanh nghiệp sẽ luôn phù hợp hơn một người luôn cố chấp theo ý họ và không muốn học hỏi dù cho họ có nhiều kinh nghiệm hay hiểu biết bao nhiêu đi chăng nữa. Thế giới dữ liệu đang chuyển động nhanh chóng, cũng như những công nghệ và ứng dụng mới đang nổi lên mọi lúc, nghĩa là khả năng thích nghi và học hỏi cũng ngày càng trở nên quan trọng hơn.
Chúng ta hãy cùng xem Walmart tuyển dụng tài năng dữ liệu của họ như thế nào. Mandar Thakur, nhà tuyển dụng cấp cao của bộ phận công nghệ tại Walmart, đã nói với tôi:
“Chúng tôi cần những người có niềm đam mê tuyệt đối dành cho dữ liệu – những người yêu thích dữ liệu và có thể phân chia dữ liệu, khiến cho dữ liệu thực hiện được những điều họ muốn. Tuy nhiên, có một khía cạnh rất quan trọng mà chúng tôi luôn tìm kiếm, có lẽ sẽ giúp phân biệt được một nhà phân tích dữ liệu với các nhà công nghệ khác. Nó sẽ cải thiện theo cấp số nhân triển vọng nghề nghiệp của họ nếu họ có thể kết hợp kiến thức kỹ thuật và niềm đam mê dữ liệu này với các kỹ năng giao tiếp và trình bày tuyệt vời.”
Nói cách khác, cũng như việc có thể rút ra được những hiểu biết sâu sắc quan trọng ngay cả với những dữ liệu không mong đợi nhất, họ phải có khả năng giải thích những hiểu biết sâu sắc này cho một căn phòng đông đủ nhân viên kinh doanh và marketing (thường không giỏi về kỹ thuật). “Một người sở hữu sự kết hợp các kỹ năng này có thể vươn lên hàng đầu rất nhanh”, Thakur giải thích.
Hầu hết những ứng viên về dữ liệu của Walmart vẫn đi theo nền tảng “truyền thống” trong các chuyên ngành học thuật cần thiết để phân tích dữ liệu (như thống kê, toán học, khoa học máy tính và phân tích kinh doanh). Kiến thức làm việc với Python hoặc R – hai trong số những ngôn ngữ lập trình được sử dụng phổ biến nhất dùng để phân tích các tập dữ liệu lớn, cũng thường được mong đợi. Thách thức lớn nhất là việc tìm kiếm các ứng viên giàu kinh nghiệm trong các ứng dụng phân tích tiên tiến nhất, chẳng hạn như những ứng dụng liên quan đến học máy. Nhiều người sẽ không có cơ hội học được điều này ở trường, và các chuyên gia thường là phải tự học. Một thử thách khác là việc thu hút các tài năng từ Silicon Valley đến làm việc tại trụ sở của Walmart ở Bentonville, Arkansas. Để hỗ trợ cho việc này, Walmart gần đây đã chạy một chiến dịch tuyển dụng trên các phương tiện truyền thông xã hội bằng cách sử dụng hashtag trên Twitter #lovedata (yêu thích dữ liệu) để tung hồ sơ trực tuyến của mình ra cộng đồng khoa học dữ liệu trực tuyến. Họ cũng đã tổ chức các cuộc thi phân tích dữ liệu sử dụng nguồn lực cộng đồng (xem ở phần sau của chương) và cung cấp việc làm cho những người tham gia có triển vọng nhất. Thông qua giới thiệu cũng là một cách khác để tìm kiếm nguồn ứng viên giá trị – những người hâm mộ dữ liệu là một cộng đồng trực tuyến đang hoạt động, vì vậy nếu bạn cung cấp cho họ một công việc tuyệt vời, thì có khả năng họ sẽ lan truyền tin này đến những đồng nghiệp của họ.
Walmart cũng nhấn mạnh sự cần thiết trong việc nâng cao kỹ năng kinh doanh của các nhân sự mới. Phân tích và dữ liệu lớn giờ đây đã được tích hợp vào mọi ngành dọc trong Walmart ; vì vậy, một khi tham gia vào đội ngũ, mỗi nhân viên mới phải có trách nhiệm tham gia vào Chương trình Analytics Rotation Program – và dành một khoảng thời gian làm việc trong mỗi bộ phận để có cái nhìn tổng quan về cách thức mà việc phân tích được sử dụng trong toàn công ty. “Điều này cho phép họ kết hợp kiến thức phân tích của họ – cho dù họ đã đạt được nó trong học tập hoặc kinh nghiệm làm việc – và giúp đồng hóa kiến thức đó với những gì mà Walmart đang làm trong các bộ phận khác nhau ở doanh nghiệp của họ”, Thakur nói.
Đào tạo và nâng cao kỹ năng đội ngũ nhân viên hiện tại
Thay vì tuyển các nhà khoa học dữ liệu hội tụ đủ cả năm kỹ năng cần thiết, bạn có thể xây dựng thêm dựa trên các kỹ năng đã có trong tổ chức của mình và đào tạo các nhân viên hiện tại để lấp đầy những lỗ hổng. Do đó, như là một phần trong bất kỳ chiến lược dữ liệu nào, việc xem xét phát triển những nhân viên hiện có của mình bất cứ khi nào có thể luôn là một ý tưởng tuyệt vời. Cũng giống như việc tuyển dụng nhân viên mới vậy, chìa khóa để phát triển một cách thành công những nhân lực hiện có là cân bằng sự hiểu biết về doanh nghiệp với các kỹ năng phân tích và kỹ thuật quan trọng. Điều này có thể đạt được bằng nhiều cách – ví dụ, bạn có thể đào tạo các nhà phân tích kinh doanh về việc sử dụng các công cụ dữ liệu lớn.
Nâng cao kỹ năng cho lực lượng lao động đòi hỏi một sự đầu tư kịp thời, nhưng không có nghĩa là một sự đầu tư lớn về mặt tài chính. Rất nhiều trường đại học đang cung cấp các khóa học về khoa học dữ liệu và có rất nhiều chương trình trực tuyến miễn phí. Một tên tuổi lớn đang tạo nên làn sóng trong nền giáo dục dữ liệu lớn là IBM. Sáng kiến về trường đại học Big Data với một loạt khóa học trực tuyến miễn phí đã thu hút được hơn 400.000 học viên. Các học viên có thể đăng ký độc lập ở nhà và làm việc với tốc độ của riêng mình (Tuy nhiên, IBM cũng làm việc với các đối tác để điều chỉnh các khóa học của mình nhằm đáp ứng nhu cầu của các tổ chức riêng lẻ). Mặc dù Đại học Big Data được sở hữu và quản lý bởi IBM, nhưng nó được xem là một “cộng đồng” chứ không phải là một bộ phận của tổ chức, và các khóa học của nó được thiết kế như là một nền tảng bất khả tri đầy đủ. Như Leon Katsnelson, giám đốc của IBM và CTO (giám đốc kỹ thuật) cho nền tảng phân tích công nghệ mới nổi, đã nói với tôi: “Chúng tôi dạy mọi người, chúng tôi giúp mọi người đạt được các kỹ năng, nhưng chúng tôi không ở đó để dạy họ cách sử dụng các sản phẩm của IBM”.
Tiền thường được xem là một trong những trở ngại lớn nhất cản trở con đường đến với giáo dục của nhiều người và nhiều doanh nghiệp, vì vậy IBM không phải là nơi duy nhất cung cấp các khóa học trực tuyến miễn phí về dữ liệu lớn và phân tích. Ngày càng có nhiều trường cao đẳng và đại học mở các khóa học trực tuyến, nơi mà mọi người có thể được học miễn phí. Ví dụ, khóa học Introduction to Data (Giới thiệu về Dữ liệu) của Đại học Washington luôn có sẵn trực tuyến tại Coursera. Nó bao gồm lịch sử của khoa học dữ liệu, các kỹ thuật và công nghệ then chốt (như MapReduce và Hadoop), cũng như các cơ sở dữ liệu truyền thống, thiết kế thử nghiệm bằng cách sử dụng mô hình thống kê và trực quan hóa kết quả. Harvard cũng đã cho phép khóa học Data Science (Khoa học Dữ liệu) của họ có sẵn trực tuyến và miễn phí. Ngoài ra, Stanford còn có khóa học Statistics One (Thống kê 1), cũng có sẵn trên Coursera. Nhiều khóa học về khoa học dữ liệu yêu cầu kiến thức cơ bản về lập trình, vì vậy sự hiểu biết về ngôn ngữ lập trình (như Python) sẽ rất hữu ích. May mắn thay, Coursera, Codecademy và MIT đều cung cấp các khóa học miễn phí về Python được thiết kế dành cho người mới bắt đầu học. Ngoài ra còn có các khóa học trực tuyến miễn phí về trực quan hóa dữ liệu, chẳng hạn như khóa học Visualization (Trực quan hóa) của UC Berkeley luôn có sẵn trên trang web UC Berkeley.
Nếu có thể, bạn cũng nên tìm cách cải thiện khả năng phân tích dữ liệu trên toàn bộ doanh nghiệp của mình – thay vì chỉ dựa vào một vài người để biến dữ liệu thành những hiểu biết sâu sắc, bạn nên làm cho việc này trở nên dễ dàng nhất có thể cho nhiều phòng ban trong doanh nghiệp để phân tích dữ liệu và sử dụng nó cho việc đưa ra quyết định của họ. Có nhiều công cụ và dịch vụ hiện đang phát triển đến mức dư thừa đã được thiết kế để tạo điều kiện phân tích dữ liệu lớn bên ngoài phòng thí nghiệm công nghệ thông tin và toàn bộ tổ chức, làm cho thuật ngữ “các công dân khoa học dữ liệu” – tức các nhà khoa học phi dữ liệu với một số chứng nhận về kỹ năng dữ liệu khoa học – trở nên phổ biến hơn. Trên thực tế, nhu cầu về các công dân khoa học dữ liệu đã được dự báo là sẽ tăng nhanh, hơn 5 lần, so với nhu cầu đối với những người được đào tạo cụ thể (như các nhà khoa học dữ liệu).
Trong Chương 3, chúng tôi đã cho các bạn thấy cách thức mà nhà bán lẻ Sears gần đây đã trao quyền cho 400 nhân viên từ các hoạt động trí tuệ doanh nghiệp (BI) của họ đến việc thực hiện phân chia khách hàng theo định hướng dữ liệu lớn, tiên tiến – một công việc mà trước đó chỉ được thực hiện bởi các chuyên gia phân tích dữ liệu lớn – và tạo ra hàng trăm hàng nghìn đô la chỉ tính đến giá trị trong hiệu quả chi phí chuẩn bị dữ liệu. Sears đã sử dụng các công cụ được cung cấp bởi Platfora để cho phép nhân viên BI của mình được đào tạo lại và tự điều chỉnh bản thân một cách hiệu quả để trở thành các nhà phân tích dữ liệu lớn. Phó chủ tịch mảng sản phẩm của Platfora, Peter Schlamp đã chia sẻ với tôi:
“Phân loại khách hàng là một vấn đề rất phức tạp. Nó không phải là điều mà một người dùng Excel bình thường có thể làm được. Có một khoảng cách giữa việc cần một nhà khoa học dữ liệu – một nhà khoa học thực sự được đào tạo có thể thực hiện việc phân loại [có nguồn gốc từ dữ liệu lớn], với một nhà phân tích – những người mà vốn dĩ họ có rất nhiều. Mục tiêu của họ là tạo ra một thế hệ người dùng mới – các công dân khoa học dữ liệu – từ một nhóm các nhà phân tích trí tuệ doanh nghiệp. Và bằng cách này, họ đã có thể đưa ra quyết định tốt hơn về việc nên hiển thị những sản phẩm nào đến người dùng khi họ truy cập trang web của mình.”
Điều này không có nghĩa là các doanh nghiệp không còn cần đến các nhà khoa học dữ liệu có học thức và giàu kinh nghiệm nữa, mà nó có nghĩa là dữ liệu đang dần trở nên dân chủ hóa hơn. Và đây là một điều tốt. Xét cho cùng, việc đạt được “sự tin tưởng” trên toàn tổ chức thường được đặt ra như là một trở ngại chính mà các dự án dữ liệu đều phải vượt qua. Cách thức nào tốt hơn để vượt qua trở ngại này thay vì trao quyền cho nhiều người hơn để làm việc với dữ liệu?
Thuê đội ngũ bên ngoài phân tích dữ liệu
Khi bạn không thể nâng cao kỹ năng cho đội ngũ nhân viên của mình hoặc không tuyển dụng được người mới, hay khi bạn cần bổ sung năng lực nội bộ, bạn cần phải xem xét đến việc thuê đội ngũ bên ngoài phân tích dữ liệu cho mình. Có một thị trường rộng lớn các nhà cung cấp dữ liệu ngoài kia với những người có thể xử lý dữ liệu – và thị trường đó đang phát triển mạnh. Cho dù bạn đang tìm kiếm một dịch vụ tất-cả-trong-một bao gồm toàn bộ mọi thứ từ việc thu thập dữ liệu đến việc trình bày các hiểu biết sâu sắc chính (xem phần “Dữ liệu lớn là một dịch vụ” ở Chương 8), hay bạn chỉ cần trợ giúp cho việc phân tích những dữ liệu đã có, chắc chắn sẽ có một nhà cung cấp nào đó có thể đáp ứng nhu cầu của bạn. Một số nhà cung cấp dữ liệu thậm chí còn chuyên về lĩnh vực và ngành nghề cụ thể, chẳng hạn như bán lẻ hoặc ngân hàng. Khi nói đến các nhà cung cấp là bên thứ ba, việc thuê một đối tác dữ liệu lớn thường là lựa chọn phổ biến nhất. Tuy nhiên, nếu bạn không muốn bị ràng buộc với một nhà cung cấp cụ thể, bạn có thể cân nhắc việc thu thập các phân tích dữ liệu của riêng bạn. Sau đây tôi sẽ xem xét cả hai lựa chọn này.
Hợp tác với một nhà cung cấp dịch vụ dữ liệu
Những nhà cung cấp dịch vụ dữ liệu lớn nhất đều là các tên tuổi lớn như Facebook, Amazon và IBM, nhưng chắc chắn bạn không hề bị giới hạn bởi các tập đoàn lớn. Có rất nhiều nhà thầu nhỏ hơn ngoài kia và họ có thể cung cấp một dịch vụ được cá nhân hóa, phù hợp hơn hoặc có kiến thức chuyên môn về ngành của bạn. Trên thực tế, theo kinh nghiệm của tôi, các nhà cung cấp cụ thể theo ngành đang trở thành một tiêu chuẩn trái ngược với những nhà cung cấp tổng quát lớn. Mặc dù các nhà cung cấp có tên tuổi lớn có thể sở hữu các tập dữ liệu khổng lồ và đội ngũ nhà phân tích ấn tượng mà họ có thể tùy ý sử dụng, nhưng họ không nhất thiết sẽ là phương án tốt nhất nếu chiến lược của bạn yêu cầu những thông tin rất cụ thể.
Thật không may, ngành công nghiệp dữ liệu không được quy định hoặc được công nhận giống như các chuyên ngành khác (như kế toán và bảo hiểm). Do đó, khi tìm kiếm nhà cung cấp từ bên thứ ba, bạn nên bắt đầu với các đề xuất từ mạng lưới quen biết và những liên lạc của mình bất cứ khi nào có thể. Nếu không thể, vẫn luôn có nhiều nghiên cứu tình huống dữ liệu có sẵn trực tuyến và trong sách (bao gồm cuốn sách của tôi Big Data in Practice: How successful companies used big data analytics to deliver extraordinary results4), và những thứ này sẽ giúp bạn nhận ra các nhà cung cấp đang thực hiện công việc một cách nổi trội và sáng tạo. Bạn cũng nên xem xét liệu kiến thức chuyên ngành ở lĩnh vực kinh doanh của bạn có quan trọng hay không, vì điều này sẽ cho bạn biết thêm về quá trình lựa chọn của mình.
Tôi muốn nói rằng năm kỹ năng dữ liệu then chốt được trình bày ở phần đầu của chương này cũng được áp dụng khi bạn cần thuê một nhà cung cấp là bên thứ ba, và ít nhất chúng cũng nên được xem như là một yêu cầu cơ bản cho các cuộc trao đổi. Ví dụ, kỹ năng sáng tạo và kinh doanh cũng quan trọng như kỹ năng phân tích nếu bạn đang muốn tận dụng tối đa dữ liệu của mình. Do đó, điều quan trọng là bạn nên hợp tác với một nhà cung cấp hiểu được những gì bạn cố gắng đạt được trong doanh nghiệp. Đối tác càng hiểu rõ về các câu hỏi kinh doanh then chốt, về mục tiêu chiến lược của bạn, và những thách thức phải đối mặt khi bạn hướng tới những mục tiêu đó, thì càng có nhiều khả năng họ sẽ tìm được những hiểu biết sâu sắc mà bạn thực sự cần. Hãy luôn yêu cầu các ví dụ về những khách hàng mà nhà cung cấp đã từng làm việc cùng trong quá khứ – ngay cả khi bạn đã đọc về công việc của họ trong những dự án trước đó, hoặc họ đã được một mối quan hệ đáng tin cậy giới thiệu cho bạn. Bạn sẽ muốn tìm hiểu càng nhiều càng tốt về các dự án trước đây của họ, những thách thức chính là gì, và quan trọng là kết quả cụ thể mà khách hàng đã tìm được khi làm việc với nhà cung cấp đó.
Cuối cùng, bất cứ khi nào có thể, bạn nên có sẵn bản dự thảo chiến lược dữ liệu của mình trước khi đến gặp các nhà cung cấp dữ liệu. Quan trọng là bạn phải hiểu rõ những gì mà bạn đang cố gắng đạt được với dữ liệu trước khi bạn có thể tìm thấy một đối tác phù hợp để giúp bạn đạt được điều đó.
Bạn có còn nhớ chuỗi nhà hàng Dickey’s Barbecue Pit trong Chương 2 không? Chuỗi nhà hàng phục vụ này chính là một ví dụ tuyệt vời về sự hợp tác thành công với một nhà cung cấp dịch vụ dữ liệu. Công ty có một đội ngũ nhân viên công nghệ thông tin làm việc toàn thời gian gồm 11 người, bao gồm cả hai nhân viên chuyên phân tích, nhưng họ cũng làm việc với một đối tác dữ liệu là iOLAP. iOLAP đã cung cấp cơ sở hạ tầng dữ liệu phục vụ cho hoạt động dữ liệu lớn của Dickey và phối hợp hoạt động chặt chẽ với công ty trong việc sử dụng liên tục dữ liệu của họ để cải thiện việc ra quyết định. Theo kinh nghiệm của Dickey, việc tìm kiếm những người có kỹ năng dữ liệu phù hợp và thuyết phục họ áp dụng những kỹ năng đó vào “thế giới thịt nướng” là một thách thức khá lớn. “Có một khoảng cách rất lớn giữa những kỹ năng trên thị trường so với nhu cầu thực tế. Đối với chúng tôi, một phần của thử thách không chỉ là tìm kiếm những người có kỹ năng phù hợp – thuyết phục họ rằng thịt nướng thực sự chính là dữ liệu lớn”, CIO Laura Rea Dickey của công ty Dickey cho biết. Trong trường hợp này, việc hợp tác với một nhà cung cấp bên ngoài đã giúp bổ sung tài năng nội bộ cho công ty và lấp đầy những lỗ hổng về kỹ năng đó. Như Dickey đã nói với tôi:
“Nhóm của chúng tôi có lẽ lớn hơn một chút so với một nhóm nội bộ truyền thống của một doanh nghiệp kinh doanh nhà hàng, nên nó đòi hỏi phải có một đối tác. Chúng tôi đã rất may mắn khi chọn được một đối tác phù hợp. Chúng tôi có một đối tác làm việc trực tiếp trong văn phòng của mình ít nhất 20 giờ một tuần và chúng tôi luôn phối hợp chặt chẽ với họ. Điều này đã giúp lấp dần lỗ hổng. Những lỗ hổng về thiếu hụt kỹ năng sẽ còn tệ đến mức nào nếu chúng tôi không có quan hệ đối tác như thế này.”
Đây là một cân nhắc hữu ích khác khi bạn lựa chọn một nhà cung cấp dữ liệu – thời gian sẽ là bao lâu để bạn có thể chấp nhận các đối tác, và họ sẽ làm việc như thế nào với đội ngũ hiện tại của bạn?
Kaggle: tận dụng nguồn lực cộng đồng các nhà khoa học dữ liệu
Các công ty trên toàn thế giới đang nhận ra rằng có một sự thiếu hụt nghiêm trọng các nhà khoa học dữ liệu được đào tạo, và nhu cầu về tài năng vượt xa khả năng sẵn có (ít nhất là bây giờ). Vậy thì việc tận dụng nguồn lực cộng đồng về phân tích dữ liệu có phải là một phần nào đó của giải pháp? Kaggle, nền tảng về nguồn lực cộng đồng cho việc phân tích dữ liệu, chắc chắn cũng nghĩ như vậy. Về cơ bản, Kaggle hoạt động như là một bên trung gian: các công ty và tổ chức mang dữ liệu của họ (bất kể nó là gì), thiết lập một vấn đề để giải quyết cũng như thời hạn hoàn thành, và đưa ra một giải thưởng. Sau đó, đội quân các nhà khoa học dữ liệu chiến lược của Kaggle sẽ cạnh tranh với nhau để đưa ra giải pháp tốt nhất. Đó là một ý tưởng hấp dẫn. Cho đến nay, các “đấu thủ” đã cạnh tranh để giải quyết các vấn đề khác nhau, từ phân tích hồ sơ bệnh án để dự đoán bệnh nhân nào có thể cần nhập viện, đến việc quét qua không gian vũ trụ sâu thẳm để tìm kiếm dấu vết của vật chất tối. Nhà khoa học đứng đầu của Google – một trong nhiều công ty đã sử dụng dịch vụ của Kaggle – Hal Varian đã mô tả Kaggle như là “một cách để tập hợp năng lực trí tuệ của các nhà khoa học dữ liệu tài năng nhất thế giới, và làm cho nó có thể tiếp cận đến các tổ chức ở mọi quy mô khác nhau”.
Công ty có trụ sở đặt tại San Francisco và được thành lập vào năm 2010, lấy cảm hứng từ một cuộc thi do Netflix tổ chức vào năm trước đó. Công ty hoạt động trong lĩnh vực phát phim ảnh và tivi trực tuyến đã thách thức công chúng khi đưa ra các thuật toán tốt hơn nhằm dự đoán những gì khách hàng của họ muốn xem tiếp theo, giúp họ cải thiện các công cụ đề xuất của riêng mình. Kể từ đó, Netflix tiếp tục sử dụng Kaggle để tổ chức các cuộc thi sau này của họ, một lần nữa chứng tỏ được nền tảng của nó đã thành công như thế nào.
Dữ liệu thường được mô phỏng nhằm tránh các vấn đề riêng tư xoay quanh việc các công ty đưa ra thông tin bí mật, hoặc dữ liệu nhạy cảm về mặt thương mại có thể bị rơi vào tay các đối thủ cạnh tranh nếu được cung cấp trên một nền tảng công khai. Và đối với bản thân các nhà phân tích, bất cứ ai cũng đều có thể đăng ký với Kaggle và tham gia hầu hết các cuộc thi của họ. Tuy nhiên, có một số cuộc thi nhất định sẽ được dành riêng cho những “dân chuyên nghiệp”: những thành viên của trang web đã chứng tỏ được sự nhiệt thành của họ trong các cuộc thi trước đó. Giải thưởng thường là tiền mặt, nhưng không phải lúc nào cũng vậy; một số doanh nghiệp đã cung cấp việc làm toàn thời gian cho những người chiến thắng cuộc thi.
Khi Walmart tìm đến Kaggle cùng với một vấn đề về dữ liệu, họ đã cung cấp cả một công việc chứ không chỉ là một giải thưởng bằng tiền mặt. Như Mandar Thakur đã nói với tôi:
“Khoảng cách giữa cung và cầu luôn ở đó, đặc biệt là khi nói đến một ngành công nghệ mới nổi. Vì vậy, chúng tôi đã tìm ra những cách thức cải tiến đầy sáng tạo để tìm kiếm tài năng cho các đội ngũ phân tích và khoa học dữ liệu của mình. Chúng tôi luôn tìm kiếm những tài năng hàng đầu có thể tham gia, đóng góp và tạo bệ phóng cho chúng tôi hơn nữa.”
Đối với cuộc thi của Walmart, người tham gia được cung cấp dữ liệu về lịch sử bán hàng được mô phỏng từ một số cửa hàng, cùng với những thời điểm và chi tiết về các sự kiện quảng cáo, chẳng hạn như các ngày giảm giá và các ngày lễ, những ngày được cho là có ảnh hưởng đến doanh thu của những mặt hàng được trưng bày. Các thí sinh được giao nhiệm vụ tạo ra các mô hình dự đoán cho thấy lịch trình sự kiện sẽ ảnh hưởng đến doanh số bán hàng trên mỗi phòng ban như thế nào khi dữ liệu bán hàng được cung cấp sẵn.
Trong kết quả của cuộc thi đầu tiên được tổ chức vào năm 2014, một số người đã được tuyển dụng vào nhóm phân tích của Walmart, và cuộc thi đã được tiếp tục tổ chức lại vào năm sau đó với hy vọng tìm được nhiều hơn những người như vậy (Trong cuộc thi lần thứ 2, các thí sinh được yêu cầu dự đoán thời tiết sẽ ảnh hưởng đến việc bán những sản phẩm khác nhau như thế nào). Một trong những thí sinh chiến thắng, Naveen Peddamail, hiện đang làm việc tại một công ty bán lẻ khổng lồ ở Bentonville, thành phố Arkansas với tư cách là một nhà phân tích thống kê cao cấp. Anh ấy nói với tôi rằng:
“Tôi đã có một công việc nhờ vào sự tư vấn, do đó tôi thực ra chỉ lướt qua trang Kaggle như là một sở thích mà thôi. Tôi tìm thấy thử thách của Walmart và đã nghĩ rằng mình nên tham gia vào thử thách này. Tôi đã cố để thực hiện một số phân tích dự báo. Sau khi chuẩn bị xong và gửi đi mô hình của mình, tôi đã lọt vào top những thí sinh đứng đầu và được mời đến gặp nhóm phân tích của Walmart.”
Hiểu được rằng các kỹ năng giao tiếp và các kỹ năng kinh doanh khác cũng quan trọng như các kỹ năng phân tích, Walmart đã phải đưa thêm yếu tố này vào quá trình tuyển dụng của họ. Do đó, những người tham gia cuộc thi lọt vào top đầu đã chứng tỏ được kỹ năng của họ trong việc phân tích thô, đã được mời đến để đánh giá thêm tại trụ sở chính của công ty. Cuối cùng, công việc đã được giao cho những người thể hiện rõ khả năng trong việc báo cáo và truyền đạt, cũng như có khả năng về phân tích.
Thakur nói rằng vẫn còn những lợi ích khác ngoài việc tìm đủ vị trí tuyển dụng cho cả Walmart và cộng đồng phân tích nói chung: “Kaggle đã tạo được sự chú ý cho Walmart và tổ chức phân tích của chúng tôi. Mọi người luôn biết Walmart đã tạo ra rất nhiều dữ liệu, nhưng phần tuyệt vời nhất chính là họ thấy rằng chúng tôi sử dụng nó một cách có chiến lược như thế nào”.
Các cuộc thi khác thách thức những người tham gia dự đoán khách hàng nào có khả năng phản hồi nhiều nhất đối với chiến dịch marketing thông qua thư trực tiếp, sử dụng dữ liệu cá nhân mô phỏng, xác định hiện tượng vật lý bằng dữ liệu từ máy gia tốc hạt lớn của CERN và dự đoán các loại tội phạm sẽ được thực hiện tại San Francisco bằng cách sử dụng dữ liệu tội phạm nhân khẩu học lịch sử.
Kaggle cho thấy rằng các nhà khoa học dữ liệu tuyệt vời có thể đến từ bất cứ đâu. Họ không nhất thiết phải luôn có một nền tảng giáo dục chính thống về thống kê, toán học hoặc khoa học máy tính như chúng ta thường kỳ vọng. Tư duy phân tích có thể được phát triển trong nhiều lĩnh vực của cuộc sống. Thật vậy, Thakur cho biết, đối với Walmart, thông qua cách tiếp cận từ nguồn lực cộng đồng đã đưa đến một số cuộc gặp gỡ thú vị mà vốn dĩ sẽ không được xem xét cho một cuộc phỏng vấn nếu chỉ dựa trên hồ sơ cá nhân của họ. Chẳng hạn như, có một ứng cử viên vốn có nền tảng rất mạnh về vật lý nhưng lại không hề có một nền tảng phân tích chính thức: “Anh ta có một nhóm những kỹ năng khác biệt – và nếu chúng tôi không đi theo con đường của Kaggle, chúng tôi sẽ không có được anh ấy”.
Việc tận dụng nguồn lực cộng đồng sở hữu một tiềm năng lớn nhằm xác định được những tài năng mới nổi và cung cấp cho các doanh nghiệp những cách thức mới để thu hút nguồn nhân lực có thể giúp họ giải quyết những vấn đề của mình, cũng như trả lời các câu hỏi kinh doanh quan trọng. Và bởi vì yếu tố cạnh tranh sẽ đảm bảo những người tham gia sẽ cố gắng để chắc chắn rằng ý tưởng của họ nổi bật hơn so với những người khác, điều này giúp khuyến khích tư duy vượt trội và có thể dẫn đến một số giải pháp rất sáng tạo cho doanh nghiệp. Vì vậy, nếu bạn đang cố gắng thu hút tài năng hoặc vì lý do nào đó bạn không muốn hợp tác với một nhà cung cấp dữ liệu, thì chắc chắn việc tận dụng nguồn lực cộng đồng cho việc phân tích dữ liệu của bạn là một việc rất đáng để xem xét. Đó là một cách thức tuyệt vời để bổ sung kỹ năng, tiếp cận trí tuệ phân tích bổ sung và đưa ra dự đoán về các dự án dữ liệu mới.
Chú thích
1. Josh Bersin, Jason Geller, Nicky Wakefield và Brett Walsh (2016), Báo cáo xu hướng vốn nhân lực năm 2016, Deloitte Consulting, ngày 29 tháng 2, xem tại: https://dupress.deloitte.com/dup-us-en/focus/human-capital-trends/2016/human-capital-trends-introduction.html
2. Thomas H Davenport và D J Patil (2012), Nhà khoa học dữ liệu: công việc quyến rũ nhất của thế kỷ 21, Harvard Business Review, số tháng 10, xem tại: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3. Bernard Marr (2016), Làm một nhà khoa học dữ liệu thực sự là công việc tốt nhất ở Mỹ?, Forbes, ngày 25 tháng 2, xem tại: http://www.forbes.com/sites/bernardmarr/2016/02/25/is-being-a-data-scientist-really-the-best-job-in-america/#648ede7f5f98
4. Bernard Marr (2016), Big Data in Practice: How successful companies used big data analytics to deliver extraordinary results, Wiley, Chichester