Sau khi đã xác định xong những gì bạn kỳ vọng để đạt được với dữ liệu, lúc này bạn đã có thể bắt đầu suy nghĩ về việc tìm nguồn cung ứng và thu thập dữ liệu tốt nhất để đáp ứng cho những nhu cầu đó. Ví dụ, nếu bạn đang sử dụng dữ liệu để cải thiện việc ra quyết định và bạn đã xác định được các câu hỏi kinh doanh chính của mình (như đã được nêu trong Chương 3), bây giờ bạn cần thu thập dữ liệu để giúp trả lời các câu hỏi đó. Chúng ta đã thấy rất nhiều ví dụ về cách thức thu thập dữ liệu của các công ty, từ Rolls-Royce (với việc thu thập dữ liệu cảm biến từ động cơ phản lực) đến Amazon (với việc theo dõi những danh mục mà khách hàng tìm kiếm), rồi đến Dickey’s Barbecue Pit (trong việc theo dõi năng suất, hoạt động bán hàng và lượng hàng tồn kho tại nhà hàng của họ). Có rất nhiều cách để thu thập và tập hợp dữ liệu, bao gồm việc truy cập hoặc mua dữ liệu từ bên ngoài, sử dụng dữ liệu nội bộ và đưa ra các phương pháp thu thập mới. Tôi sẽ phân tích từng phương pháp cụ thể ở phần sau của chương này. Hãy nhớ rằng các công ty thực sự khôn ngoan sẽ lắp đặt các hệ thống tại chỗ để thu thập hoặc tạo ra dữ liệu tự động, cho dù đó là dữ liệu được tạo bởi người dùng của một sản phẩm hoặc dữ liệu máy từ dây chuyền sản xuất. Đây là một cách thu thập dữ liệu thông minh với nỗ lực tối thiểu (ngoại trừ việc thiết lập, duy trì hệ thống và quy trình).
Điều quan trọng cần nhớ là không có loại dữ liệu nào tốt hơn loại dữ liệu nào. Áp dụng chiến lược dữ liệu là tìm kiếm nguồn dữ liệu tốt nhất cho bạn, và chúng có thể hoàn toàn khác với nguồn dữ liệu tốt nhất của một công ty khác. Với rất nhiều dữ liệu sẵn có ngày nay, bí quyết là tập trung vào việc tìm kiếm các phần chính xác và cụ thể của dữ liệu sẽ mang lại lợi ích tốt nhất cho tổ chức của bạn. Vì vậy, từ quan điểm chiến lược dữ liệu, bạn cần mô tả các tập dữ liệu lý tưởng sẽ giúp bạn đạt được mục tiêu chiến lược của mình. Sau đó, bạn có thể chọn phương án tốt nhất dựa trên việc chúng giúp bạn đạt được mục tiêu tốt đến mức nào, việc truy cập hoặc thu thập dữ liệu đó có dễ dàng hay không, và hiệu quả về chi phí ra sao.
Tôi sẽ phân tích các loại dữ liệu khác nhau trong phần tiếp theo, nhưng nói chung, rất dễ dàng để tìm kiếm và phân tích dữ liệu có cấu trúc nội bộ, và thường là ít tốn kém nhất để thu thập. Ở đầu kia của thang đo, dữ liệu bên ngoài và phi cấu trúc thường sẽ tốn kém hơn để có được và khó khăn hơn (và do đó lại tốn kém hơn) để làm việc với chúng. Bạn có thể thấy rằng bạn cần nhiều hơn một tập dữ liệu – trên thực tế, thường sẽ tốt hơn khi làm việc với nhiều tập dữ liệu để có được bức tranh đầy đủ hơn. Theo kinh nghiệm của tôi, nó thường là sự kết hợp của dữ liệu nội bộ và từ bên ngoài để cung cấp những hiểu biết có giá trị nhất. Để đáp ứng các mục tiêu chiến lược, bạn có thể cần một số dữ liệu nội bộ có cấu trúc (như dữ liệu bán hàng), cộng với một số dữ liệu bên ngoài có cấu trúc (như dữ liệu nhân khẩu học), cùng với một số dữ liệu phi cấu trúc (chẳng hạn như phản hồi của khách hàng) và dữ liệu bên ngoài phi cấu trúc (ví dụ, phân tích truyền thông xã hội). Cách tiếp cận chiến lược lý tưởng để tìm kiếm nguồn cung ứng dữ liệu là tìm kiếm sự kết hợp dữ liệu tốt nhất để có được những hiểu biết sâu sắc, hữu ích nhất cho doanh nghiệp của bạn.
Một khi bạn đã biết được bạn cần loại dữ liệu nào, bước tiếp theo là xác định cách thức bạn sẽ thu thập hoặc truy cập dữ liệu đó. Các công cụ thu thập dữ liệu bao gồm cảm biến, video, GPS, tín hiệu điện thoại, nền tảng truyền thông xã hội và nhiều hơn thế nữa. Công cụ nào phù hợp với bạn còn tùy thuộc vào các mục tiêu chiến lược của bạn, nhưng tôi sẽ phân tích một số tùy chọn chính để truy cập dữ liệu bên ngoài và thu thập dữ liệu nội bộ ở phần sau của chương này. Bạn cũng cần cân nhắc khi nào bạn sẽ thu thập dữ liệu. Liệu rằng bạn có cần phải thu thập dữ liệu một cách thường xuyên hay không? Dữ liệu trong thời gian thực có phải là điều cần phải có cho mục tiêu của bạn hay không? Không có quy tắc chung nào về thời điểm tốt nhất để thu thập dữ liệu; bạn sẽ cần phải được định hướng bởi các mục tiêu chiến lược của bạn.
Hiểu được các loại dữ liệu khác nhau
Bản thân việc thu thập dữ liệu không phải là điều gì đó mới mẻ. Các công ty đã có rất nhiều dữ liệu trong suốt một thời gian dài (xem xét hồ sơ giao dịch, hồ sơ nhân sự, máy tính lớn, thậm chí các trung tâm dữ liệu sơ khai). Tuy nhiên, cho đến thời gian gần đây, dữ liệu duy nhất chúng ta có thể thực sự làm việc là dữ liệu có cấu trúc, nghĩa là dữ liệu này thường được đặt trong bảng tính hoặc cơ sở dữ liệu, giúp dễ dàng truy vấn. Nhưng những tiến bộ như Internet, công nghệ cảm biến, điện toán đám mây, khả năng lưu trữ và phân tích dữ liệu của chúng ta đã thay đổi về chủng loại và số lượng dữ liệu mà chúng ta có thể thu thập. Giờ đây, các hoạt động hàng ngày như đi bộ xuống phố, bước vào xe, hoặc mua một cái gì đó trong một cửa hàng ngày càng tạo ra một đường dẫn dữ liệu khổng lồ, ở dạng có cấu trúc và phi cấu trúc, và tất cả các loại dữ liệu khác nhau này đều có thể được sử dụng bởi các công ty để cải thiện cách thức kinh doanh của họ.
Xác định “dữ liệu lớn”
Dữ liệu lớn thường được hiểu thông qua bốn yếu tố chính: khối lượng(volume), tốc độ (velocity), tính đa dạng (variety) và tính xác thực (veracity)1. Do đó, để dữ liệu được phân loại là “dữ liệu lớn”, nó phải đáp ứng ít nhất một trong bốn yếu tố trên. Không quan trọng là liệu dữ liệu mà bạn đang làm việc có “lớn” hay không, điều quan trọng là nó có thể giúp cho doanh nghiệp của bạn thành công hay không. Tuy nhiên, vì bốn chữ V này xác định những gì thực sự đặc biệt về dữ liệu lớn, tại sao nó biến đổi và chúng ta đã đi xa đến mức nào khi làm việc với dữ liệu, rất đáng dành ra một chút thời gian để tìm hiểu từng chữ V này.
• Volume (Khối lượng) đề cập đến số lượng lớn dữ liệu được tạo ra mỗi giây. Chúng ta không còn nói về những gigabyte dữ liệu kiểu cũ nữa, mà là những petabyte, thậm chí là zettabyte hoặc brontobyte dữ liệu. Dữ liệu trên thang đo này đơn giản là quá lớn để có thể lưu trữ theo cách truyền thống, như trên những máy tính lớn, và nó cũng quá lớn để có thể phân tích bằng cách sử dụng công nghệ cơ sở dữ liệu truyền thống.
• Velocity (Tốc độ) đề cập đến tốc độ dữ liệu mới được tạo ra và tốc độ mà dữ liệu đó di chuyển. Hãy nghĩ về một dòng tweet sẽ lan truyền trong vài giây, hoặc là một công ty thẻ tín dụng theo dõi hàng nghìn giao dịch trong thời gian thực để phát hiện hoạt động gian lận. Trước kia chúng ta thường phải lưu trữ và phân tích dữ liệu vào một ngày sau đó, thì hiện nay chúng ta đã có công nghệ phân tích dữ liệu khi chúng đang di chuyển, ngay khi nó đang được tạo ra, mà không cần phải đưa dữ liệu vào cơ sở dữ liệu. Đây là cách sử dụng dữ liệu điển hình của nhiều công ty hiện nay.
• Variety (Tính đa dạng) đề cập đến các loại dữ liệu khác nhau mà giờ đây chúng ta có thể sử dụng. Trong quá khứ, chúng ta tập trung vào dữ liệu có cấu trúc được sắp xếp gọn gàng vào các bảng tính hoặc cơ sở dữ liệu, nhưng hiện nay phần lớn dữ liệu của thế giới là phi cấu trúc (như là hình ảnh hoặc bài viết trên Facebook) và không thể dễ dàng được đưa vào các bảng biểu. Công nghệ dữ liệu lớn cho phép chúng ta khai thác các loại dữ liệu khác nhau (bao gồm e-mail, các cuộc trò chuyện trên truyền thông xã hội, hình ảnh, dữ liệu cảm biến, dữ liệu video, ghi âm giọng nói), rồi tập hợp chúng lại với nhau và với những dữ liệu có cấu trúc truyền thống hơn. Đối với tôi, đa dạng là khía cạnh hấp dẫn và thú vị nhất của dữ liệu lớn vì nó cho chúng ta khả năng trích xuất nhiều hiểu biết sâu sắc quan trọng về kinh doanh hơn bao giờ hết.
• Veracity (Tính xác thực) đề cập đến sự hỗn loạn hoặc đáng tin cậy của dữ liệu. Bởi vì chúng ta đã từng chỉ có thể phân tích dữ liệu có cấu trúc gọn gàng và có trật tự, chúng ta thường tin tưởng dữ liệu đó là chính xác. Nhưng bây giờ chúng ta có thể đối phó với dữ liệu hoàn toàn rối loạn và không đáng tin cậy (như chữ viết tắt, lỗi chính tả, tiếng lóng, bài đăng trên Twitter có hashtag không chính xác, bạn tự đặt tên cho nó). Trong nhiều trường hợp, công nghệ có mặt ở đó để xử lý những điểm không chính xác trong dữ liệu. Trong vài trường hợp, những điểm không chính xác này thậm chí còn cung cấp một lợi thế – như Google sử dụng lỗi chính tả trong tìm kiếm trên web để nâng cao khả năng tiên đoán văn bản của nó.
Tôi cho rằng còn có một chữ V thứ năm của dữ liệu lớn: Value (Giá trị). Bởi vì làm việc với khối lượng lớn và đa dạng các loại dữ liệu khác nhau có thể là vô ích nếu nó không dẫn đến bất kỳ giá trị kinh doanh thực sự nào. Vì vậy, mặc dù khối lượng ngày càng lớn, tốc độ và sự đa dạng của dữ liệu lớn đều rất thú vị, nhưng trong lĩnh vực kinh doanh, giá trị rõ ràng là chữ V quan trọng nhất.
Xác định dữ liệu có cấu trúc
Dữ liệu có cấu trúc là bất kỳ dữ liệu hoặc thông tin nào được đặt trong một trường cố định trong một bản ghi hoặc tập tin được xác định, thường là trong cơ sở dữ liệu hoặc bảng tính. Về cơ bản, đó là dữ liệu được tổ chức theo một cách thức đã được xác định trước, thường là trong các hàng và cột. Dữ liệu có cấu trúc thường được quản lý bằng Ngôn ngữ Truy vấn có Cấu trúc (SQL) – một ngôn ngữ lập trình có từ những năm 1970 được sử dụng để truy vấn dữ liệu trong các hệ thống quản lý cơ sở dữ liệu quan hệ.
Các doanh nghiệp cỡ vừa có khả năng khai thác một lượng lớn dữ liệu có cấu trúc. Ví dụ phổ biến nhất bao gồm dữ liệu khách hàng, dữ liệu bán hàng, hồ sơ giao dịch, dữ liệu tài chính, số lượt truy cập trang web và dữ liệu theo dõi bất kỳ máy móc thiết bị nào (ví dụ, nhật ký nhiệt độ trong các thiết bị bảo quản lạnh). Trên thực tế, hiện nay, dữ liệu có cấu trúc đã cung cấp hầu hết hiểu biết sâu sắc về hoạt động kinh doanh của chúng ta, mặc dù điều đó đang dần thay đổi.
So với thế giới thú vị của dữ liệu phi cấu trúc (mà chúng ta sẽ tìm hiểu ở phần tiếp theo), dữ liệu có cấu trúc thường nhận nhiều chỉ trích. Tôi có thể hiểu tại sao. Mặc dù hiện tại đây là loại dữ liệu được sử dụng phổ biến nhất, nhưng dữ liệu có cấu trúc chỉ chiếm 20% trong số tất cả các dữ liệu có sẵn trên thế giới. 80% dữ liệu còn lại không được cấu trúc theo định dạng. Do đó, nếu bạn chỉ sử dụng dữ liệu có cấu trúc, bạn có thể bỏ lỡ rất nhiều dữ liệu. Nhược điểm khác là dữ liệu có cấu trúc không chứa nhiều thông tin bằng dữ liệu phi cấu trúc, có nghĩa là loại dữ liệu này chỉ có thể trình bày một bức tranh rất hạn chế về những gì đang diễn ra. Do đó, thông thường bạn cần phải sử dụng các nguồn dữ liệu khác cùng với dữ liệu có cấu trúc để có được thông tin chi tiết tốt hơn. Ví dụ, dữ liệu có cấu trúc sẽ cho bạn biết rằng lượt truy cập trên trang web của bạn đã giảm 25% trong tháng trước nhưng bạn sẽ cần các hình thức dữ liệu khác để khám phá lý do vì sao.
Về mặt tích cực, dữ liệu có cấu trúc có một số lợi thế lớn: nó thường ít tốn chi phí để sử dụng, dễ dàng lưu trữ và dễ phân tích. Mặc dù bản chất của nó là cố định, nhưng dữ liệu có cấu trúc có thể được truy vấn và sử dụng theo nhiều cách khác nhau, thường là bởi các nhà phi phân tích (non-analyst). Nó vẫn có thể cực kỳ mạnh mẽ và ấn tượng. Ví dụ, cơ sở dữ liệu khách hàng và giao dịch của Walmart chứa hơn 2,5 petabyte dữ liệu (Để có thể hình dung dễ dàng hơn, chúng ta ước tính rằng tổng tất cả nội dung từ các thư viện nghiên cứu học thuật của nước Mỹ chỉ hơn 2 petabyte). Công ty có thể kết hợp dữ liệu khách hàng có cấu trúc này (đặc biệt là về việc mọi người mua gì, vào lúc nào) với nhiều nguồn khác nhau (như hồ sơ kiểm soát hàng tồn kho nội bộ) để tạo các chương trình khuyến mãi được thiết kế riêng cho từng khách hàng cá nhân.
Ngay cả khi bạn không có 2,5 petabyte dữ liệu có cấu trúc như Walmart (hầu hết các công ty đều không có), dữ liệu có cấu trúc của riêng bạn vẫn có thể phục vụ như một điểm xuất phát tuyệt vời để thu thập hiểu biết sâu sắc. Đó là lý do tại sao tôi nghĩ rằng sẽ là một sai lầm nếu hoàn toàn bỏ qua dữ liệu có cấu trúc. Chúng vẫn cung cấp được rất nhiều thứ cho các doanh nghiệp – đặc biệt khi được kết hợp với dữ liệu phi cấu trúc.
Xác định dữ liệu phi cấu trúc và bán cấu trúc
Dữ liệu phi cấu trúc là thuật ngữ dùng để chỉ bất kỳ dữ liệu nào không phù hợp với các định dạng hoặc cơ sở dữ liệu có cấu trúc truyền thống – ví dụ như các trao đổi thông qua e-mail, văn bản trang web, các bài viết trên phương tiện truyền thông xã hội, nội dung video, hình ảnh và bản ghi âm. Như bạn có thể biết, chúng thường dưới dạng văn bản khối lượng lớn, nhưng cũng có thể là những dữ liệu ở dạng ngày và số, hoặc các loại dữ liệu khác như hình ảnh. Cho đến thời gian gần đây, mọi thứ không phù hợp với cơ sở dữ liệu hoặc bảng tính thường bị loại bỏ hoặc lưu trữ trên giấy, vi phim, hoặc tập tin được scan mà không thể dễ dàng phân tích. Bây giờ, nhờ vào sự gia tăng vượt trội trong khả năng lưu trữ, khả năng gắn thẻ và phân loại dữ liệu phi cấu trúc, chưa kể đến những tiến bộ trong các công cụ phân tích (chúng ta sẽ tìm hiểu nhiều hơn trong Chương 7), cuối cùng chúng ta đã có thể sử dụng dữ liệu này.
Dữ liệu bán cấu trúc là đường giao thoa giữa dữ liệu phi cấu trúc và có cấu trúc. Đây là dữ liệu có một số cấu trúc có thể được sử dụng để phân tích (như các thẻ hoặc các dạng đánh dấu khác) nhưng thiếu cấu trúc nghiêm ngặt, cái mà chúng ta thường thấy trong cơ sở dữ liệu hoặc bảng tính. Ví dụ, một dòng tweet có thể được phân loại theo tác giả, ngày tháng, thời gian, độ dài và thậm chí cả cảm xúc ẩn chứa đằng sau nó, nhưng bản thân nội dung thường không có cấu trúc. Hiện nay, người ta có thể tự động phân tích văn bản trong dòng tweet đó, nhưng không phải là sử dụng các phương pháp phân tích truyền thống, mà sẽ cần đến một công cụ phân tích văn bản chuyên nghiệp.
Bạn có thể đoán được rằng nhược điểm chính của việc làm việc với những dữ liệu lộn xộn và phi cấu trúc là chúng khá phức tạp, thường đòi hỏi phần mềm và hệ thống được thiết kế đặc biệt. Kết quả là, chi phí có thể tăng lên. Điều này không phải là không hợp lý; dữ liệu phi cấu trúc có xu hướng lớn hơn nhiều so với dữ liệu có cấu trúc, điều đó có nghĩa là bạn cần phải có dung lượng lớn hơn, tốt hơn, và việc tổ chức cũng như trích xuất những hiểu biết sâu sắc trở nên phức tạp hơn, dẫn đến việc đòi hỏi các hệ thống chuyên biệt. Tất cả điều này không có nghĩa là bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.
Dữ liệu phi cấu trúc và bán cấu trúc có lợi thế lớn là chúng rất nhiều. 80% dữ liệu liên quan đến kinh doanh bắt nguồn từ dữ liệu phi cấu trúc hoặc bán cấu trúc, do đó nó lớn hơn rất nhiều so với dữ liệu có cấu trúc về khối lượng tuyệt đối. Và một lợi thế quan trọng khác là nó có xu hướng cung cấp một bức tranh phong phú hơn so với dữ liệu có cấu trúc truyền thống. Hãy suy nghĩ theo hướng dữ liệu có cấu trúc cho bạn biết ai, cái gì, ở đâu và khi nào, trong khi dữ liệu phi cấu trúc giúp bạn hiểu lý do tại sao.
Dưới đây là ví dụ đơn giản về cách chúng ta có thể làm việc dễ dàng hơn với dữ liệu phi cấu trúc. Hãy xem xét đoạn video một con mèo chơi với quả bóng bện bằng dây. Một vài năm trước, để video đó được phân loại (ví dụ như để cho nó có thể xuất hiện trong kết quả tìm kiếm), người ta sẽ phải xem và gắn thẻ theo một số từ khóa nhất định (mèo, dễ thương, quả bóng, vui nhộn,…) để cho những người tìm kiếm video mèo vui nhộn hoặc dễ thương có thể tìm thấy video này một cách dễ dàng hơn. Giờ đây, video có thể được tự động phân loại bằng thuật toán, nghĩa là máy tính có thể xem video, tự động phát hiện nội dung bên trong (thậm chí có thể là ai trong đó, nhờ phần mềm nhận diện khuôn mặt) và tự động tạo ra các thẻ riêng cho chúng. Các thương hiệu đang bắt đầu sử dụng công nghệ này như là một phần trong hoạt động marketing hàng ngày của họ. Một người bạn của tôi kiếm sống bằng việc tổ chức các buổi hội nghị, và một trong những hội nghị mà anh tổ chức là cho một công ty sản xuất thiết bị điện tử nổi tiếng. Ngay trước khi hội nghị bắt đầu, anh ấy đã chia sẻ một bức ảnh của sân khấu chính trên Twitter, đã sẵn sàng cho diễn giả đầu tiên. Bức ảnh có tên và logo của nhà sản xuất, được đặt trên một tấm biển phía sau sân khấu, nhưng anh đã không đề cập rõ ràng đến công ty bằng cách sử dụng hashtag hoặc gắn địa chỉ Twitter của họ một cách rõ ràng. Và tiếp theo thì sao, một tuần sau hội nghị, liệu anh ấy có còn tiếp tục nhìn thấy những quảng cáo trực tuyến được nhắm mục tiêu cho thương hiệu cụ thể đó không? Bởi vì công ty biết anh ta đang nói về họ; phần mềm phân tích có thể khai thác dữ liệu phi cấu trúc (như bài viết và hình ảnh trên phương tiện truyền thông xã hội) cho bất kỳ điều gì có liên quan đến công ty và sản phẩm của họ.
Xác định dữ liệu nội bộ
Dữ liệu nội bộ đề cập đến tất cả thông tin mà doanh nghiệp của bạn hiện có hoặc có khả năng thu thập. Dữ liệu nội bộ có thể được cấu trúc theo định dạng (như cơ sở dữ liệu khách hàng hoặc bản ghi giao dịch), hoặc nó có thể không được cấu trúc (như dữ liệu các trao đổi từ các cuộc gọi dịch vụ khách hàng, hoặc phản hồi từ các cuộc phỏng vấn của nhân viên). Đây là dữ liệu riêng tư hoặc độc quyền của bạn do doanh nghiệp bạn sở hữu, nghĩa là chỉ công ty của bạn kiểm soát quyền truy cập vào dữ liệu. Có rất nhiều loại dữ liệu nội bộ, một vài ví dụ phổ biến nhất bao gồm dữ liệu khảo sát khách hàng và nhân viên, dữ liệu cuộc hội thoại từ cuộc gọi dịch vụ khách hàng, dữ liệu bán hàng, dữ liệu tài chính, dữ liệu nhân sự, hồ sơ khách hàng, dữ liệu kiểm soát chứng khoán, dữ liệu video CCTV, dữ liệu cảm biến từ máy móc hoặc phương tiện của công ty và dữ liệu trang web của cá nhân bạn (như số lượng khách truy cập,…).
Trên thực tế, một nhược điểm của dữ liệu nội bộ là bạn chịu trách nhiệm duy trì và bảo mật dữ liệu đó. Nó đòi hỏi một khoản tiền để duy trì và bảo mật dữ liệu đúng cách, đặc biệt là dữ liệu cá nhân, trong đó bao gồm các yêu cầu pháp lý nghiêm ngặt, trong khi nếu bạn mua dữ liệu bên ngoài, nhà cung cấp dữ liệu sẽ chịu trách nhiệm và trách nhiệm pháp lý đó cho bạn. Một bất lợi khác của dữ liệu nội bộ là chính bản thân nó có thể không cung cấp đầy đủ thông tin để đáp ứng các mục tiêu chiến lược của bạn, và bạn có thể cần bổ sung thêm vào đó những dữ liệu từ bên ngoài. Thay vì phải kết hợp dữ liệu có cấu trúc và phi cấu trúc để có được bức tranh thực sự phong phú về những gì đang diễn ra, thường cần phải kết hợp dữ liệu nội bộ với dữ liệu bên ngoài để có được những hiểu biết sâu sắc hữu ích nhất.
Ngược lại, dữ liệu nội bộ thường ít tốn kém hoặc miễn phí để truy cập, điều đó khiến cho nó trở thành điểm khởi đầu tốt đẹp khi xem xét các tùy chọn dữ liệu của bạn. Ngoài ra, khi bạn sở hữu dữ liệu, bạn không cần phải giải quyết các vấn đề về quyền truy cập. Bạn sẽ không bao giờ phải ở trong tình thế bị bên thứ ba bất ngờ tăng giá hoặc cắt giảm quyền truy cập bất cứ khi nào họ thích. Đối với thông tin kinh doanh thật sự quan trọng, các vấn đề xung quanh quyền truy cập và quyền sở hữu không nên bị xem nhẹ. Cuối cùng, giá trị thực trong dữ liệu nội bộ chính là dữ liệu này đã được điều chỉnh cho phù hợp với doanh nghiệp hoặc ngành của bạn. Vì vậy, mặc dù bạn có thể cần phải xem xét thêm một số dữ liệu bên ngoài cùng với dữ liệu nội bộ để có được kết quả tốt nhất, nhưng bạn cũng sẽ không bao giờ có thể hoàn toàn bỏ qua nó.
Tương tự như dữ liệu có cấu trúc, dữ liệu nội bộ không được xem là đặc biệt thú vị hoặc sáng tạo, nhưng nó có thể cung cấp nhiều thông tin. Một ví dụ tuyệt vời đến từ dịch vụ phát trực tuyến Netflix. Trong những năm gần đây, Netflix đã hướng tới việc định vị bản thân là một nhà sản xuất nội dung chứ không chỉ là nhà phân phối cho các hãng phim và các kênh khác. Chiến lược của họ ở đây đã được thúc đẩy mạnh mẽ bởi dữ liệu nội bộ của họ – những dữ liệu này cho thấy rằng người đăng ký Netflix đã khao khát được thưởng thức những nội dung do David Fincher đạo diễn cùng với sự tham gia của diễn viên Kevin Spacey. Dựa vào điều đó, sau khi đấu thầu với giá cao hơn các kênh khác (bao gồm cả HBO và ABC) để có được quyền sở hữu House of Cards, họ tự tin rằng chương trình này phù hợp với mô hình dự đoán của họ cho “chương trình truyền hình hoàn hảo” đến nỗi họ đã bỏ qua thỏa thuận sản xuất thí điểm và thực hiện luôn hai mùa đầu tiên. Khả năng của Netflix trong việc khai thác dữ liệu nội bộ của họ để có những hiểu biết sâu sắc có giá trị thực sự về người xem đã được đền đáp. Dịch vụ này đã tạo ra thêm 5,59 triệu người đăng ký mới trong quý IV năm 2015, và Netflix đã áp dụng những thành công này vào những “nội dung không ngừng cải thiện” của họ, như House of Cards và Orange Is the New Black. Bằng cách này, hiểu biết sâu sắc từ dữ liệu nội bộ của Netflix đang giúp thúc đẩy việc thu hút thành viên mới và giữ chân khách hàng.
Xác định dữ liệu bên ngoài
Dữ liệu bên ngoài là mảng thông tin vô hạn tồn tại bên ngoài tổ chức của bạn. Nó có thể được công bố công khai (như dữ liệu của chính phủ) hoặc thuộc sở hữu tư nhân của một bên thứ ba (như Amazon), và nó cũng có thể được cấu trúc hoặc không được cấu trúc theo định dạng. Các ví dụ chính về dữ liệu bên ngoài bao gồm dữ liệu truyền thông xã hội, dữ liệu xu hướng của Google, dữ liệu điều tra dân số của chính phủ, dữ liệu kinh tế và dữ liệu thời tiết. Có rất nhiều bộ dữ liệu đã được tạo sẵn, kể cả dữ liệu công khai và riêng tư, đã có sẵn và phù hợp với nhiều loại nhu cầu khác nhau (dữ liệu điều tra dân số là ví dụ điển hình). Tuy nhiên, bạn có thể cần một bộ dữ liệu chuyên biệt hơn. Trong trường hợp đó, bạn có thể mua dịch vụ từ nhà cung cấp thứ ba để họ cung cấp hoặc thu thập dữ liệu giúp bạn.
Nhược điểm rõ ràng đối với dữ liệu bên ngoài là bạn không sở hữu dữ liệu này và bạn thường sẽ phải trả tiền để truy cập (không phải lúc nào cũng thế, nhưng rất thường xuyên). Điều này cũng có nghĩa là bạn phải dựa vào một nguồn từ bên ngoài, nên có thể là rủi ro nếu dữ liệu đó cực kỳ quan trọng đối với các hoạt động kinh doanh chính của bạn. Bạn sẽ cần phải cân nhắc các rủi ro và chi phí truy cập dữ liệu bên ngoài khi so sánh với các rủi ro và chi phí nếu không sử dụng dữ liệu đó. Liệu bạn có gặp rắc rối gì khi tự mình tạo ra các dữ liệu đó? Doanh nghiệp của bạn có bị ảnh hưởng gì không nếu bạn không sử dụng dữ liệu đó? Liệu nó có ngăn cản bạn đáp ứng các mục tiêu chiến lược của mình hay không? Về mặt tổng thể, bạn có thể thấy rằng những lợi ích thu được sẽ vượt xa những rủi ro.
Tuy nhiên, dữ liệu bên ngoài vẫn có một số lợi thế đáng kể. Các công ty như Walmart và Amazon có năng lực, cơ sở hạ tầng và ngân sách để tạo ra và quản lý lượng dữ liệu khổng lồ. Điều đó thật tuyệt vời cho họ. Nhưng nhiều doanh nghiệp khác không bao giờ có thể mơ ước có nhiều dữ liệu theo ý của mình. Dữ liệu bên ngoài cho phép bất kỳ doanh nghiệp nào cũng có khả năng truy cập và khai thác dữ liệu để cung cấp các hiểu biết sâu sắc – mà không đi kèm với nhiều công việc phức tạp như lưu trữ, quản lý và bảo mật dữ liệu đó hàng ngày. Đối với các doanh nghiệp nhỏ, đây có thể là một lợi thế đáng kể. Ngoài ra, dữ liệu bên ngoài thường phong phú hơn và phức tạp hơn (và thậm chí có thể được cập nhật nhiều hơn) so với bất kỳ dữ liệu nào có thể tạo ra bên trong doanh nghiệp của bạn.
Dưới đây là ví dụ về một công ty khai thác thành công dữ liệu bên ngoài từ nhiều nguồn khác nhau. Công ty về điện toán nhận thức Apixio có trụ sở tại California được thành lập vào năm 2009 với tầm nhìn là khám phá và giúp cho những kiến thức lâm sàng có thể được truy cập từ các hồ sơ y tế đã được số hóa nhằm cải thiện việc ra quyết định về chăm sóc sức khỏe. Y học dựa trên bằng chứng truyền thống – chủ yếu dựa trên các nghiên cứu có sai sót về phương pháp luận, hoặc các thử nghiệm lâm sàng ngẫu nhiên với số lượng tương đối nhỏ – có thể không đảm bảo tính tổng quát bên ngoài nghiên cứu cụ thể đó. Nhưng, bằng cách khai thác một khối lượng lớn dữ liệu lâm sàng thực tế và dựa trên thực tiễn – tình trạng chăm sóc y tế của từng người là như thế nào, phương pháp điều trị nào có hiệu quả,… – các nhà cung cấp dịch vụ chăm sóc sức khỏe có thể học hỏi rất nhiều về cách chăm sóc bệnh nhân và cách cải thiện các phương pháp chăm sóc đó. Để biến điều này thành hiện thực, Apixio đã nghĩ ra một cách để truy cập và hiểu được thông tin lâm sàng từ nhiều nguồn khác nhau. Hồ sơ y tế điện tử (EHRs) đã ra đời được một thời gian, nhưng chúng không được thiết kế để tạo thuận lợi cho việc phân tích và lưu trữ dữ liệu trên một số hệ thống và định dạng khác nhau. Vì vậy, trước khi Apixio bắt đầu phân tích bất kỳ dữ liệu nào, đầu tiên họ phải trích xuất dữ liệu từ các nguồn khác nhau (có thể bao gồm ghi chú của bác sĩ, hồ sơ bệnh viện, hồ sơ Medicare của chính phủ,…). Mảng dữ liệu này có thể được phân tích ở cấp độ cá nhân để tạo ra mô hình dữ liệu bệnh nhân chi tiết, nhờ đó giúp bác sĩ đưa ra quyết định điều trị tốt hơn và cung cấp dịch vụ chăm sóc mang tính cá nhân hóa hơn. Nhưng nó cũng có thể được tổng hợp trên toàn bộ dân số để có được những hiểu biết chuyên sâu hơn về tỷ lệ bệnh và các phương pháp điều trị…
Xem xét các loại dữ liệu mới hơn
Thực tế là chúng ta đang để lại nhiều dấu vết kỹ thuật số hơn bao giờ hết trước khi tạo ra thêm nhiều loại dữ liệu mới để các công ty làm việc với chúng. Một vài dữ liệu mà chúng ta hiện có thể thu thập là mới mẻ (như dữ liệu sinh trắc học từ Apple Watch), trong khi một số khác đã có từ lâu nhưng chúng ta gần đây mới tìm ra được cách để phân tích nó (ví dụ, dữ liệu về cuộc trò chuyện từ cuộc gọi dịch vụ khách hàng). Vì vậy, tôi muốn dành một chút thời gian để nhấn mạnh nhiều loại dữ liệu mới mà các công ty có khi phải xử lý chúng: dữ liệu hoạt động, dữ liệu các cuộc trò chuyện, dữ liệu hình ảnh và video và dữ liệu cảm biến. Điều quan trọng là bạn cần hiểu rõ rằng tất cả các dữ liệu này vẫn là loại dữ liệu thuộc nhóm dữ liệu có cấu trúc, phi cấu trúc hoặc bán cấu trúc. Tôi chỉ đơn giản là nhóm chúng lại với nhau bởi vì chúng đại diện cho một số bước nhảy vọt trong kinh doanh lớn nhất về dữ liệu và phân tích – điều này khiến cho chúng trở thành những cân nhắc hữu ích cho bất kỳ chiến lược dữ liệu nào.
Dữ liệu hoạt động
Đây là bản ghi trong máy tính về các hoạt động hoặc hành động của con người diễn ra trong không gian trực tuyến hoặc trong thế giới thật ngoại tuyến. Nếu tôi nghĩ về tất cả những gì tôi đã hoàn thành hôm nay trước khi ngồi xuống để viết chương này, hầu hết các hoạt động đó đã để lại một số dấu vết kỹ thuật số có thể được thu thập và phân tích. Cuộc gọi điện thoại của tôi tạo dữ liệu và tùy thuộc vào việc tôi nói chuyện với ai (ví dụ, nếu đó là ngân hàng của tôi hoặc bộ phận dịch vụ khách hàng), nội dung thực tế của cuộc gọi có thể được ghi lại và phân tích. Mua cho vợ tôi món quà sinh nhật cũng tạo ra dữ liệu giao dịch. Ngay cả khi duyệt web để tìm kiếm ý tưởng về quà tặng cũng tạo ra toàn bộ dữ liệu, bao gồm cả nơi tôi truy cập Internet, trang web mà tôi truy cập, cách tôi di chuyển giữa các trang trên trang web đó, sản phẩm nào thu hút sự chú ý của tôi và tôi đã dành thời gian bao lâu trên trang web. Mọi thứ tôi thích trên Facebook, hoặc chia sẻ trên LinkedIn hay Twitter đều tạo ra những dấu vết. Ngay cả khi tôi chọn tắt điện thoại, máy tính xách tay của mình để chạy bộ, thiết bị đeo theo dõi sức khỏe cũng dõi theo chuyển động của tôi, tôi đã đi được bao xa và lượng calo tôi đã đốt cháy là bao nhiêu. Camera giám sát CCTV ở địa phương cũng sẽ ghi nhận hình ảnh của tôi dọc theo tuyến đường tôi ưa thích.
Như bạn có thể hình dung, khối lượng dữ liệu hoạt động có sẵn có thể khiến bạn khó xác định chính xác những gì cần thu thập. Liên tục xem xét ngược lại các mục tiêu chiến lược của bạn sẽ giúp bạn tập trung vào các dữ liệu hoạt động tốt nhất cho bạn, nhưng thật khó để không bị cuốn vào những cơ hội hấp dẫn mà dữ liệu hoạt động trình bày. Một bất lợi khác là phần lớn dữ liệu hoạt động là phi cấu trúc, điều này có thể khiến cho việc khai thác nó trở nên khó khăn và tốn kém hơn.
Về mặt tích cực, dữ liệu hoạt động cho phép bạn biết được khách hàng của bạn thực sự làm gì, trái ngược với những gì họ nói về những việc họ đã làm hoặc những gì bạn giả định họ làm, có thể là thông tin quan trọng cho việc phát triển sản phẩm hoặc dịch vụ. Và bởi vì chúng ta đang tạo ra ngày càng nhiều dữ liệu với những hoạt động thực tế, nên chúng ta có nguồn cung cấp dữ liệu phong phú gần như vô tận để khai thác. Hơn hết, dữ liệu hoạt động thường tự tạo ra, giúp giảm thiểu khối lượng công việc cho doanh nghiệp của bạn.
Dữ liệu các cuộc trò chuyện
Điều này không chỉ áp dụng cho một cuộc trò chuyện quan trọng với ai đó thông qua điện thoại. Dữ liệu cuộc trò chuyện cũng bao gồm bất kỳ cuộc trò chuyện nào bạn có thể có ở bất cứ định dạng nào, từ tin nhắn SMS hoặc tin nhắn tức thời qua điện thoại, tới e-mail, bình luận trên blog, bài viết trên mạng xã hội, và những điều khác nữa. Đó là tất cả dữ liệu cuộc trò chuyện.
Dữ liệu cuộc trò chuyện có thể cực kỳ hữu ích cho doanh nghiệp bởi vì nó cung cấp hiểu biết sâu sắc về mức độ hạnh phúc hay chưa hài lòng của khách hàng, người sử dụng dịch vụ, nhân viên và nhà cung cấp của bạn. Các cuộc trò chuyện có thể được khai thác về mặt nội dung (những gì được đề cập đến) cũng như ngữ cảnh (nó được nói đến như thế nào). Nói cách khác, bạn có thể hiểu được những gì đang xảy ra từ những từ ngữ được sử dụng và tâm trạng của những người tham gia vào cuộc trò chuyện. Điều này có nghĩa là các công ty giờ đây có thể xác định được khách hàng hoặc nhân viên tức giận hay bực bội như thế nào, hay thậm chí họ có đang nói sự thật không – dựa trên mức độ căng thẳng trong giọng nói.
Rõ ràng, nếu bạn đang lập kế hoạch để ghi lại bất kỳ cuộc trò chuyện nào, bạn cần phải nhận thức được những hệ quả pháp lý ở quốc gia của bạn. Nói chung, bạn không thể ghi âm lại cuộc hội thoại của khách hàng hoặc nhân viên chỉ vì bạn cảm thấy thích nó; nội dung bạn ghi âm phải có liên quan đến doanh nghiệp. Ngoài ra, bạn cần phải thông báo cho các bên liên quan rằng họ được ghi âm lại để họ có thể chọn không tham gia. Ngoài ra, hãy nhớ rằng dữ liệu cuộc hội thoại cũng không được cấu trúc, điều này có thể khiến cho việc phân tích trở nên khó khăn và tốn kém hơn.
Về mặt tích cực, dữ liệu cuộc trò chuyện cung cấp cho bạn quyền truy cập trong thời gian thực đối với khách hàng, một cái nhìn chính xác về những gì khách hàng thực sự nghĩ và cảm nhận về thương hiệu, sản phẩm và dịch vụ của bạn. Đó là một công cụ rất mạnh nếu bạn đang tìm cách cải thiện dịch vụ mà bạn cung cấp.
Dữ liệu hình ảnh và video
Sự gắn bó ngày càng tăng của chúng ta với chiếc điện thoại thông minh của mình và việc sử dụng phổ biến các camera giám sát CCTV (đặc biệt là ở Anh), đã dẫn đến sự bùng nổ của dữ liệu hình ảnh và video. Trong quá khứ, các công ty có lẽ đã ghi hình lại cơ sở lưu trữ hoặc cơ sở bán lẻ của họ vì mục đích an ninh, nhưng các bản ghi không bao giờ được lưu trữ trong thời gian dài. Video sẽ được lưu trữ trong những ổ đĩa và sau một tuần (hoặc lâu hơn) ổ đĩa sẽ được sử dụng lại và bản ghi hình mới sẽ được ghi đè lên những dữ liệu trước đó. Giờ đây, một số cửa hàng có nhiều dữ liệu hơn đang lưu trữ tất cả các cảnh quay camera giám sát CCTV và phân tích nó để nghiên cứu cách mọi người đi qua cửa hàng, họ dừng lại ở nơi nào, tìm hiểu xem họ đang quan sát cái gì, và sau một thời gian họ có thể thay đổi đối với sản phẩm và tăng doanh số bán hàng. Một số công ty thậm chí còn sử dụng phần mềm nhận diện khuôn mặt để xác định các khách hàng cá nhân.
Dữ liệu hình ảnh và video có thể tạo ra các tập tin rất lớn, có thể phức tạp để lưu trữ và quản lý. Do đó, điều quan trọng là phải đảm bảo bạn đã có nhu cầu xác định và liên quan đến hoạt động kinh doanh để thu thập và lưu trữ loại dữ liệu này. Tuy nhiên, nếu bạn đã thu thập dữ liệu này thường xuyên (có thể thông qua các camera an ninh), việc tìm ra cách sử dụng nó tốt hơn có thể cũng không tốn kém lắm.
Dữ liệu cảm biến
Như chúng ta đã thấy trong suốt cuốn sách này, một khối lượng lớn dữ liệu đang được tạo ra và truyền đến từ các cảm biến đang được tích hợp ngày càng nhiều vào các sản phẩm. Chỉ riêng điện thoại thông minh của bạn đã có cảm biến GPS, cảm biến gia tốc (đo tốc độ di chuyển của điện thoại), một con quay hồi chuyển (xác định hướng và xoay màn hình), cảm biến tiệm cận (đo lường mức độ gần gũi của bạn đối với những người, địa điểm hoặc đối tượng khác), cảm biến môi trường xung quanh (để điều chỉnh đèn nền trên điện thoại) và cảm biến giao tiếp trường gần (đây là cảm biến cho phép bạn thực hiện thanh toán bằng cách quét điện thoại qua máy thanh toán).
Dữ liệu cảm biến thường thiếu ngữ cảnh và chỉ đo lường một phần rất nhỏ của thực tế, nghĩa là rất có thể nó cần được kết hợp với một bộ dữ liệu khác để có được kết quả tốt nhất. Tuy nhiên, về mặt ưu điểm, dữ liệu cảm biến là tự nó tạo ra, điều đó làm cho nó thật sự hấp dẫn. Và nhiều thiết bị, chẳng hạn như điện thoại thông minh, chứa các cảm biến sẵn sàng để sử dụng, có thể được sử dụng để tạo lợi thế cho bạn (hãy tưởng tượng một công ty giao hàng sử dụng cảm biến trong điện thoại của người lái xe để theo dõi các tuyến đường giao hàng). Dữ liệu cảm biến cũng có thể cung cấp những hiểu biết sâu sắc, mạnh mẽ để nâng cao năng suất và việc bảo trì.
Thu thập dữ liệu nội bộ
Sau khi đã xác định dữ liệu bạn cần, tiếp theo bạn nên cân nhắc xem liệu bạn có đang sở hữu những dữ liệu đó hay không, ngay cả khi điều đó không rõ ràng ngay lập tức. Xem xét liệu dữ liệu bạn cần đã tồn tại trong nội bộ hay liệu bạn có khả năng tự tạo ra dữ liệu đó hay không, tức là bằng cách thu thập dữ liệu từ hệ thống, sản phẩm, khách hàng hoặc nhân viên của bạn. Ngày nay, bạn có thể thu thập dữ liệu từ bất kỳ ứng dụng, phần mềm hoặc trên bất kỳ quy trình kỹ thuật số nào – nghĩa là hầu như mọi khía cạnh của việc điều hành doanh nghiệp đều có thể được theo dõi và phân tích.
Bất cứ nơi nào bạn có cuộc hội thoại, ở đó có cơ hội để thu thập dữ liệu cuộc trò chuyện. Nếu bạn điều hành bộ phận bán hàng qua điện thoại hoặc bộ phận dịch vụ khách hàng nơi mà khách hàng gọi điện để mua hàng hoặc theo dõi việc giao hàng thì bạn có thể ghi lại các cuộc hội thoại đó và phân tích nội dung, cũng như cảm xúc để có những hiểu biết sâu sắc, hữu ích. Dữ liệu cuộc trò chuyện dựa trên văn bản cũng tồn tại trong các tài liệu, e-mail nội bộ, và các e-mail bạn nhận được từ khách hàng.
Bạn có thể tạo ra dữ liệu của riêng mình bằng cách đặt câu hỏi và thu thập câu trả lời, thông qua các cuộc khảo sát, phương pháp phỏng vấn nhóm, yêu cầu mọi người xếp hạng sản phẩm của bạn, hoặc bằng cách ghi lại chi tiết khi khách hàng đăng ký một thứ gì đó. Bạn cũng có thể tiến hành các thử nghiệm để thu thập dữ liệu, ví dụ bằng cách thực hiện một chiến dịch marketing, quan sát kết quả và chỉnh sửa thông số nếu cần để tìm ra những thông tin chi tiết khác.
Dữ liệu video và hình ảnh có thể có được đơn giản bằng cách bắt đầu thu thập dữ liệu thông qua việc sử dụng máy ảnh kỹ thuật số. Có thể bạn đã sử dụng video cho mục đích an ninh, trong trường hợp đó bạn có thể sử dụng video đó để phân tích. Ví dụ, các nhà bán lẻ có thể sử dụng mạng lưới camera giám sát CCTV của họ để phân tích cách khách hàng đi qua cửa hàng, nơi nào họ dừng lại và phần nào bị họ bỏ qua. Kiểm tra dữ liệu hiện có để nhận thấy bất kỳ khoảng trống nào cần được lắp đặt thêm máy quay hoặc hệ thống mới để cải thiện việc phân tích.
Dữ liệu giao dịch cung cấp một nguồn thông tin khác cho các công ty, và thường rất dễ truy cập, phân tích. Nó cho bạn thấy khách hàng của bạn đã mua những gì và khi nào. Tùy thuộc vào những gì bạn đo lường, nó cũng có thể hiển thị vị trí mặt hàng đã được mua, cách khách hàng xem sản phẩm và liệu họ có tận dụng được các chương trình khuyến mãi hay không. Ngay cả các bản ghi giao dịch cơ bản cũng có thể rất hữu ích cho việc đo lường doanh thu, theo dõi hàng tồn kho và dự đoán xem bạn cần đặt hàng (hoặc sản xuất) thêm những gì. Trên thực tế, tất cả dữ liệu tài chính của công ty bạn, không chỉ là các giao dịch, đều nên được xem xét. Dữ liệu tài chính có nhiều công dụng như dự đoán dòng tiền và sự ảnh hưởng đến việc đầu tư, cũng như các quyết định kinh doanh lâu dài khác. Nó có thể mang lại hiệu quả cao khi kết hợp với các loại dữ liệu khác. Ví dụ, bạn có thể xem xét dữ liệu tài chính nội bộ của riêng mình cùng với dữ liệu từ bên ngoài về xu hướng ngành và nền kinh tế rộng lớn hơn.
Điều quan trọng là bạn có thể thiết lập khả năng thu thập dữ liệu trong mọi khía cạnh của sản phẩm hoặc dịch vụ, cho dù bạn sản xuất máy kéo, máy giặt hay bán bảo hiểm. Dữ liệu cảm biến đặc biệt hữu ích trong khía cạnh này, và ngày nay, các bộ cảm biến có thể được tích hợp vào hầu hết mọi thứ – từ thiết bị sản xuất đến cửa hàng, cho đến cây vợt tennis. Cảm biến rất nhỏ, giá cả phải chăng và rất dễ lắp đặt vào sản phẩm. Chúng đang thực hiện một cuộc cách mạng hóa trong cách các doanh nghiệp tương tác với khách hàng của họ, cho họ biết khách hàng sử dụng sản phẩm của họ như thế nào và đưa ra đề xuất. Ví dụ, nhà sản xuất xe hơi Volvo của Thụy Điển đang sử dụng dữ liệu để làm cho lái xe và hành khách cảm thấy tốt hơn, và tạo ra một sản phẩm thân thiện hơn với người dùng. Volvo giám sát việc sử dụng các ứng dụng và tính năng tiện nghi để xem khách hàng của họ cảm thấy điều gì là hữu ích, và những gì đang được sử dụng hoặc bị bỏ qua. Chúng bao gồm các tính năng giải trí (như kết nối tích hợp với các dịch vụ truyền thông trực tuyến), cũng như các công cụ thiết thực (như GPS, báo cáo sự cố giao thông, tìm vị trí đậu xe và thông tin thời tiết).
Rõ ràng dữ liệu nội bộ có thể là mỏ vàng và là một phần thiết yếu của bất kỳ chiến lược dữ liệu nào. Ngay cả khi bạn cần kết hợp dữ liệu nội bộ của bạn với một số dữ liệu bên ngoài để có được bức tranh đầy đủ hơn, dữ liệu bạn đã có (hoặc có khả năng thu thập) rất độc đáo đối với doanh nghiệp của bạn, chúng sẽ không bao giờ bị bỏ qua.
Truy cập dữ liệu bên ngoài
Cũng như dữ liệu nội bộ, bạn có thể tận dụng dữ liệu bên ngoài đang có sẵn. Khi ngày càng có nhiều công ty xem dữ liệu như là một mặt hàng kinh doanh, một thị trường mới nổi, thì bất kỳ tổ chức nào cũng có thể mua, bán và trao đổi dữ liệu (Thực tế là nhiều công ty được lập ra hoàn toàn chỉ để cung cấp dữ liệu cho các công ty khác). Experian là một ví dụ về công ty bán dữ liệu có giá trị, cũng như các công ty lớn khác như Amazon và IBM. Nhưng cũng có rất nhiều nhà cung cấp dữ liệu nhỏ hơn, thường tập trung vào một ngành nào đó. Vì vậy, ngay cả khi bạn cần dữ liệu khá chuyên biệt, có khả năng cao là có người nào đó đang thu thập dữ liệu ấy. Ngoài ra, rất nhiều dữ liệu có giá trị đang được thu thập và chia sẻ bởi các sáng kiến dữ liệu mở của chính phủ, các tổ chức nghiên cứu khoa học, và các tổ chức phi lợi nhuận. Hầu hết các chính phủ ngày nay đang nỗ lực phối hợp để làm cho dữ liệu của họ có sẵn miễn phí càng nhiều càng tốt. Đây có thể là một nguồn thông tin lớn về mọi thứ – từ dân số đến thời tiết và thống kê tội phạm.
Nền tảng truyền thông xã hội rõ ràng là nguồn dữ liệu quan trọng và cung cấp nhiều thông tin về khách hàng. Ví dụ, bạn có thể sử dụng phân tích cảm xúc để tìm hiểu xem khách hàng đang nói gì về sản phẩm hoặc dịch vụ của bạn trên các kênh trực tuyến. Facebook có thể sẽ là điểm dừng chân đầu tiên cho dữ liệu lớn về truyền thông xã hội của bạn. Dữ liệu Facebook bao gồm dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu video và “lượt thích” của người dùng. Tất cả dữ liệu này có thể được phân tích và sử dụng cho lợi thế của doanh nghiệp bạn – cho dù bạn muốn nhắm đến mục tiêu quảng cáo hay tìm hiểu xem có bao nhiêu phụ nữ mang thai sống trong một khu vực nhất định. Facebook cung cấp các phân tích vô cùng hữu ích về thông tin khách hàng và phân tích tất cả dữ liệu mà họ có (Một số trong số này bạn sẽ cần phải mua, nhưng rất nhiều thứ có sẵn miễn phí). Mặc dù một số thông tin về hồ sơ Facebook của người dùng là riêng tư (tùy thuộc vào mức độ hiểu biết về cài đặt của họ), nhưng rất nhiều thông tin không phải. Facebook đã phát triển Graph API (Giao diện đồ họa cho lập trình ứng dụng) như một cách để truy vấn lượng thông tin khổng lồ mà người dùng của nó chia sẻ với thế giới. Ngay cả khi người dùng có cài đặt bảo mật của họ tăng lên mức cao nhất (nhưng vẫn có rất nhiều người không bận tâm đến vấn đề này), Facebook vẫn có thể cung cấp thông tin cho các công ty về những gì họ đang nói – chỉ không phải là những cá nhân cụ thể.
Twitter là một nguồn dữ liệu tuyệt vời khác. Mỗi khi người dùng Twitter đề cập đến một công ty hoặc sản phẩm, mọi người đều có thể nhìn thấy, kể cả công ty đó. Ngay cả khi một sản phẩm không được đề cập đến một cách rõ ràng trong dòng tweet, các công ty vẫn có thể phát hiện ra các đặc trưng sản phẩm của họ có trong hình ảnh hay không. Ví dụ về điều này bao gồm một công ty đồ uống tìm kiếm hình ảnh của những người đang uống sản phẩm của họ, nhà hàng tìm hình ảnh được chụp tại nhà hàng của họ, hoặc công ty thời trang tìm kiếm ai đang mặc quần áo của họ. Bạn cũng có thể sử dụng phân tích cảm xúc cho các bài viết đăng trên Twitter để hiểu rõ hơn về mức độ phổ biến của sản phẩm hoặc dịch vụ, hiểu sự hài lòng của khách hàng và giải quyết nhanh chóng mọi vấn đề. Phân tích cảm xúc có thể cho chúng ta biết rất nhiều về cảm xúc, ý kiến và kinh nghiệm của người dùng, mà không cần phải rà soát từng mẩu tin mỗi lần. Trong một ví dụ về phân tích cảm xúc của Twitter, các nhà nghiên cứu đã có thể dự đoán những phụ nữ nào có nhiều nguy cơ bị trầm cảm sau sinh. Họ đã phân tích các bài đăng trên Twitter, tìm kiếm các manh mối bằng lời nói trong những tuần trước khi sinh. Họ phát hiện ra rằng ngôn từ tiêu cực ám chỉ sự bất hạnh, cũng như việc sử dụng từ “Tôi” tăng lên, cho thấy khả năng bị trầm cảm sau sinh sẽ tăng lên.
Google Trends là một công cụ rất mạnh mẽ và linh hoạt, cung cấp số liệu thống kê về lượng tìm kiếm cho bất kỳ cụm từ nào kể từ năm 2004. Bạn có thể thấy mức độ tìm kiếm phổ biến cho các cụm từ hoặc từ nhất định, và cách nó đã thay đổi theo thời gian. Có thể thu hẹp kết quả theo vị trí địa lý. Điều này hữu ích cho việc hiểu các xu hướng trong ngành của bạn, những gì phổ biến ngay bây giờ và những gì đang trở nên phổ biến hơn (hoặc ít phổ biến hơn). Đây là một cách tuyệt vời để đo lường mối quan tâm của người tiêu dùng.
Các tập dữ liệu của chính phủ cũng có thể rất có giá trị. Trong năm 2013, chính phủ Mỹ cam kết sẽ đưa miễn phí tất cả các dữ liệu của chính phủ lên môi trường trực tuyến thông qua trang web data.gov, và trang web này là một kho tàng thông tin. Nó hoạt động như một cổng thông tin cho tất cả các loại dữ liệu của chính phủ – từ khí hậu đến tỷ lệ tội phạm. Bạn có thể sử dụng nó cho mục đích nghiên cứu, hoặc nó có thể phục vụ như một công cụ hữu ích để phát triển các ứng dụng web và di động. Data.gov.uk là trang web tương tự như vậy ở nước Anh.
Dữ liệu điều tra dân số là nguồn dữ liệu hữu ích về dân số, dữ liệu địa lý và giáo dục. Dữ liệu nhân khẩu học như thế này có thể là công cụ dự báo hữu ích về xu hướng, đặc biệt hữu ích nếu bạn đang phát triển một sản phẩm hoặc dịch vụ mới.
Dữ liệu thời tiết, có thể có được thông qua Trung tâm Dữ liệu Khí hậu Quốc gia Mỹ hoặc Văn phòng Met của Anh, chúng có thể được sử dụng theo nhiều cách, từ việc ước tính số lượng khách hàng và lên kế hoạch điều chuyển nhân sự, đến quyết định lượng kem dự trữ vào một ngày cuối tuần cụ thể.
Có hàng nghìn tùy chọn để truy cập vào các nguồn dữ liệu bên ngoài và các tùy chọn đang tăng lên mỗi ngày. Bằng cách này, nhiều tổ chức sẽ thấy rằng dữ liệu họ cần đã tồn tại, giúp giảm đáng kể những gì họ cần phải thu thập và lưu trữ nội bộ. Tuy nhiên, hãy nhớ rằng bạn đang tìm kiếm dữ liệu phù hợp với mình, tức là dữ liệu tốt nhất giúp bạn đạt được mục tiêu chiến lược. Nếu dữ liệu của nhà cung cấp không giúp bạn thực hiện điều đó, thì dù dữ liệu của họ có lớn hay ấn tượng đến mấy cũng không quan trọng đối với bạn.
Khi dữ liệu bạn cần không tồn tại
Khi dữ liệu tốt nhất dành cho bạn chưa tồn tại, bạn phải tìm cách tạo ra và thu thập dữ liệu đó. Trong nhiều lĩnh vực và ngành nghề, các doanh nghiệp đang chiến đấu để trở thành người đầu tiên thu thập dữ liệu mới và biến dữ liệu đó thành giá trị. Thường sẽ có một lợi thế cạnh tranh riêng khi là công ty đầu tiên thu thập nguồn dữ liệu đó.
Công ty dữ liệu nông nghiệp Springg đã đưa ra một cách thu thập và phân tích dữ liệu nhanh chóng – dữ liệu trước đây chưa có ở các nước đang phát triển. Công ty đã nhận ra rằng nông dân ở các nước đang phát triển có thể hưởng lợi từ những dữ liệu tương tự như những nông dân ở các nước phát triển, chẳng hạn như dữ liệu về chất lượng đất. Nhưng ở các vùng nông thôn và vùng kém phát triển, việc lấy mẫu đất và sau đó gửi nó đến phòng thí nghiệm để phân tích có thể mất vài tuần, do đó tác động đáng kể đến mùa vụ hiện tại của nông dân. Kết quả là, không có bất kỳ dữ liệu nào có sẵn để phục vụ cho công việc vì không ai bận tâm thu thập dữ liệu đó. Vì vậy, Springg đã phát triển các trung tâm thử nghiệm di động với các thiết bị IoT có thể kiểm tra đất từ xa, đưa ra kết quả gần như ngay lập tức và sau đó gửi dữ liệu trở lại kho trung tâm để phân tích sâu hơn cùng với tất cả các mẫu đất khác. Rõ ràng, thông tin này mang lại lợi ích cho nông dân, nhưng nó cũng là một chiến thắng lớn cho Springg, người đã thu thập dữ liệu tổng hợp về điều kiện đất từ những nơi chưa bao giờ được thực hiện trước đó. Và bởi vì thông tin này có thể có giá trị thực đối với thị trường hàng hóa và các doanh nghiệp khác, Springg có thể gặt hái được những lợi ích đáng kể từ việc trở thành người đầu tiên cung cấp loại dữ liệu đó ra thị trường. Tìm ra được những phương thức sáng tạo để thu thập dữ liệu mới như thế này giúp các công ty có được lợi thế giá trị trong việc đi đầu. Điều này ít nhất là đúng trong lĩnh vực dữ liệu và phân tích.
Để thu thập loại dữ liệu chuyên biệt này, cần phải có một mạng lưới thiết bị và công nghệ tinh vi, có thể bao gồm mạng không dây, điện thoại thông minh, cảm biến IoT và giao thức truyền thông linh hoạt. Nhưng lợi thế cạnh tranh và tài chính có thể là đáng kể. Các công ty có tầm nhìn xa và sáng tạo trong việc xây dựng cơ sở hạ tầng (vật lý và kỹ thuật) cần thiết để thu thập, phân tích và sử dụng dữ liệu chưa từng được sử dụng trước đó sẽ được hưởng lợi – từ tất cả các quyền và lợi ích đi kèm với việc thu thập và khám phá nó.
Chú thích
1. Đầu năm 2001, nhà phân tích Doug Laney của META Group (nay là Gartner) đã xác định các thách thức về tăng trưởng dữ liệu qua ba chiều: tăng khối lượng, tốc độ và tính đa dạng. Các chiều này sau đó đã được mở rộng bởi những công ty khác, bao gồm cả IBM, người nắm bắt được bốn chữ V trong đồ họa này, xem tại: http://www.ibmbigdatahub.com/infographic/four-vs-big-data