Sau khi đã xác định được cách thức sử dụng dữ liệu mà bạn mong muốn, loại dữ liệu nào sẽ tốt nhất cho mình, và bạn mong muốn phân tích dữ liệu đó như thế nào, bước kế tiếp trong kế hoạch xây dựng một chiến lược dữ liệu vững mạnh là xem xét các công nghệ và những ứng dụng cơ sở hạ tầng trong các quyết định này. Cụ thể hơn, điều này có nghĩa là quyết định xem phần mềm hoặc phần cứng nào sẽ thu thập dữ liệu và biến nó thành những hiểu biết sâu sắc. Nên nhớ rằng, việc sở hữu một khối lượng lớn dữ liệu để xử lý cũng sẽ trở nên vô nghĩa nếu bạn không có khả năng rút ra bài học để phát triển doanh nghiệp của mình từ nguồn dữ liệu đó. Nếu bạn mong muốn thu thập được nhiều kết quả nhất có thể từ nguồn dữ liệu (giúp bạn đưa ra quyết định tốt hơn, cải thiện năng suất hoạt động, hoặc gia tăng doanh thu), bạn cần phải đầu tư vào một vài công cụ hoặc dịch vụ để biến điều đó thành hiện thực. Nhiều công ty đã có sẵn công nghệ và cơ sở hạ tầng dữ liệu mà có lẽ đang tồn tại dưới hình thức là chương trình SQL, các cơ sở dữ liệu quan hệ và các kho dữ liệu. Tất cả chúng đều rất tốt và hữu ích, tuy nhiên, để phát triển các công nghệ liên quan đến dữ liệu lớn, nhiều công ty cần phải xem xét lại cơ sở hạ tầng dữ liệu hiện tại của họ.
Đến tận bây giờ, vẫn rất khó khăn để các doanh nghiệp có thể làm việc trên dữ liệu với nhiều chủng loại và có khối lượng lớn mà không bỏ ra một khoản đầu tư lớn cho cơ sở hạ tầng (chẳng hạn như, các hệ thống và phần mềm đắt đỏ, các cơ sở lưu trữ dữ liệu khổng lồ, hoặc đội ngũ nhân viên về phân tích dữ liệu, và hơn thế nữa). Thật may mắn, điều này không còn là cản trở nữa. Sự phát triển của “dữ liệu lớn là một dịch vụ” (tôi sẽ phân tích thêm ở bên dưới) và thị trường không ngừng mở rộng của các nhà cung ứng dữ liệu đã cho phép các công ty thậm chí là nhỏ nhất cũng có thể sử dụng gói dịch vụ dữ liệu từ bên ngoài, trong đó nguồn lực và kỹ thuật được yêu cầu thì lại vô cùng đơn giản. Những tiện ích công nghệ như điện toán đám mây và lưu trữ phân tán cũng đã mở ra rất nhiều cơ hội mới từ dữ liệu cho các doanh nghiệp, cho phép họ sử dụng sức mạnh của dữ liệu mà không cần phải đặt nặng vấn đề đầu tư cho việc lưu trữ dữ liệu tại chỗ.
Để biến dữ liệu thành những hiểu biết sâu sắc, bạn cần xem xét bốn yếu tố về cơ sở hạ tầng sau đây: 1) thu thập dữ liệu, 2) lưu trữ dữ liệu, 3) phân tích và xử lý dữ liệu, và 4) truy cập và truyền tải dữ liệu. Những yếu tố này nhìn chung được biết đến như là “các lớp” của dữ liệu lớn. Trong chương này, tôi sẽ phân tích lần lượt từng lớp để khám phá những vấn đề cốt lõi và các công cụ được dùng phổ biến ở mỗi lớp.
Giả định rằng phần lớn các công ty đều đã có sẵn một cơ sở hạ tầng dữ liệu nội bộ, đầu tiên chúng ta nên xem xét những công nghệ và hệ thống mà bạn hiện có ở từng lớp dữ liệu nêu trên. Bạn chắc chắn cần phải thực hiện một số thay đổi và bổ sung cho cơ sở hạ tầng hiện tại, tuy nhiên cũng nên ý thức rằng một vài hệ thống hiện tại của bạn có thể đang giữ vai trò quan trọng trong chiến lược dữ liệu. Ví dụ, có phải bạn đã thu thập xong những dữ liệu hữu ích (có thể là thông qua trang web của công ty hoặc nhờ vào trung tâm chăm sóc khách hàng), tuy nhiên bạn vẫn chưa có đủ khả năng phân tích nguồn dữ liệu này một cách toàn diện, hoặc bạn vẫn chưa biết cách truyền tải những hiểu biết sâu sắc này đến những người thật sự cần chúng? Dựa vào nguồn dữ liệu bạn dự định sử dụng, liệu cơ sở lưu trữ dữ liệu hiện tại của bạn có thể được nâng cấp hoặc được cải thiện để xử lý nguồn dữ liệu đó hay không? Khả năng phân tích hiện tại của bạn có giúp ích được gì hay không? Liệu thông tin có đang được truyền tải một cách hiệu quả trong tổ chức của bạn, và nếu có thì nó diễn ra như thế nào? Đây là tất cả những yếu tố cần phải được xem xét.
Bên cạnh đó, bạn phải luôn ý thức rằng bạn không nhất thiết phải đầu tư vào các yếu tố cơ sở hạ tầng ở từng lớp dữ liệu. Nếu như bạn đang mua lại quyền truy cập vào nguồn dữ liệu từ bên ngoài (như Facebook) để cải thiện những quyết định marketing của mình, thì có khả năng là sau đó bạn sẽ không thể sử dụng kết quả từ việc thu thập, lưu trữ và phân tích dữ liệu – hoặc có thể chúng được áp dụng ở mức độ thấp hơn (nhưng chỉ trong trường hợp bạn mong muốn kết hợp nguồn dữ liệu bên ngoài này với nguồn dữ liệu nội bộ của mình). Những yêu cầu về cơ sở hạ tầng của bạn sẽ phụ thuộc rất nhiều vào việc bạn muốn sử dụng dữ liệu như thế nào, bạn muốn làm việc với kiểu dữ liệu nào, cũng như cách bạn cần truy vấn vào nguồn dữ liệu đó. Như vậy, sự thiết lập cho mỗi công ty là duy nhất và không có một cách tiếp cận nào có thể phù-hợp-cho-tất-cả. Đơn giản là bạn chỉ cần lần lượt xem xét mỗi lớp dữ liệu, chú ý đến khả năng hiện có của mình và xây dựng cho mình một danh sách yêu cầu cho từng lớp dữ liệu nêu trên.
“Dữ liệu lớn là một dịch vụ”: giải pháp toàn diện cho các doanh nghiệp?
Trong vài năm qua, có rất nhiều doanh nghiệp mới xuất hiện cung cấp dịch vụ dữ liệu dựa trên điện toán đám mây cho khách hàng doanh nghiệp. Thị trường mới và tăng trưởng nhanh này thường được biết đến như là “Dữ liệu lớn là một dịch vụ” (BDaaS – Big Data as a Service). Trên thực tế, thuật ngữ BDaaS có thể được hiểu là hàng loạt chức năng về dữ liệu, từ cung cấp dữ liệu cho đến cung ứng công cụ phân tích giúp khách hàng thực hiện việc phân tích thực tiễn và cung cấp những hiểu biết sâu sắc thông qua báo cáo. Một vài nhà cung cấp BDaaS còn mở rộng ra thêm các dịch vụ tư vấn và cố vấn về dữ liệu.
Nó đang dần trở thành một thị trường đầy lợi nhuận. Một vài ước tính còn cho thấy tỷ lệ các doanh nghiệp thuộc lĩnh vực công nghệ thông tin hoạt động dựa trên đám mây cùng các hoạt động x-as-a-service-type (mọi thứ đều có thể trở thành dịch vụ) sẽ gia tăng từ khoảng 15% như hiện nay lên đến 35% vào năm 2021. Nếu thị trường dữ liệu lớn toàn cầu được đánh giá là sẽ tăng trưởng đến 88 tỷ đô la vào năm 2021, thì thị trường dịch vụ BDaaS có thể chiếm khoảng 30 tỷ đô la trong con số này.
BDaaS có thể mang lại rất nhiều lợi thế vượt trội, thực tế là các doanh nghiệp rất nhỏ vẫn có thể thu lợi nhuận từ nguồn dữ liệu khổng lồ này, mà họ không có cách nào để truy cập vào nếu như không có BDaaS. BDaaS còn làm giảm đáng kể hoặc giúp loại bỏ hoàn toàn chi phí đầu tư cơ sở hạ tầng ban đầu, từ đó giúp hạn chế các rào cản gia nhập thị trường, đồng thời loại bỏ các trở ngại liên quan đến việc triển khai một chiến lược dữ liệu. Với BDaaS, đơn giản là bạn chỉ cần thuê một nhà cung cấp dịch vụ lưu trữ và phân tích dữ liệu dựa trên đám mây, và sau đó trả tiền cho họ. Bên cạnh đó, khi bạn làm việc với một nhà cung cấp BDaaS, trên lý thuyết, tất cả các vấn đề và yêu cầu về công nghệ hoàn toàn “được bảo mật” và được xử lý bởi nhà cung cấp – để bạn có thể thoải mái tập trung vào những hiểu biết sâu sắc trích xuất từ nguồn dữ liệu. Một lợi ích lớn khác là những nhà cung cấp BDaaS thường chịu trách nhiệm cho chi phí quản trị, tuân thủ và bảo vệ dữ liệu – một điều đặc biệt hấp dẫn dành cho các doanh nghiệp nhỏ hơn.
Hiện nay, rất nhiều tập đoàn lớn như HP và IBM đang cung cấp các phiên bản BDaaS của riêng họ. Nền tảng phân tích của HP, Haven, hiện đang có sẵn trên điện toán đám mây, đồng nghĩa với việc lưu trữ, phân tích và báo cáo hoàn toàn được xử lý bởi các hệ thống HP, và bạn chỉ đơn giản là mua một gói thuê bao để sử dụng nền tảng này, nhờ đó bạn sẽ loại bỏ được những chi phí cơ sở hạ tầng khác. Tương tự như vậy, nền tảng phân tích của IBM dành cho dịch vụ Twitter cung cấp cho các doanh nghiệp khả năng truy cập vào dữ liệu và tiến hành phân tích trên 500 triệu dòng tweet mỗi ngày cùng hơn 300 triệu người dùng hoạt động mỗi tháng của Twitter. IBM sẽ tự mình cung cấp các ứng dụng cũng như các công cụ phân tích để hiểu được ý nghĩa của tất cả dữ liệu phi cấu trúc đó, và họ cũng đào tạo ra một đội ngũ nhân viên tư vấn nhằm hỗ trợ các doanh nghiệp thu được lợi nhuận từ nền tảng này.
Nhà máy sản xuất nông nghiệp John Deere là một ví dụ khác về một doanh nghiệp lớn tự mình cung cấp một phiên bản BDaaS cho riêng mình. Như chúng ta đã biết, các cảm biến được đưa vào những chiếc máy kéo của John Deere để thu thập các dữ liệu về máy móc, cũng như về đất đai và điều kiện vụ mùa. Dữ liệu này được chuyển đến trang web MyJohnDeere.com của công ty và các nền tảng Farmsight. Nông dân có thể đăng ký để truy cập các thông tin được phân tích về mọi thứ từ thời gian để đặt phụ tùng thay thế cho đến vị trí trồng cây, giúp họ giảm bớt gánh nặng trong việc thiết lập cơ sở hạ tầng phân tích của riêng mình.
BDaaS ngày càng đóng vai trò quan trọng trong bán hàng và marketing. Như chúng ta đã thấy trong Chương 5, Acxiom là công ty bán dữ liệu marketing trực tiếp lớn nhất thế giới. Bằng cách áp dụng hệ thống phân tích cho khối lượng dữ liệu cá nhân khổng lồ mà họ thu thập, họ có thể thu hút người tiêu dùng hiệu quả hơn và tìm được nguồn khách hàng tiềm năng cho mình. Các dịch vụ web của Amazon (Amazon Web Services) cùng AdSense và AdWords của Google là các dịch vụ nổi tiếng cũng thuộc nhóm dịch vụ BDaaS.
BDaaS là lựa chọn tuyệt vời nếu bạn muốn tìm hiểu thêm về khách hàng của mình, về thị trường và xu hướng, và đưa ra quyết định thông minh hơn dựa trên những thông tin này. Tuy nhiên, BDaaS sẽ không là một ý tưởng hay nếu bạn muốn sử dụng dữ liệu để cải thiện hoạt động của mình hoặc nếu bạn có ý định tạo ra doanh thu từ dữ liệu. Trong những trường hợp này, tốt hơn hết là bạn nên đầu tư vào công nghệ để thu thập dữ liệu cho riêng mình mà từ đó, bạn sẽ cần chính công nghệ này để lưu trữ và phân tích dữ liệu. Về cơ bản, bất cứ khi nào dữ liệu là một phần quan trọng trong hoạt động và quy trình hàng ngày của bạn, bạn nên duy trì quyền sở hữu và kiểm soát dữ liệu đó hơn là dựa vào các nhà cung cấp bên ngoài. Tuy nhiên, điều này không có nghĩa là bạn phải đầu tư cả một gia tài vào đó – có rất nhiều lựa chọn với chi phí thấp, chẳng hạn như phần mềm mã nguồn mở có thể giúp giảm thiểu chi phí cho cơ sở hạ tầng.
Mặc dù có thể không phù hợp với mọi doanh nghiệp, nhưng làn sóng BDaaS vẫn luôn cực kỳ mạnh mẽ. Nó sẽ ngày càng trở nên phổ biến và thịnh hành hơn. Ngày càng có nhiều công ty nhận ra giá trị của việc triển khai chiến lược dữ liệu, đồng nghĩa với việc nhiều dịch vụ hơn sẽ xuất hiện để hỗ trợ cho họ.
Thu thập dữ liệu
Nguồn dữ liệu hoặc lớp dữ liệu được thu thập là nơi dữ liệu cập bến ở công ty của bạn, cho dù đó là dữ liệu nội bộ hay bên ngoài, có cấu trúc hoặc phi cấu trúc. Chúng bao gồm dữ liệu từ hồ sơ bán hàng, cơ sở dữ liệu khách hàng, phản hồi của khách hàng và nhân viên, các kênh truyền thông xã hội, các danh sách marketing, e-mail lưu trữ và mọi dữ liệu được thu thập từ khía cạnh giám sát hoặc đo lường hoạt động của bạn. Có thể bạn đã thu thập được các dữ liệu cần thiết để đạt được những mục tiêu chiến lược của mình; tuy nhiên, có nhiều khả năng là bạn vẫn cần phải tìm một nguồn cung ứng đối với một số hoặc tất cả những dữ liệu được yêu cầu – và việc tìm nguồn cung ứng cho dữ liệu mới có thể dẫn đến những khoản đầu tư cơ sở hạ tầng mới. Ngày nay, có nhiều công cụ tinh vi để thu thập dữ liệu tốt hơn bao giờ hết, đặc biệt là nhờ vào IoT. Chẳng hạn như, những cảm biến rất nhỏ và tương đối rẻ có thể được dùng để xây dựng rất nhiều thứ, và điều này đã cải thiện hoàn toàn các dự án dữ liệu cho nhiều doanh nghiệp. Ví dụ như trong quá khứ, nếu một công ty vận tải muốn theo dõi dữ liệu từ những chiếc xe tải giao hàng, họ sẽ phải đầu tư vào hệ thống viễn thông tốn kém. Giờ đây, chức năng tương tự có thể được tiến hành trên ứng dụng dành cho điện thoại thông minh. Điện thoại thông minh tầm trung hiện tại cũng đã bao gồm những cảm biến có độ nhạy cao và chính xác như một tiêu chuẩn, có thể cung cấp một lượng lớn dữ liệu, chẳng hạn như dữ liệu định vị GPS, dữ liệu về tốc độ di chuyển,…
Chính xác những công cụ hoặc hệ thống nào mà bạn cần dùng để thu thập dữ liệu sẽ còn tùy thuộc vào loại dữ liệu bạn đã chọn, nhưng những lựa chọn chính bao gồm: các cảm biến (thiết bị này có thể được lắp vào dụng cụ, máy móc, tòa nhà, vỏ của các phương tiện hoặc bất kỳ nơi nào khác mà bạn muốn thu thập dữ liệu từ đó – ngay cả bảng tên nhân viên, chảo chiên và thảm tập yoga!); các ứng dụng tạo dữ liệu người dùng (ví dụ như ứng dụng cho phép khách hàng tìm kiếm và đặt hàng dễ dàng hơn); video CCTV; đèn tín hiệu (chẳng hạn như iBeacons từ Apple, cho phép bạn chụp, truyền dữ liệu đến và đi từ điện thoại di động – đặc biệt hữu ích khi bạn muốn theo dõi bước chân); các tập tin cookie từ trang web giúp bạn theo dõi cách mọi người sử dụng trang web của bạn; các thay đổi đối với trang web của bạn để thúc đẩy khách hàng cung cấp thêm thông tin; và hồ sơ trên các kênh truyền thông xã hội. Để thu thập dữ liệu, bạn có thể tự mình thiết lập hệ thống thu thập dữ liệu tại chỗ hoặc thuê một công ty để thay bạn thu thập dữ liệu.
Tất nhiên, nếu bạn lựa chọn truy cập vào các nguồn dữ liệu bên ngoài (là dữ liệu hoàn toàn sẵn có, chẳng hạn như dữ liệu điều tra dân số hoặc các dữ liệu cao cấp và tốn phí như dữ liệu về phân khúc khách hàng), bạn có thể không cần phải thay đổi bất cứ cơ sở hạ tầng nào, bởi vì bạn đang truy cập vào nguồn dữ liệu của người khác. Nhắc lại một lần nữa, nó phụ thuộc vào cách thức mà bạn muốn sử dụng dữ liệu đó. Nếu bạn đang tìm kiếm những cải tiến trong hoạt động hoặc để tạo ra doanh thu từ dữ liệu, bạn nên sở hữu những hệ thống dữ liệu tại chỗ cho riêng mình.
Sau đây là một ví dụ mang tính sáng tạo về việc thu thập dữ liệu từ một nguồn ít được nghĩ đến: một cú đánh golf. Gần đây, thông qua dữ liệu lớn, công ty GolfTEC đã cấp quyền cho một nghiên cứu để xác định điểm khác biệt giữa những tay golf chuyên nghiệp và những người chơi golf nghiệp dư1. Sử dụng những cảm biến chuyển động hiện đại, camera và màn hình, nghiên cứu về cú đánh SwingTRU đã thu về 225 terabyte dữ liệu từ hơn 13.000 cú đánh golf của các golf thủ ở tất cả các cấp độ khả năng: từ những golf thủ chuyên nghiệp của những giải đấu PGA đến các golf thủ có chỉ số hạng chấp (handicap) 30. Vì vậy, nhiều hướng dẫn chơi golf chỉ được diễn đạt dựa trên trực giác hoặc ý kiến hơn là các sự thật hiển nhiên. Điều này có nghĩa là một huấn luyện viên có thể đưa ra phán đoán và quyết định dựa trên kinh nghiệm, sự hiểu biết của chính họ chứ không phải dựa trên những thống kê vững chắc – thường là do dữ liệu không phải lúc nào cũng sẵn có. Chính vì thế, tham gia 10 bài học golf khác nhau từ 10 huấn luyện viên khác nhau có thể giúp bạn dễ dàng nhận được 10 quan điểm khác nhau về cách thức để cải thiện lối chơi của bạn. Tuy nhiên, bằng cách đo lường từng cú đánh của golf thủ, người chơi có thể nhận được những phân tích dựa trên thực tế và chính xác hơn về trận đấu của họ.
Điều thú vị là nghiên cứu này cho thấy có 6 điểm khác biệt chủ yếu giữa những golf thủ chuyên nghiệp và những golf thủ nghiệp dư, bao gồm ảnh hưởng của động tác lắc hông khi kết thúc cú đánh, động tác nghiêng vai tại điểm va chạm, và cách di chuyển hông lần lượt tại các điểm tác động. Đặc biệt, nghiên cứu này chỉ ra một sự khác biệt cụ thể trong từng chỉ số giữa những người chơi ở cuối thước đo khả năng. Vì vậy, bằng cách so sánh những chỉ số cụ thể của một người với những người chơi có liên quan khác, bất cứ ai cũng có thể biết được mình đang ở đâu trên chiếc thước đo khả năng, đồng thời hiểu được mình cần phải tập trung cải thiện những gì.
Mặc dù GolfTEC đã lấy mẫu 13.000 cú đánh cho nghiên cứu này, nhưng công ty cho biết họ đã thu thập được dữ liệu từ 90 triệu cú đánh ấn tượng trong suốt lịch sử 20 năm của mình. Công nghệ chắc chắn đã luôn được phát triển trong khoảng thời gian này – việc thu thập dữ liệu ban đầu được thực hiện bởi việc sử dụng một hệ thống liên quan đến các cảm biến con quay hồi chuyển và các thanh kim loại gắn trên người chơi, vốn dĩ rất tốn thời gian để có thể khiến chúng trở nên vừa vặn (chưa kể đến một vài bất tiện đối với những người chơi không được khá giả). Với phương pháp hiện tại, người chơi được đánh giá trong một vùng từ trường, nơi mà các chuyển động có thể được đo lường với độ chính xác lên đến 100%. GolfTEC cho rằng nghiên cứu này chỉ là “phiên bản đầu tiên” và còn rất nhiều kế hoạch khác để gia tăng phạm vi thu thập dữ liệu của họ trong tương lai. Và một bài học tuyệt vời cho mọi công ty là phải luôn nhớ rằng công nghệ dùng cho việc thu thập dữ liệu sẽ luôn được cải tiến, cho nên chiến lược dữ liệu của công ty cũng phải được cải tiến.
Hãy xem lại một vài ví dụ trước đây trong cuốn sách này để thấy được những công ty khác đang thu thập dữ liệu như thế nào. Như chúng ta đã thấy trong Chương 4, ShotSpotter đã tích hợp cảm biến âm thanh micro vào bóng đèn LED thông minh của GE trên các con đường trong thành phố để thu được âm thanh của tiếng súng ở các khu vực thành thị. Điều thú vị là phần lớn công nghệ dùng để nhận diện tiếng súng đã tồn tại trong những chiếc bóng đèn của GE, bao gồm GPS, và các bộ chuyển đổi tín hiệu tương tự thành tín hiệu số. Tất cả những gì ShotSpotter cần thêm vào để thu lại âm thanh chỉ là cảm biến âm thanh từ micro. Đây là một ví dụ tuyệt vời cho việc tăng cường khả năng và hệ thống hiện tại, thay vì tốn thời gian lặp lại những thứ đã có sẵn.
Giao thông vận tải ở London (cũng trong Chương 4) cho chúng ta thấy cách thu thập dữ liệu từ nhiều nguồn khác nhau tạo nên một bức tranh đầy màu sắc của những hiểu biết sâu sắc. TfL thu thập dữ liệu thông qua hệ thống bán vé của họ, từ các cảm biến được gắn trên các phương tiện và biển báo giao thông, từ các cuộc khảo sát khách hàng và các nhóm tập trung, và tất nhiên là từ cả phương tiện truyền thông xã hội nữa. Lauren Sager Weinstein đã nói với tôi rằng: “Chúng tôi sử dụng thông tin từ hệ thống back-office để xử lý các giao dịch thanh toán thông qua thẻ không tiếp xúc cũng như thẻ Oyster, các dữ liệu về định vị xe lửa và tín hiệu giao thông, phí thuê xe đạp và phí ùn tắc”.
Lưu trữ dữ liệu
Khi bạn đã xác định được nhu cầu thu thập dữ liệu, bạn cần suy nghĩ về nơi bạn sẽ lưu trữ dữ liệu của mình. Các lựa chọn chính cho việc lưu trữ bao gồm các giải pháp nội bộ truyền thống (như máy chủ của công ty hoặc đĩa cứng), các hệ thống lưu trữ phân tán hoặc dựa trên đám mây, các kho dữ liệu, và kho lưu trữ dữ liệu thô (data lake).
Ngày nay, những ổ đĩa cứng thường sẵn có với nhiều tính năng rất tốt và chi phí thấp, và cũng tương tự như vậy, các máy chủ nội bộ có thể là một giải pháp tiết kiệm chi phí. Nếu bạn có một doanh nghiệp nhỏ hoặc không có nhu cầu lưu trữ một lượng lớn dữ liệu phức tạp, thì giải pháp truyền thống như vậy có lẽ chính là tất cả những gì mà bạn cần. Nhưng nếu bạn cần lưu trữ (và phân tích) một lượng lớn dữ liệu hoặc nếu dữ liệu là một phần quan trọng trong hoạt động của doanh nghiệp, thì bạn gần như chắc chắn sẽ cần đến một cấu hình phức tạp hơn. May mắn thay, các công ty ngày càng mở rộng việc xử lý, lưu trữ dữ liệu với số lượng lớn và đa chủng loại, do đó những hệ thống và các công cụ truy cập (tuy hơi phức tạp) cũng đã được thiết kế nhằm hỗ trợ các công ty ở công đoạn lắp đặt này.
Phức tạp không có nghĩa là cần phải được đầu tư một nguồn tài chính lớn. Vẫn có những phần mềm mã nguồn mở miễn phí cho các tác vụ về dữ liệu lớn quan trọng nhất, bao gồm việc lưu trữ. Và các hệ thống lưu trữ phân tán được thiết kế để chạy trên các phần cứng giá rẻ, sẵn có. Ngày nay, bất kỳ công ty nào cũng có thể sử dụng các phần cứng sẵn có và phần mềm mã nguồn mở để lưu trữ và phân tích dữ liệu, nếu họ dành thời gian để phát triển các kỹ năng cùng kiến thức để thiết lập và đưa các hệ thống này vào hoạt động. Thật không may, có một điểm bất lợi ở các phần mềm mã nguồn mở miễn phí là nó sẽ tốn thời gian và cần một mức độ kỹ năng kỹ thuật nhất định để giúp mọi thứ được thiết lập và hoạt động theo đúng cách như bạn muốn. Nếu bạn không có kinh nghiệm nội bộ, hoặc thời gian biểu chiến lược của bạn không cho phép bạn đầu tư phát triển những công cụ này, thì một giải pháp có trả phí có thể sẽ phù hợp hơn. Các phiên bản “dành cho doanh nghiệp” luôn có sẵn công cụ mã nguồn mở; thường là các phiên bản thương mại hóa của các gói thuê bao miễn phí, được thiết kế để dễ dàng lắp đặt và sử dụng, hoặc đặc biệt hướng tới các ngành nghề khác nhau.
Tìm hiểu các hệ thống lưu trữ phân tán/lưu trữ đám mây
Lưu trữ phân tán hay lưu trữ đám mây đang trở thành một giải pháp ngày càng được nhiều doanh nghiệp lựa chọn vì nó cực kỳ linh hoạt (rất dễ tăng thêm dung lượng lưu trữ khi cần thiết), và bạn không cần phải có một hệ thống lưu trữ dữ liệu vật lý nội bộ. Nó cũng rẻ hơn và dễ tiếp cận hơn nhiều so với việc đầu tư cho các kho dữ liệu và các hệ thống chuyên dụng đắt tiền.
Nói một cách đơn giản, “lưu trữ phân tán” có nghĩa là sử dụng các thành phần giá rẻ và sẵn có để tạo ra một kho lưu trữ dữ liệu dung lượng cao, được kiểm soát bởi một phần mềm giúp bạn theo dõi xem dữ liệu đang ở đâu và tìm kiếm một dữ liệu nào đó khi bạn cần. “Lưu trữ đám mây” đơn giản được hiểu là dữ liệu của bạn (thường) được lưu trữ từ xa, nhưng phải được kết nối với Internet, để nó có thể được truy cập từ mọi nơi có kết nối Internet. Hầu hết các hệ thống lưu trữ phân tán đều sử dụng điện toán đám mây, và hai thuật ngữ “lưu trữ phân tán” và “lưu trữ đám mây” thường được sử dụng thay thế cho nhau.
Trước khi điện toán đám mây xuất hiện, các máy tính vẫn có thể liên kết với nhau trên cùng một hệ thống mạng của công ty, tuy nhiên dung lượng lưu trữ và khả năng của điện toán bị giới hạn trong phần cứng nội bộ của công ty đó (và bị giới hạn bởi không gian vật lý, cũng như ngân sách). Khi một doanh nghiệp muốn tăng dung lượng lưu trữ của họ, họ phải loại bỏ các tập tin dữ liệu cũ hoặc mua phần cứng mới. Mặt khác, điện toán đám mây cho phép bất kỳ doanh nghiệp nào gia tăng khả năng lưu trữ của họ mà không cần phải mua phần cứng mới. Đám mây tập hợp tất cả sức mạnh từ rất nhiều máy tính khác nhau để thực hiện các tác vụ. Điều này có nghĩa là những dữ liệu khối lượng lớn có thể được lưu trữ bằng nhiều máy tính khác nhau, thường ở các vị trí khác nhau, trong đó tất cả đều được kết nối thông qua Internet. Chính điều này và sự kết nối ngày càng gia tăng của các thiết bị IoT đã mở đường cho sự bùng nổ dữ liệu mà chúng ta đã thấy trong những năm gần đây.
Điện toán đám mây, một hệ thống lưu trữ phân tán cho phép dữ liệu được lưu trữ trên nhiều máy tính khác nhau, giúp cho các máy tính cá nhân chỉ cần thực hiện các thao tác nhỏ trong toàn bộ chức năng điện toán. Điều này giúp phân tán tải trọng và hỗ trợ việc lưu trữ những lượng thông tin khổng lồ với chi phí thấp hơn, dễ dàng hơn và hiệu quả hơn. Bằng cách sử dụng các hệ thống phân tán, bạn có thể lưu trữ dữ liệu ở bất cứ đâu mà vẫn có thể tìm thấy và truy cập vào nó một cách nhanh chóng và dễ dàng. Điều này đã giúp các doanh nghiệp chuyển đổi dữ liệu thô thành các khối dữ liệu, cũng như thành những kiểu dữ liệu thích hợp với doanh nghiệp đó. Với khả năng lưu trữ gia tăng đáng kể, chúng ta có thể lưu trữ và phân tích dữ liệu ngay cả dưới dạng video, dạng dữ liệu mà trước đây bị cho là quá nặng nề để có thể lưu trữ với số lượng lớn. Hơn nữa, bởi vì nguyên lý cơ bản của lưu trữ phân tán là để phân phối tải trọng của điện toán trên nhiều máy tính khác nhau, theo một cách tự nhiên, điều này cũng khiến cho việc phân tích dữ liệu trở nên dễ dàng hơn.
Vậy còn vấn đề bảo mật dữ liệu thì sao? Nhiều người cho rằng lưu trữ đám mây kém an toàn hơn hẳn so với lưu trữ dữ liệu trên một máy chủ nội bộ của công ty. Nhưng trong nhiều trường hợp, tôi lại cho rằng lưu trữ đám mây thực sự an toàn hơn là lưu trữ tất cả mọi dữ liệu tại công ty. Với một máy chủ nội bộ, dữ liệu được lưu trữ ở một nơi và chỉ một nơi duy nhất (khiến tôi chợt nghĩ đến cụm từ “bỏ hết trứng vào một giỏ”). Nếu bạn đang sử dụng dữ liệu cho các hoạt động kinh doanh cốt lõi, điều này có thể rất rủi ro. Bất kỳ hình thức gián đoạn nào trong kinh doanh (ví dụ như cháy nổ, trộm cắp, thời tiết khắc nghiệt) đều có thể dẫn đến sự cố mất quyền truy cập tạm thời vào nguồn dữ liệu, hoặc trong trường hợp xấu nhất là mất toàn bộ dữ liệu. Tuy nhiên, với lưu trữ đám mây, dữ liệu được sao chép ở nhiều nơi hơn và có thể được truy cập từ bất cứ nơi nào thông qua Internet.
Giới thiệu về Hadoop
Ngày nay, Hadoop chính là hệ thống được sử dụng rộng rãi nhất để cung cấp dịch vụ lưu trữ và xử lý dữ liệu trên các phần cứng “đại trà” – nghĩa là liên kết các thành phần sẵn có với nhau, trái ngược với các hệ thống tùy chỉnh đắt đỏ được thiết kế dành riêng cho một tổ chức nào đó. Được phát hành vào năm 2005 bởi Tổ chức Phần mềm Apache, Hadoop là một tập hợp các chương trình và quy trình với mã nguồn mở, nơi mà bất cứ ai cũng có thể sử dụng chúng như là “xương sống” của chính cơ sở hạ tầng dữ liệu. Giống như những gì bạn mong đợi về bất kỳ một hệ thống phân tán nào, nó rất linh hoạt, cho phép các doanh nghiệp mở rộng, điều chỉnh việc lưu trữ dữ liệu của họ và phân tích chúng khi cần thiết. Ước tính có hơn một nửa trong số các công ty thuộc danh sách Fortune 500 sử dụng Hadoop, bao gồm khá nhiều công ty trực tuyến lớn. Vì nó là một giải pháp mã nguồn mở, nên bất kỳ ai cũng có thể tự do thay đổi nó theo mục đích của riêng họ; các điều chỉnh trên phần mềm được thực hiện bởi các kỹ sư chuyên nghiệp, chẳng hạn như Google, sẽ được phản hồi lại cho cộng đồng phát triển, nơi mà các điều chỉnh thường được sử dụng để cải thiện sản phẩm “chính thức”. Hình thức phát triển kết hợp cho cả người dùng miễn phí và người dùng trả phí này là tính năng chủ yếu của các phần mềm mã nguồn mở.
Hadoop được tạo thành từ “những mô đun”, với hai mô đun quan trọng nhất là hệ thống tập tin phân tán và MapReduce. Hệ thống tập tin phân tán cho phép bạn truy cập vào dữ liệu được lưu trữ bằng một hình thức truy cập đơn giản. Hadoop sử dụng hệ thống tập tin riêng, nằm “trên” hệ thống tập tin của chính máy tính chủ, nghĩa là hệ thống có thể được truy cập bằng bất kỳ máy tính nào, miễn là nó đang chạy một hệ điều hành được hỗ trợ. MapReduce cung cấp những công cụ cơ bản để xử lý và phân tích dữ liệu. Nó được đặt tên theo hai hoạt động cơ bản mà mô đun này thực hiện là: “bản đồ” (Map) có nghĩa là định vị dữ liệu và đưa nó vào một định dạng phù hợp để phân tích, và “cắt giảm” (Reduce) có nghĩa là thực hiện một công thức toán học (ví dụ như tính số lượng nam giới ở độ tuổi 30 - 45 trong một cơ sở dữ liệu khách hàng).
Một hệ thống phân tán như Hadoop cho phép bạn lưu trữ những khối lượng dữ liệu khổng lồ. Ví dụ, Walmart sở hữu một cơ sở dữ liệu giao dịch theo thời gian thực, bao gồm 40 petabyte dữ liệu – và đó chỉ là dữ liệu giao dịch từ những tuần gần nhất. Toàn bộ dữ liệu từ tất cả các chuỗi cửa hàng, các đơn vị trực tuyến cùng các công ty được lưu trữ trên một hệ thống quản lý và lưu trữ dữ liệu phân tán của Hadoop. Facebook cũng có một hệ thống lưu trữ phân tán dựa trên nền tảng HBase của Hadoop để lưu trữ các dãy dữ liệu của mình.
Khi ở trạng thái thô sơ, sử dụng các mô đun mã nguồn mở cơ bản do Apache cung cấp, Hadoop có thể rất phức tạp, thậm chí là đối với các chuyên gia về công nghệ thông tin. Vì lý do này, nhiều phiên bản có tính phí (như Cloudera và Amazon Web Services) đã được ra đời nhằm đơn giản hóa tác vụ cài đặt và vận hành một hệ thống Hadoop, cũng như cung cấp dịch vụ đào tạo cho nhân viên nội bộ và các dịch vụ hỗ trợ về sau. Nếu bạn không có nhiều kỹ năng kỹ thuật nội bộ thì một trong số các phiên bản tính phí có thể sẽ là phương pháp tối ưu dành cho bạn; và vẫn còn rất nhiều phiên bản cải tiến hơn sẽ được đề cập đến trong chương này.
Spark: một biên bản thay thế của Hadoop
Giống như Hadoop, Spark là một khuôn khổ cung cấp một số nền tảng và hệ thống được kết nối để lưu trữ và xử lý dữ liệu. Ngoài ra, cũng giống như Hadoop, Spark cũng là một hệ thống mã nguồn mở được phát triển bởi Tổ chức Phần mềm Apache.
Nhiều người trong ngành nhìn nhận Spark như là một sản phẩm cao cấp hơn Hadoop, phần lớn là vì nó được thiết kế để xử lý dữ liệu theo các mảng “trong phạm vi bộ nhớ”. Điều này có nghĩa là nó chuyển đổi nhanh chóng dữ liệu từ các đĩa cứng vật lý từ tính sang bộ nhớ điện tử, nơi mà quá trình xử lý có thể được tiến hành cực kỳ nhanh gọn – nhanh hơn đến 100 lần trong một số tác vụ. Trên thực tế, vào năm 2014, Spark đã lập kỷ lục thế giới khi hoàn thành một bài kiểm tra tiêu chuẩn liên quan đến việc sắp xếp 100 terabyte dữ liệu trong vòng 23 phút – đánh bại kỷ lục thế giới trước đó là 71 phút do Hadoop nắm giữ. Tốc độ này đã giúp Spark trở thành lựa chọn phổ biến của các công ty có yêu cầu lưu trữ và phân tích các dữ liệu nhiều petabyte. Nó cũng rất phù hợp với các ứng dụng cho lĩnh vực học máy. Một yếu tố quan trọng khác của khung chương trình này là Spark Streaming, cung cấp một nền tảng để thực hiện các phân tích về dữ liệu trực tuyến theo thời gian thực – chẳng hạn như tự động phân tích cảnh quay CCTV hoặc dữ liệu truyền thông xã hội khi đang di chuyển. Điều này giúp cho Spark trở thành một lựa chọn rất hấp dẫn dành cho bất kỳ tổ chức nào đang tìm kiếm cách thức để phân tích dữ liệu theo thời gian thực. Ví dụ, trong marketing, người ta có thể đặt mục tiêu cho các quảng cáo dựa trên hành vi của người tiêu dùng vào một thời điểm cụ thể, hơn là chỉ dựa vào lịch sử hành vi của người tiêu dùng đó.
Cũng như Hadoop, để làm cho công nghệ dễ tiếp cận hơn với các doanh nghiệp, nhiều nhà cung cấp phải đưa ra các phiên bản Spark có tính phí của riêng họ. Các phiên bản này có thể nhắm vào những nhóm ngành cụ thể, hoặc có cấu hình định hướng khách hàng cho những nhóm khách hàng cá nhân, đồng thời có thể bao gồm cả dịch vụ tư vấn và hỗ trợ.
Giới thiệu ngắn gọn về những kho lưu trữ dữ liệu thô và kho lưu trữ tổng hợp
Trong một kho dữ liệu tổng hợp truyền thống, mọi thứ được lưu trữ và sắp xếp theo một cách nhất định – các sản phẩm nằm trong các thùng chứa, các thùng chứa nằm trên kệ chứa, các kệ chứa được sắp xếp theo hàng,… Đây là cách mà các kho dữ liệu tổng hợp được tổ chức sắp xếp trong nhiều năm qua, và nó đã được chứng minh là một phương pháp thành công. Trong kho dữ liệu tổng hợp, dữ liệu được tổ chức theo phương pháp phân cấp và hợp lý đã được cơ cấu, sắp xếp một cách cố định.
Tuy nhiên, đã có rất nhiều cuộc thảo luận trong những năm qua về việc thay thế kho lưu trữ tổng hợp truyền thống bằng những kho dữ liệu thô. Trong một kho dữ liệu thô, dữ liệu chỉ cần đưa vào một cách phi cấu trúc và ở dạng thô sơ nhất – tươi mới từ lúc được thu thập và không bị pha trộn bởi các tác vụ xử lý hoặc phân tích. Điều này khiến cho các kho dữ liệu thô trở nên linh hoạt hơn các kho lưu trữ tổng hợp, bởi lẽ dữ liệu có thể được cấu hình hoặc tái cấu trúc khi cần thiết, tùy thuộc vào thao tác mà bạn muốn thực hiện với chúng. Trong kho dữ liệu thô, mỗi phần dữ liệu riêng lẻ được xem là một đối tượng theo đúng bản chất của nó và không có phần dữ liệu nào “cao cấp hơn” những phần dữ liệu khác. Thay vì một hệ thống được lưu trữ theo thứ bậc giống như một nhà kho, các kho dữ liệu thô về cơ bản là hoàn toàn phi tổ chức. Có một số lợi thế rất rõ ràng khi tiếp cận dữ liệu trong các kho dữ liệu thô. Khi dữ liệu được lưu trữ mà không có cấu trúc xác định nào, chúng có thể nhanh chóng được định hình thành bất kỳ hình thức nào phù hợp. Nó có thể được truy vấn bởi bất cứ công cụ nào tốt nhất cho công việc. Tuy nhiên, cũng có những vấn đề bảo mật lớn cần phải được xem xét nếu bạn có ý định lưu trữ tất cả dữ liệu của công ty ở cùng một nơi.
Hiện nay, tuy vẫn còn rất sớm nhưng một vài tập đoàn lớn cũng đã thực hiện những bước tiến nhảy vọt trong việc lưu trữ dữ liệu của họ ở một kho lưu trữ thô. Các kho dữ liệu thô được mong đợi là sẽ trở nên phổ biến rộng rãi đến các doanh nghiệp đang tìm kiếm sự linh động và linh hoạt cho dữ liệu của mình. Chỉ với lý do này thì kho dữ liệu thô cũng đủ đáng giá để trở thành một lựa chọn tiềm năng trong tương lai.
Phân tích và xử lý dữ liệu
Khi đã xác định được nhu cầu thu thập và lưu trữ dữ liệu, bạn cần xem xét đến cách xử lý và phân tích dữ liệu của mình để trích xuất những thông tin cần thiết. Do đó, toàn bộ lớp dữ liệu này sẽ nói về các công cụ cần thiết để biến dữ liệu thành những hiểu biết sâu sắc. Cụ thể hơn, chúng ta sẽ đi vào giải thích những ngôn ngữ lập trình, cũng như các phần mềm phân tích có liên quan.
Giống như lưu trữ dữ liệu, cũng có rất nhiều công nghệ mã nguồn mở có sẵn để giúp bạn xử lý và phân tích dữ liệu. Bằng cách khai thác các tùy chọn mã nguồn mở, bạn có thể loại bỏ khoản chi phí đầu tư ban đầu cho những cơ sở hạ tầng phân tích dữ liệu đắt tiền. Tuy nhiên, mã nguồn mở không chỉ dành cho những công ty muốn tiết kiệm ngân sách. Kể cả những tập đoàn lớn nhất cũng có xu hướng áp dụng các công nghệ mã nguồn mở ngày càng nhiều. Với mã nguồn mở, bạn không bị gò bó vào một gói cước hay một nhà cung cấp cụ thể, cũng là một yếu tố cần phải được xem xét khi bạn xem dữ liệu như là một tài sản kinh doanh quan trọng. Khi dữ liệu của bạn truyền qua hệ thống mã nguồn mở, bạn có thể dễ dàng thay đổi người bán hoặc nhà cung cấp mà không gặp quá nhiều biến động.
Quá trình trích xuất những hiểu biết sâu sắc từ dữ liệu được chia thành ba bước: 1) chuẩn bị dữ liệu (xác định, sắp xếp và định dạng dữ liệu để bạn có thể phân tích dữ liệu dễ dàng hơn); 2) xây dựng mô hình phân tích; và 3) đưa ra kết luận từ những hiểu biết sâu sắc thu được. Một phương pháp phổ biến để phân tích dữ liệu là sử dụng công cụ MapReduce mà tôi đã đề cập trước đó trong chương này. Về cơ bản, công cụ này được sử dụng để lựa chọn các yếu tố của dữ liệu bạn muốn phân tích và đưa chúng vào một định dạng mà từ đó chúng ta có thể thu được những hiểu biết sâu sắc. Các phần mềm có tính phí từ những nhà cung cấp lớn như IBM, Oracle và Google cũng có thể hỗ trợ chuyển dữ liệu thành những hiểu biết sâu sắc. Google có BigQuery, được thiết kế để cho phép bất kỳ ai dù chỉ có một chút kiến thức về khoa học dữ liệu cũng biết cách truy vấn các tập tin dữ liệu khổng lồ. Ngoài ra, còn có các tùy chọn khác như Cloudera, Microsoft HDInsight và Amazon Web Services. Bên cạnh đó, nhiều công ty khởi nghiệp đang tham gia vào thị trường này, cung cấp các giải pháp đơn giản với tuyên bố rằng bạn chỉ cần giao phó tất cả dữ liệu cho họ, và ngồi chờ trong giây lát trong khi họ ghi chú lại những hiểu biết sâu sắc quan trọng nhất và đề xuất các hành động để bạn thực hiện. Hầu hết các dịch vụ tính phí đều sử dụng khung chương trình của Hadoop làm cơ sở và dựa trên nền tảng đó để phân tích.
Dưới đây, tôi đã tìm ra được một số dịch vụ phân tích tốt nhất và được sử dụng rộng rãi nhất trên thị trường hiện nay. Với bất kỳ sản phẩm có tính phí nào trong một thị trường cạnh tranh, mỗi sản phẩm đều có những ưu điểm và nhược điểm của nó, vì vậy bạn cần phải xem xét thật cẩn thận để có thể xác định được sản phẩm nào là phù hợp nhất với nhu cầu của mình. Có thể nói rằng tất cả đều được đánh giá cao và đều là những lựa chọn phổ biến!
Amazon Web Services
Amazon đóng gói lại những bí mật kỳ diệu giúp doanh nghiệp của họ có thể hoạt động một cách trơn tru và bán nó cho các công ty khác. Mô hình kinh doanh của Amazon ngay từ đầu đã dựa trên dữ liệu lớn – sử dụng thông tin cá nhân để đề xuất một trải nghiệm mua sắm đã được cá nhân hóa. Amazon Web Services bao gồm Điện toán Đám mây Elastic và Elastic MapReduce, là những dịch vụ lưu trữ và phân tích dữ liệu có quy mô lớn trên đám mây.
Cloudera CDH
Được thành lập bởi các cựu nhân viên của Google, Yahoo!, Facebook và Oracle, Cloudera cung cấp các giải pháp thương mại cho dữ liệu lớn của Hadoop, cũng như các mã nguồn mở. Những phiên bản phân phối của Cloudera tận dụng cỗ máy phân tích Impala của họ, công cụ được áp dụng và đưa vào các gói dịch vụ cung cấp bởi các công ty đối thủ như Amazon và MapR.
Nền tảng dữ liệu Hortonworks (HDP)
Không giống như các nền tảng phân tích lớn khác, HDP bao gồm toàn bộ các đoạn mã nguồn mở với tất cả các phần tử được xây dựng thông qua Tổ chức Phần mềm Apache. Họ thu lợi nhuận bằng cách cung cấp các dịch vụ và hỗ trợ để mã nguồn hoạt động, đồng thời cung cấp các kết quả mà bạn theo dõi.
Infobright
Hệ thống quản lý cơ sở dữ liệu này có sẵn cả phiên bản mã nguồn mở, miễn phí và phiên bản trả tiền độc quyền. Sản phẩm này đặc biệt nhắm đến những khách hàng đang làm việc với IoT. Họ cung cấp ba cấp độ dịch vụ cho người dùng trả phí, trong đó khách hàng ở phân khúc cao hơn được cấp quyền truy cập vào bộ phận trợ giúp, cũng như rút ngắn thời gian nhận được phản hồi đối với e-mail hỗ trợ.
Nền tảng dữ liệu lớn IBM
IBM cung cấp một loạt các sản phẩm và dịch vụ được thiết kế nhằm giúp các doanh nghiệp dễ dàng hơn trong việc tiếp cận với những phân tích phức tạp về dữ liệu lớn. Họ cung cấp bản phân phối Hadoop của riêng mình, còn được biết đến với cái tên InfoSphere BigInsights.
IBM Watson
Watson là phần mềm trí tuệ nhân tạo đầu tiên giành được danh tiếng bằng việc chiến thắng trò chơi truyền hình của Mỹ Jeopardy! vào năm 2011. Đó là một giải pháp về điện toán nhận thức và công nghệ học máy của IBM, sử dụng công nghệ xử lý ngôn ngữ tự nhiên. Watson hoạt động theo xác suất: khi bạn hỏi nó một vấn đề, nó sẽ trả về một loạt đáp án có thể đúng, được xếp hạng theo mức độ chính xác của chúng. Hơn 300 tổ chức đối tác đã làm việc với IBM và Watson trong nhiều ngành (như chăm sóc sức khỏe, marketing, bán lẻ và tài chính). Trong Chương 3, chúng ta đã thấy cách mà Watson của IBM đã giúp cho các nhà tổ chức giải đấu Wimbledon sắp xếp nội dung phù hợp với những gì người hâm mộ muốn đọc. Bằng cách dò tìm thông qua hàng trăm nghìn phương tiện truyền thông xã hội và các bài đăng trực tuyến có liên quan đến giải đấu, Watson có thể xác định được những câu chuyện mà người hâm mộ có hứng thú nhất, và giúp ban nội dung sáng tạo chính xác loại thông tin mà người hâm mộ muốn xem.
MapR
MapR cung cấp phiên bản phân phối Hadoop của riêng họ, đặc biệt khác xa so với những phiên bản khác vì nó thay thế Hệ thống Tập tin Hadoop mà mọi người thường sử dụng bằng nền tảng dữ liệu thay thế MapR của riêng mình, thứ được cho là sẽ mang lại hiệu suất hoạt động tốt hơn và dễ sử dụng hơn.
Microsoft HDInsight
Dịch vụ phân tích hàng đầu của Microsoft, HDInsight, dựa trên nền tảng dữ liệu Hortonworks, nhưng được thiết kế riêng để làm việc với chính các dịch vụ đám mây Azure của họ và hệ thống quản lý cơ sở dữ liệu SQL Server. Một lợi thế lớn cho các doanh nghiệp là nó được tích hợp với Excel, có nghĩa là ngay cả nhân viên chỉ có kỹ năng công nghệ thông tin cơ bản cũng có thể thực hiện những phân tích trên dữ liệu lớn.
Bộ dữ liệu lớn Pivotal
Gói dữ liệu lớn của Pivotal bao gồm phiên bản phân phối Hadoop của riêng họ, Pivotal HD và nền tảng các phân tích Pivotal Analytics. Mô hình kinh doanh này cho phép người dùng lưu trữ một số lượng dữ liệu không giới hạn và trả phí tùy theo số lượng dữ liệu mà họ phân tích. Công ty này đầu tư mạnh vào triết lý kho dữ liệu thô để có một kho lưu trữ dựa trên đối tượng thống nhất cho tất cả các dữ liệu của tổ chức.
Splunk Enterprise
Nền tảng này được dành riêng cho các doanh nghiệp muốn tạo ra nhiều dữ liệu thông qua máy móc của chính họ. Mục tiêu đề ra của Splunk là “dữ liệu từ máy móc phục vụ cho sự khôn ngoan trong hành động” và IoT chính là chìa khóa trong chiến lược của họ. Các phân tích của họ đã thúc đẩy các chiến dịch giảm giá cho hệ thống pizza Domino’s tại Mỹ.
Giờ đây, sức hút của dữ liệu lớn nằm ở phạm vi ngày càng tăng của các tùy chọn phân tích được mở ra cho các doanh nghiệp. Ngay cả khi bạn đang bắt đầu từ con số không với dữ liệu, hoặc có ít chuyên môn kỹ thuật nội bộ hay có một ngân sách rất hạn chế, hoặc đang làm việc trong một lĩnh vực chuyên môn cao, một lựa chọn phân tích phù hợp hoàn toàn nằm trong tầm tay bạn.
Cung cấp quyền truy cập vào dữ liệu
Lớp cuối cùng trong bất kỳ cơ sở hạ tầng dữ liệu nào cũng là cung cấp quyền truy cập vào dữ liệu cho người dùng (hoặc thậm chí là cả máy móc) cần nó, cũng như các công cụ và hệ thống giúp cho việc truy cập có thể được thực hiện. Bước cuối cùng chính là việc đặt hệ thống hoặc quy trình vào đúng chỗ để đảm bảo các thông tin có thể dễ dàng được truy cập (và có thể hiểu được) để chúng có thể dẫn đến những cải tiến kinh doanh. Mô tả trực quan và truyền tải dữ liệu là một khía cạnh của lớp này, quyết định ai được phép truy cập vào dữ liệu nào cũng như việc kiểm soát quyền truy cập đó, và đảm bảo tốt cho việc quản lý dữ liệu.
Như chúng ta đã thấy trong Chương 3, hiện đang có xu hướng nhắm đến việc mở rộng quyền truy cập dữ liệu ở nhiều tổ chức, có nghĩa là tất cả mọi người ngay tại công ty đều có thể truy cập dữ liệu và sử dụng dữ liệu đó làm nền tảng cho quyết định của họ. Vì vậy, người ta nhấn mạnh việc báo cáo BI (trí tuệ doanh nghiệp) tự phục vụ, cho phép mọi người có khả năng lựa chọn cách thức họ muốn thẩm vấn dữ liệu và nhận được thông tin mà họ cần, trái ngược với việc đơn giản hóa các báo cáo BI tiêu chuẩn. Các công ty Citibank và Walmart đang tạo ra những trung tâm dữ liệu để cung cấp cho người dùng quyền truy cập vào hàng tỷ điểm dữ liệu. Tại cửa hàng bán lẻ trực tuyến của Etsy, 80% lực lượng lao động hiện đang truy cập và sử dụng một khối lượng khổng lồ dữ liệu giao dịch, dữ liệu tìm kiếm của công ty để đưa ra quyết định tốt hơn và mang lại một trải nghiệm mua sắm được cá nhân hóa hơn cho khách hàng. Tùy thuộc vào những đặc điểm cụ thể của doanh nghiệp bạn, bạn cũng có thể cấp quyền truy cập dữ liệu cho người dùng bên ngoài cũng như các khách hàng, và điều này nên được xem xét cẩn thận. Ví dụ, Etsy chia sẻ dữ liệu nhấp chuột với các nhân viên bán hàng Etsy thông qua Hệ thống Số liệu Thống kê các Cửa hàng (Shop Stats system), cho phép các nhân viên bán hàng thực hiện phân tích của riêng họ và nhờ đó giúp gia tăng doanh số bán hàng (và đổi lại, Etsy được hưởng lợi từ nguồn doanh thu này). Tương tự, cổng thông tin trực tuyến MyJohnDeere.com của John Deere cho phép nông dân truy cập vào những dữ liệu được thu thập từ các cảm biến gắn trên máy móc của họ, cũng như những dữ liệu tổng hợp từ các nông dân khác trên khắp thế giới. Sự giúp đỡ của IBM đối với các nhà tổ chức giải đấu Wimbledon cho thấy cách thức mà dữ liệu có thể được truy cập bởi vô số nhóm người dùng, từ các nhóm marketing nội bộ đến đội ngũ nhân viên bên trong tổ chức, những người tạo ra nội dung để phục vụ các nhà báo và người hâm mộ bên ngoài. Giao diện các thống kê của IBM Slamtracker từng hoạt động dưới dạng một ứng dụng độc lập trong trang web về các trận đấu, nay đã được tích hợp vào các báo cáo truyền thông của giải đấu. Hiện nay, thông tin từ hệ thống có thể được sử dụng trên tất cả các kênh, bao gồm các thông tin được chia sẻ trên các nền tảng truyền thông xã hội và được đề cập trong các báo cáo về giải đấu. Quyền truy cập ngày càng gia tăng này làm cho dữ liệu trở nên hữu ích và có ý nghĩa hơn cho nhiều đối tượng người dùng hơn.
Cân nhắc trong việc quản lý dữ liệu
Dữ liệu hiện đã vượt ra khỏi phạm vi “chỉ thuộc lĩnh vực công nghệ thông tin”. Ngày nay, các công ty thông minh đã triển khai những chiến lược dữ liệu trên toàn công ty nhằm thu hút tất cả nhân viên hoạt động và đưa ra quyết định theo định hướng dữ liệu. Tuy nhiên, khi số lượng nhân viên làm việc với dữ liệu tăng lên và có nhiều nhân viên thực sự tương tác với dữ liệu của công ty một cách thường xuyên hơn, thì ai sẽ là người chịu trách nhiệm quản lý dữ liệu? Trong những trường hợp này, những thành viên trong đội ngũ dữ liệu của mô hình truyền thống sẽ là những người duy nhất chịu trách nhiệm chăm sóc cho những dữ liệu mà dường như đã bắt đầu lỗi thời. Quản lý dữ liệu, hay còn được hiểu là giao lại trọng trách quản lý dữ liệu cho tất cả nhân viên làm việc với dữ liệu một cách đúng đắn, sẽ chính là câu trả lời.
Khi trang web Ancestry.com tái cơ cấu các hoạt động dữ liệu của nó, mục tiêu chính là dịch chuyển từ quy trình xử lý dữ liệu hàng loạt mỗi ngày sang quy trình xử lý thời gian thực và trực tiếp. Tuy nhiên, một kết quả phụ bất ngờ là sự hiểu biết ngày càng được mở rộng về cách thức dữ liệu được sử dụng trong toàn bộ doanh nghiệp. Khi dữ liệu không được chăm sóc đúng cách, nó trở nên vô nghĩa và vô giá trị. Thậm chí tệ hơn, nếu dữ liệu đã lỗi thời, bị phân loại không chính xác hoặc được sử dụng sai bối cảnh, nó sẽ dẫn đến các quyết định sai lệch có thể ảnh hưởng đến vị thế lâu dài của công ty. Siêu dữ liệu bị thiếu sót và không trùng khớp có thể gây ra các sự cố nghiêm trọng cho doanh nghiệp, ví dụ như với công ty Ancestry, khi mà cơ sở dữ liệu của họ chứa hơn 13 tỷ bản ghi trên hơn 10 petabyte dung lượng lưu trữ. Chris Sanders, giám đốc của Phòng Lưu trữ và Trực quan hóa Dữ liệu tại Ancestry.com giải thích: “Chúng tôi gặp phải nhiều vấn đề khi dữ liệu không tồn tại hoặc không chính xác. Đối với các vấn đề về lưu trữ tổng hợp, trí tuệ doanh nghiệp, cũng như báo cáo và các nghĩa vụ pháp lý, hoặc việc trả tiền bản quyền, nó đúng là một cơn ác mộng”. Hiện nay, tất cả các nhân viên làm việc với dữ liệu tại Ancestry.com đều được khuyến khích trong việc quản lý dữ liệu, chịu trách nhiệm duy trì tính chính xác của dữ liệu khi họ tương tác với dữ liệu đó.
Tôi chắc chắn rằng cách tiếp cận của Ancestry đang ngày càng nổi tiếng khi càng có nhiều doanh nghiệp phải tự mình đối phó với khối lượng dữ liệu gia tăng không ngừng và giải quyết khối lượng công việc của một số lượng lớn nhân viên. Quản lý dữ liệu – khi được triển khai trên toàn doanh nghiệp – sẽ làm giảm những rủi ro do các thông tin xấu, lỗi thời hoặc không chính xác gây ra. Vì lý do đó, tôi dự đoán nó đang dần trở thành một cách tiếp cận phổ biến dành cho các doanh nghiệp đang phấn đấu để duy trì lợi thế cạnh tranh.
Truyền dữ liệu
Có rất nhiều phương pháp khác nhau để truyền dữ liệu đến những người hoặc máy móc cần chúng. Cuối cùng, bạn cần một phương thức truyền tải (dễ dàng và đơn giản) để làm nổi bật những thông tin, đồng thời chỉ ra cách mà các quyết định và hành động dựa trên dữ liệu có thể dẫn đến những cải thiện trong kinh doanh như thế nào.
Nếu bạn đang sử dụng dữ liệu để hỗ trợ cho việc đưa ra quyết định tốt hơn trong doanh nghiệp, các đồ thị và báo cáo đơn giản là những cách hiệu quả để đưa thông tin đến với những người cần chúng, và không nên đặt ra bất cứ yêu cầu đầu tư nào cho cơ sở hạ tầng bổ sung. Trong một doanh nghiệp nhỏ, đây có thể là tất cả những gì mà bạn cần. Có một số hướng dẫn giúp bạn truyền dữ liệu trong các báo cáo/biểu đồ đơn giản đã được đề cập ở Chương 3; tuy nhiên, về cơ bản, việc truyền tải này chỉ cần rõ ràng và súc tích. Điều này có nghĩa là không nên chôn vùi những thông tin đáng giá trong một bản báo cáo dài 50 trang hay một biểu đồ phức tạp mà không ai hiểu được. Nếu những hiểu biết sâu sắc cốt lõi không được trình bày một cách rõ ràng, chúng sẽ không thể dẫn đến các hành động cần thiết.
Đối với nhu cầu truyền tải phức tạp hơn, các nền tảng có tính phí về trực quan hóa dữ liệu sẽ giúp cho dữ liệu trở nên hấp dẫn và dễ hiểu hơn. Sự phát triển của dữ liệu cũng như các phân tích đã mang đến một trào lưu sử dụng các công cụ trực quan nhằm mục đích giúp cho kết quả đầu ra của các phân tích trông có vẻ bắt mắt hơn, đồng thời giúp người xem cải thiện kiến thức và tốc độ nhận biết. Nhiều nền tảng phân tích đã được đề cập trong chương này, bao gồm một số chức năng về trực quan hóa dữ liệu, vì vậy bạn không cần phải đầu tư vào các hệ thống bổ sung. Tuy nhiên, nếu chúng không đáp ứng được nhu cầu của bạn thì vẫn có một số công cụ trực quan hóa dữ liệu rất tuyệt vời dựa trên điện toán đám mây tương đối dễ sử dụng, chẳng hạn như QlikView và Tableau (đều là những công cụ có tính phí).
Các báo cáo BI tự phục vụ cùng những bảng điều khiển quản lý tổng quan sẽ là một lựa chọn tuyệt vời bất cứ khi nào bạn muốn mọi người có thể truy vấn dữ liệu và trích xuất những hiểu biết sâu sắc cho riêng họ. Việc bạn quyết định báo cáo kết quả thông qua các báo cáo truyền thống sử dụng một số kỹ thuật trực quan hóa dữ liệu, hay lựa chọn các bảng điều khiển quản lý tổng quan và/hoặc các đồ họa thiết kế thông tin sẽ thường phụ thuộc vào chuyên môn nội bộ của bạn. Tuy nhiên, hãy nhớ rằng, đối với bất kỳ hệ thống báo cáo hoặc bảng điều khiển tuyệt vời nào, dù có phức tạp hay khó khăn đến đâu, thì vẫn nên giúp cho người sử dụng dễ dàng hiểu được những hiểu biết sâu sắc cốt lõi cần thiết để cải thiện hiệu suất kinh doanh. Trong cuốn sách này , nhiều quy tắc tương tự cũng được áp dụng cho việc truyền tải và trực quan hóa dữ liệu trong các báo cáo và biểu đồ đơn giản, chẳng hạn như bổ sung thêm các tiêu đề, cũng như kết hợp các mẩu chuyện và hình ảnh trực quan.
Ở đoạn cuối thước đo phức tạp hơn, sự tương tác tự động giữa máy móc với nhau (M2M) là một khía cạnh quan trọng của việc tương tác dữ liệu và cần được xem xét trong bất kỳ chiến lược dữ liệu nào. Thật vậy, nó là một thành phần thiết yếu của bất kỳ một sản phẩm hoặc dịch vụ nào có liên quan đến IoT vì tương tác M2M sẽ cho phép các thiết bị trao đổi dữ liệu. Các công cụ và hệ thống truyền tải M2M có thể nằm trong phạm vi từ các thuật toán giúp trang web của bạn đề xuất sản phẩm X nếu khách hàng mua sản phẩm Y, các hệ thống quản lý cổ phiếu hỗ trợ tự động đặt thêm cổ phiếu khi đạt đến một hạn mức nhất định nào đó, cho đến các hệ thống an ninh giúp đưa ra cảnh báo khi phát hiện được một vài hành vi nhất định. Do sự phát triển chóng mặt của công nghệ, nhiều lựa chọn và ứng dụng trong lĩnh vực này cũng đang gia tăng với tốc độ chưa từng có.
Xây dựng cơ sở hạ tầng dữ liệu lớn là một công việc phức tạp, và có nhiều lựa chọn để xem xét. Tôi hy vọng rằng chương này đã mang đến cho bạn một sự hiểu biết đầy đủ về các yếu tố cơ sở hạ tầng chính yếu. Với bất kỳ khía cạnh nào về dữ liệu, nếu bạn vẫn không chắc chắn về nơi bạn sẽ bắt đầu, hoặc lựa chọn nào là phù hợp nhất với nhu cầu của bạn, thì tôi khuyên bạn nên làm việc với một nhà tư vấn dữ liệu lớn hoặc tận dụng dịch vụ tư vấn đi kèm trong các gói dịch vụ có trả phí về dữ liệu lớn.
Chú thích
1. Bernard Marr (2016), Cách thức dữ liệu lớn mở khóa 6 bí mật cho một cú đánh golf hoàn hảo, Forbes , ngày 15 tháng 7, xem tại: http://www.forbes.com/sites/bernardmarr/2016/07/15/how-big-data-unlocked-the-6-secrets-of-the-perfect-golf-swing/