Big data: Vấn đề, giải pháp & thách thức

NGUYỄN TÙNG LÂM| 23/02/2017 23:23

KHPT-Mỗi ngày, chúng ta tạo ra 2,5 quintillion (1030) bytes dữ liệu. Không dừng lại ở đó, con số này sẽ vẫn đang tiếp tục gia tăng theo từng ngày với tốc độ chóng mặt về số lượng,đa dạng dữ liệu. Những dữ liệu này đến từ mọi nơi, dưới mọi hình thức khác nhau: có cấu trúc, phi cấu trúc, bán cấu trúc.

Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và tiềm ẩn nhiều giá trị to lớn. Việc đó đồng nghĩa với các nhà khoa học phải đau đầu khi đối phó với việc lưu trữ, xử lý khối lượng số liệu khổng lồ và đa dạng về chủng loại dữ liệu.

Vì vậy việc nghiên cứu các công nghệ, thuật toán để giải quyết bài toán về lưu trữ, xử lý và phân tích các loại dữ liệu lớn (Big data) một cách nhanh nhất sẽ đáp ứng được yêu cầu cấp thiết của mọi lĩnh vực.

Một trong những giải pháp về Big data là mã nguồn mở rất nổi tiếng, đang được rất nhiều các nhà khoa học trên thế giới quan tâm nghiên cứu và hoàn thiện, đó chính là Hadoop. Giải pháp Hadoop đem lại rất nhiều tính năng ưu việt trong việc lưu trữ và tính toán xử lý song song trên nhiều máy chủ với số liệu rất lớn trong thời gian rất ngắn.

Một số thuật ngữ

Big data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào đảm đương được. Nói đến Big data, người ta thường nói có 4 chữ V thể hiện đặc trưng của Big data, đó là:

Volume: là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte. Theo tài liệu của Intel hồi tháng 9/2013, cứ mỗi 11 giây, 1 PB1 dữ liệu được tạo ra trên toàn thế giới, tương đương với một đoạn video HD dài 13 năm. Facebook phải xử lý khoảng 500 TB2 dữ liệu mỗi ngày.

Velocity: là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Đơn cử, trên các mạng xã hội, đôi khi các thông báo cách đó vài giây (tweet, status….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu giờ đây hầu như là thực tế (real time), và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.

Variety: là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, tính đa dạng của nó đang gia tăng theo từng ngày, dữ liệu ngày càng phức tạp hơn.

Veracity: là tính xác thực của dữ liệu. Với xu hướng “Social” ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng “Mobile”, bức tranh xác định về độ tin cậy và tính chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data.

Vấn đề xử lý Big data

Big data được xử lý thông qua 4 giai đoạn: thu thập (acquire), tổ chức (organize), phân tích (analyze), quyết định (decide)

Đến nay, giai đoạn thu thập hầu hết đã có giải pháp. Đơn cử, Oracle đưa ra NoSQL Database, Google có Google BigTable…

Giai đoạn tổ chức: có thể lưu trữ dữ liệu ở dạng phân tán, song song… nhưng phổ biến nhất vẫn là Hadoop/MapReduce.

Giai đoạn phân tích: với các dữ liệu truyền thống, các công ty lớn đều đã có giải pháp. Đơn cử, Oracle có Oracle Data warehousing, IBM có InfoSphere warehouse…

Giai đoạn quyết định: dựa vào các thông tin được phân tích sẽ đưa ra các quyết định giải pháp kinh doanh kịp thời.

Giải pháp Hadoop

Hadoop đã được tạo ra hồi năm 2005 bởi Doug Cutting và Mike Cafarella, để giải quyết các vấn đề của Big data. Đến năm 2011, Hadoop được sử dụng rộng rãi trong các công ty lớn.

Hadoop là một nền tảng mới. Nó cung cấp môi trường quen thuộc cho các nhà phát triển, nhà phân tích dữ liệu, và nhà quản trị hệ thống để sử dụng và khai thác sức mạnh của nó. Đơn cử, nhà phát triển quen thuộc với Java, .NET và các ngôn ngữ hướng đối tượng như Python hay Pig, có các Tool, SDK và API để làm việc với Hadoop.

Hadoop là một framework mã nguồn mở hỗ trợ lưu trữ và xử lý Big data với các cấu trúc khác nhau (kể cả không cấu trúc) trên những máy chủ bình thường. Hadoop có nhiều lợi thế so với các framework khác:

- Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thay đổi định dạng dữ liệu hay khởi động lại hệ thống.

- Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bình thường.

- Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào.

- Chịu lỗi: thiếu dữ liệu và phân tích thất bại là hiện tượng thường gặp trong phân tích Big data. Hadoop có thể phục hồi và phát hiện nguyên nhân thất bại do tắc nghẽn mạng.

Một số thách thức cho Big data

Việc phân tích và xử lý Big data đang đối mặt với nhiều thách thức.

- Truyền dữ liệu: việc truyền dữ liệu lớn thường phải gánh chịu chi phí cao, đây là “nút cổ chai” của việc tính toán Big data. Tuy nhiên, truyền dữ liệu là không thể tránh khỏi trong các ứng dụng Big data. Nâng cao hiệu quả truyền dữ liệu lớn là một yếu tố quan trọng để nâng cao tính toán Big data.

- Tốc độ xử lý trong các yêu cầu thời gian thực: khi dữ liệu số lượng dữ liệu tăng nhanh chóng, gây ra một thách thức rất lớn đối với các ứng dụng thời gian thực, thì việc tìm ra các phương pháp hiệu quả trong suốt luồng dữ liệu là cần thiết để đáp ứng yêu cầu về thời gian thực.

- Nền tảng Big data: mặc dù Hadoop đã trở thành một trụ cột trong nền tảng phân tích Big data nhưng nó vẫn còn trong giai đoạn phát triển, so với cơ sở dữ liệu quan hệ. Đầu tiên, Hadoop phải tích hợp với thời gian thực cho việc thu thập và truyền Big data, và cung cấp xử lý nhanh hơn dựa trên các mô hình xử lý hàng loạt. Thứ hai, Hadoop nên cung cấp một giao diện lập trình ngắn gọn, và ẩn những tiến trình xử lý phức tạp bên dưới. Thứ ba, trong những hệ thống Hadoop lớn, số lượng máy chủ lên hàng ngàn, thậm chí hàng trăm ngàn, nghĩa là năng lượng tiêu thụ đáng kể. Vì vậy, Hadoop nên có cơ chế sử dụng năng lượng hiệu quả.

- Bảo mật dữ liệu và quyền riêng tư: là vấn đề rất quan trọng. Một số ví dụ trong thực tế cho thấy, không chỉ thông tin cá nhân người tiêu dùng, thông tin mật của các tổ chức mà ngay cả các bí mật an ninh quốc gia cũng có thể bị xâm phạm. Do vậy, giải quyết các vấn đề an ninh dữ liệu bằng các công cụ kỹ thuật và các chính sách trở nên vô cùng cấp bách. Các nền tảng Big data nên cân bằng tốt giữa việc truy cập dữ liệu và xử lý dữ liệu.

Như vậy, Big data ngày càng đóng vai trò quan trọng. Để giải quyết được bài toán Big data, đòi hỏi cần tổng hợp nhiều công nghệ và kỹ thuật khác nhau. Mỗi công nghệ và kỹ thuật cần có thời gian nghiên cứu và phát triển để hoàn thiện. Do vậy, với Big data, rất nhiều lợi ích nhưng cũng còn nhiều vấn đề và thách thức cần giải quyết.