Please enable JavaScript.
Coggle requires JavaScript to display documents.
Xử lí dữ liệu (Address data) - Coggle Diagram
Xử lí dữ liệu (Address data)
Khái niệm về xử lý dữ liệu
Dữ liệu là một tập hợp các dữ kiện (số, chữ, hình ảnh, âm thanh, văn bản,…) không có tổ chức, không có ý nghĩa rõ ràng nhưng có thể được sắp xếp để tạo thành những thông tin hữu ích.
Xử lý dữ liệu là một dãy các hành động hoặc các thao tác chuyển đổi các dữ liệu đầu vào thành dữ liệu đầu ra hữu ích.
Sự phân cấp kho dữ liệu
Bit: đơn vị lưu trữ nhỏ nhất của dữ liệu là 1 kí tự nhị phân (1 bit), có giá trị là 0 hoặc là 1.
Kí tự: Nhiều bit có quan hệ với nhau được kết hợp lại thành 1 dạng kí tự (hay 1
byte)..
Trường: Nhiều kí tự có quan hệ với nhau được kết hợp lại thành một trường.
Bản ghi: Nhiều trường có quan hệ với nhau được kết hợp lại thành một bản ghi.
Tập tin: Nhiều bản ghi có quan hệ với nhau được kết hợp lại thành một tập tin.
Cơ sở dữ liệu: Nhiều tập tin có quan hệ với nhau được kết hợp lại thành 1 dạng
tập tin.
Phương thức chuẩn của tổ chức dữ liệu
Định hướng tiếp cận tập tin
Sơ lược
Dữ liệu của một ứng dụng được tổ chức thành một hay nhiều tập tin và các chương trình ứng dụng xử lý dữ liệu được lưu giữ trong những tập tin này để cho ra những kết quả mong muốn.
Trong việc tổ chức dữ liệu theo định hướng tiếp cận tập tin, người sử dụng dễ dàng tạo, xóa, cập nhật, và thao tác trên tập tin.
Tất cả những chương trình này kết hợp với nhau tạo thành hệ thống quản lý tập tin (File Manager System).
Ưu điểm: Để xử lý dữ liệu cho các ứng dụng đơn giản,
không tốn kém, và thường dễ sử dụng.
Nhược điểm
Hạn chế sự linh hoạt trong truy vấn
Tính dư thừa dữ liệu
Vấn đề toàn vẹn dữ liệu
Thiếu chương trình/dữ liệu độc lập
Giới hạn sự linh hoạt trong bảo mật dữ liệu
Định hướng tiếp cận cơ sở dữ liệu
Sơ lược:Dữ liệu từ nhiều tập tin có liên quan với nhau, kết nối
với nhau tạo thành một cơ sở dữ liệu.
Ưu điểm
Truy vấn linh hoạt hơn.
Giảm sự thừa dữ liệu.
Giải quyết vấn đề toàn vẹn dữ liệu (không nhất quán).
Độc lập dữ liệu của các chương trình ứng dụng.
Bao gồm các tính năng bảo mật dữ liệu ở cấp độ cơ sở dữ liệu, cấp bản ghi, và thậm chí cả ở cấp trường để làm giới hạn truy cập dữ liệu linh hoạt hơn.
Hệ thống quản lí tập tin
Các loại tập tin
Tập tin giao tác (transaction file): lưu trữ dữ liệu đầu
vào cho đến khi nó được xử lý.
Tập tin chủ (master file)): chứa tất cả các dữ liệu hiện
tại có liên quan đến một ứng dụng.
Tập xuất (output file): lưu trữ các dữ liệu xuất từ các
chương trình ứng dụng.
Tập tin báo cáo (report file): chứa bản sao của một báo cáo được tạo ra bởi việc xử lý dữ liệu của một chương trình ứng dụng trong máy tính.
Tập tin sao lưu (backup file): là một bản sao của một tập tin, tạo sự an toàn phòng chống lại mất mát dữ liệu do hư hỏng, virut gây ra hoặc do vô ý xóa các tập tin gốc ban đầu.
Tổ chức tập tin
Tổ chức tập tin là đề cập đến cách tổ chức vật lý của một tập tin sao cho thuận tiện lưu trữ và phục hồi những mẫu tin dữ liệu.
Ba cách thường sử dụng để tổ chức tập tin trong
nghiệp vụ xử lý dữ liệu của ứng dụng
Tuần tự (Sequential)
Sơ lược
Bản ghi được lưu trữ sau khi sắp xếp tăng hoặc giảm theo một trật tự xác định bằng giá trị trường làm khóa của các bản ghi.
Các máy vi tính xử lý một tập tin tuần tự theo thứ tự từ trên xuống.
Tập tin tuần tự không thích hợp cho các ứng dụng mà quá trình xử lý chỉ có một hoặc một vài bản ghi bất kỳ tại một thời điểm.
Thuận lợi
Dễ hiểu và dễ sử dụng.
Dễ tổ chức và bảo trì.
Không cần phải tốn kém cho các phương tiện I/O, các thiết bị lưu trữ và xử lý.
Hiệu quả nhất và thương mại nhất để sử dụng chúng trong các ứng dụng có hoạt động cường độ cao (hầu hết các bản ghi được cập nhật thay đổi theo thời gian chạy).
Bất lợi
Không hiệu quả và lãng phí.
Khi toàn bộ một tập tin tuần tự cần đọc chỉ để truy lục và cập nhật một vài bản ghi, thì việc gom các giao tác vào từng nhóm nên thực hiện trước khi xử lý chúng. Do vậy việc sử dụng các tập tin tuần tự được chia thành từng nhóm xử lý.
Thời gian truy xuất chậm
Đòi hỏi các tập tin được sắp xếp trước khi xử lý.
Dư thừa dữ liệu, cùng một dữ liệu có thể được lưu giữ trên nhiều tập tin khác nhau.
Trực tiếp/ngẫu nhiên (Direct/random)
Sơ lược
Phải được lưu trữ trên một thiết bị lưu trữ trực tiếp (đĩa từ/đĩa quang) cho phép truy cập trực tiếp các bản ghi.
Tổ chức tập tin trực tiếp sử dụng một địa chỉ để chuyển đổi giá trị khóa của bản ghi vào một địa chỉ lưu trữ trên đĩa mà tập tin này đã lưu.
Mỗi bản ghi trong các tập tin được lưu giữ tại nơi mà các địa chỉ tạo ra hàm ánh xạ bản ghi tới giá trị trường làm khóa.
Quá trình xử lý được biết đến như hàm băm và các chức năng tạo ra các địa chỉ được gọi là thuật toán băm.
Thuận lợi
Xác định khóa, bất kỳ bản ghi nào có thể định vị một cách nhanh chóng và lấy ra mà không cần tìm kiếm một cách tuần tự trong tập tin.
Không cần phải sắp xếp.
Gom các giao tác vào nhóm thì không yêu cầu xử lý
chúng trước.
Thời gian truy cập nhanh.
Có thể xử lý bản ghi của tập tin một cách trực tiếp.
Bất lợi
Tốn kém phần cứng và nguồn lực phần mềm, vì chúng phải được lưu trữ trên một thiết bị lưu trữ truy cập trực tiếp như ổ đĩa.
Việc tạo ra địa chỉ thì khá phức tạp, chúng cũng ít hiệu quả và tiết kiệm hơn là các tập tin tuần tự trong việc sử dụng các ứng dụng tuần tự với cường độ hoạt động cao.
Đặc biệt, các biện pháp an ninh thường cần thiết được áp dụng cho việc truy cập trực tuyến tập tin trực tiếp mà có chúng thể truy nhập đồng thời từ nhiều trạm.
Tuần tự hóa chỉ mục (Indexed sequential)
Sơ lược
Lập chỉ mục các tập tin tuần tự tạo ra hai tập tin:
Tập tin dữ liệu: tập tin chứa những bản ghi
Tập tin chỉ mục: kích thước nhỏ hơn lưu chỉ mục và địa chỉ trên đĩa của mỗi bản ghi. Các chỉ mục được sắp xếp theo giá trị khóa.
Kỹ thuật này gọi tắt là (ISAM) và các tập tin thuộc
loại này được gọi là tập tin ISAM.
Ưu điểm
Sử dụng khá hiệu quả cho việc xử lý tuần tự các ứng dụng hoạt động với cường độ cao.
Sử dụng khá hiệu quả để xử lý việc truy cập trực tiếp các ứng dụng hoạt động với cường độ thấp.
Nhược điểm
Phải tốn kém phần cứng và nguồn lực phần mềm, vì phải được lưu trữ trên một thiết bị truy cập trực tiếp là ổ đĩa.
Cần không gian lưu trữ hơn các loại tập tin, vì các chỉ mục tập tin có thể trở nên khá lớn.
Khi sử dụng truy cập trực tiếp các ứng dụng trực tuyến, việc truy cập vào bản ghi có thể chậm hơn các tập tin trực tiếp.
Những tiện ích tập tin
Sắp xếp
Tìm kiếm
Hợp nhất
Sao chép
In ấn
Bảo trì
Hợp nhất
Hệ quản trị cơ sở dữ liệu
Định nghĩa: Hệ quản trị CSDL(database) được cung cấp cho người sử dụng tạo thuận lợi trong việc tổ chức, tạo, xóa, cập nhật, thao tác dữ liệu của họ trong một cơ sở dữ liệu.
Các mô hình cơ sở dữ liệu
Mô hình cơ sở dữ liệu phân cấp
Các yếu tố dữ liệu được liên kết theo dạng cấu trúc của 1 cây đảo ngược với gốc ở trên và các nhánh ở dưới.
Có mối quan hệ cha-con giữa các thành phần dữ liệu. Một phần tử dữ liệu cha có một hoặc nhiều phần tử dữ liệu con nhưng mỗi phần tử con chỉ có một phần tử cha.
Là sự mở rộng của các cấu trúc cơ sở dữ liệu phân cấp.
Các phần tử của một cơ sở dữ liệu được tổ chức theo mối quan hệ cha -con, nhưng mỗi con có thể có nhiều cha hoặc không có
Hệ quản trị cơ sở dữ liệu cho phép khai thác các thông tin cần thiết bắt đầu từ phần tử dữ liệu bất kỳ trong cấu trúc cơ sở dữ liệu thay vì bắt đầu từ phần tử dữ liệu gốc.
Mô hình quan hệ
Mô hình quan hệ không có các liên kết vật lý. Tất cả dữ liệu được lưu theo dạng bảng gồm các hàng và các cột.
Các thao tác thực hiện trên các hàng của bảng.
Sự kết nối giữa các bảng được mô tả logic bằng các giá trị được lưu trữ trong một trường chung.
Mô hình cơ sở dữ liệu hướng đối tượng
Dữ liệu trong mô hình hướng đối tượng được xem như các đối tượng
Mỗi đối tượng trong mô hình hướng đối tượng có các thành phần:
Thuộc tính
Phương thức
Mối quan hệ giữa các đối tượng
Mô hình cơ sở dữ liệu hướng đối tượng là một tập hợp các đối tượng có hành vi, trạng thái, và các mối quan hệ giữa các đối tượng
Một hệ quản trị mô hình cơ sở dữ liệu hướng đối tượng cho phép định nghĩa và thao tác trên một cơ sở dữ liệu hướng đối tượng.
Là mô hình ưa thích cho một loạt các cơ sở dữ liệu lớn các ứng dụng như CAD, CAE, CAM, CASE, hệ chuyên gia, và các hệ thống đa phương tiện.
Một số tính năng quan trọng cần thiết của mô hình này
là:
Khả năng phức tạp của mô hình thực thể lồng nhau, chẳng hạn như thiết kế và xây dựng các đối tượng, và các tài liệu đa phương tiện.
Hỗ trợ cho các loại dữ liệu dùng chung được tìm thấy trong ngôn ngữ lập trình hướng đối tượng.
Hỗ trợ cho các khái niệm hướng đối tượng thường xuyên hữu ích như là đối tượng, lớp, thừa kế,…
Hỗ trợ cho việc so trùng giữa các ngôn ngữ lập trình hướng đối tượng.
Mô hình cơ sở dữ liệu mạng
Là sự mở rộng của các cấu trúc cơ sở dữ liệu phân cấp.
Các phần tử của một cơ sở dữ liệu được tổ chức theo mối quan hệ cha - con, nhưng mỗi con có thể có nhiều cha hoặc không có
Hệ quản trị cơ sở dữ liệu cho phép khai thác các thông tin cần thiết bắt đầu từ phần tử dữ liệu bất kỳ trong cấu trúc cơ sở dữ liệu thay vì bắt đầu từ phần tử dữ liệu gốc.
Mô hình dimension database: Là tập hợp các dữ liệu
đa phương tiện được lưu theo dạng khối 3 chiều
Các chức năng của hệ quản trị CSDL
Lưu trữ, truy xuất và cập nhật dữ liệu
Ngôn ngữ định nghĩa dữ liệu (DDL - Data Definition Language)
Ngôn ngữ thao tác dữ liệu (DML - Data Manipulation Language).
Quản lý giao tác (transaction management).
Điều khiển đồng thời (concurrency control)
Sao lưu và phục hồi dữ liệu.
Bảo mật dữ liệu: Ngôn ngữ điều khiển dữ liệu (DCL - Data Control Language).
Hỗ trợ truyền thông dữ liệu.
Duy trì tính toàn vẹn / nhất quán dữ liệu.
Cung cấp các tiện ích.
Ngôn ngữ Định nghĩa dữ liệu (DDL) Dùng để xác định cấu trúc của một cơ sở dữ liệu. Bao gồm những kiểu sau đây:
Xác định tất cả các yếu tố dữ liệu bao gồm trong cơ sở dữ liệu.
Xác định tổ chức các phần tử dữ liệu (trường), bộ (hoặc tuples), bảng biểu,...
Xác định tên gọi, chiều dài trường, và các loại dữ liệu cho mỗi phần tử.
Xác định giá trị cho các trường
Xác định truy cập vào các bảng biểu, bản ghi, và các trường khác nhau.
Xác định các mối quan hệ giữa các yếu tố dữ liệu khác nhau của cơ sở dữ liệu.
Ngôn ngữ Thao tác dữ liệu (Data manipulation
Languages)
Thao tác dữ liệu (DML) bao gồm tất cả các lệnh cho phép người dùng nhập vào và thao tác trên dữ liệu.
Với các lệnh này, người sử dụng có thể thêm, sửa, xóa, xem bản ghi trong cơ sở dữ liệu.
Ngôn ngữ truy vấn (Query Language)
Cho phép người sử dụng xác định các yêu cầu của họ, trích thông tin mong muốn từ cơ sở dữ liệu qua các hình thức truy vấn.
SQL phát triển bởi IBM và được dựa trên một ngôn ngữ truy vấn trước đó được gọi là sequel. SQL có thể học một cách dễ dàng bởi một người không phải lập trình viên.
Báo cáo (Report)
Là trình bày về thông tin được trích xuất từ một cơ sở dữ liệu.
Cho phép người sử dụng cơ sở dữ liệu thiết kế bố trí một báo cáo để nó có thể được trình bày theo các định dạng mong muốn.
Được dùng để thống kê, tổng hợp số trong các hoạt động kinh doanh, tạo ra các báo cáo định kỳ,…
Tạo một cơ sở dữ liệu gồm ba bước:
Định nghĩa cấu trúc (sơ đồ)
Thiết kế hình thức để hiển thị và nhập dữ liệu
Nhập dữ liệu