Data Validation¶
Overview¶
The intenal documentation report for data officer control the data status
Validation¶
Idea¶
-
Automation data validation from Data Sentinal at Linked In Blog at 2020.
-
Kedro example basic data catalog on
.yaml
at Kedro Documentation
Constructor for overall automation test¶
m ngay -> n environment -> k test
Pytest + Report
Database + Report
Dữ liệu có là thời điểm nào?
[+] Thời gian thực hiện có dữ liệu
[+] Tới từ thời điểm nào nguồn nào: deliver
[+] Ràng buộc (trong trường hợp INNO quản lý)
- [Project] Create recursive check updated date and alert for a target
E.g: The model [A] not has updated data and has [n] run. Required exits at [target time]
-
[Project] Create model check the up to date data in the API
-
Build data workflow for validation. Example on GE - validate_data_overview
(2) Cải thiện về phương thức hoạt động vận hành
-
Khởi tạo các vấn đề (issue) lên Jira. (Chị Sương khởi tạo account cho team data)
-
Cần có các thông tin tối thiểu: (a) Root cause (b) Cách xử lý © Timeline xử lý (d) Người phụ trách
(3) Đối với vận hành về mặt hệ thống dữ liệu
a) Phân loại được các loại lỗi để có phương thức xử lý và recorver.
4 nhóm chính cần được xác định:
(+) Nguồn dữ liệu block resource (404) (+) Sai format của dữ liệu (+) Các luồng dữ liệu (pipeline) khi có vấn đề (+) Các luồng vận hành cho việc lấy dữ liệu (job)
và phân tách giữa các vấn đề giữa mannual (nhập liệu) với vấn đề hệ thống có thể xác định một cách autotmation
Use case¶
Thêm check cho khoang 0 <= x <= 100 cho execution rate or percentage type. fact_adjustment_datetime
TODO FOR BIQUERY MORPHLING
ADDED 'cash_dividend', 'stock_dividend', 'right_issue', 'stock_bonus', 'share_issuance', 'payment_of_treasury_shares'
AND EVENT TYPES
TESTING MANNUAL
a) Change of any new issusance of tickers
- Data Entry:
The list of updated group of tickers
tickers: in string text with seperated by special characters |
. E.g: VNM|OGC|NT2|...
updated_at: the epoch time in integer type
name: VN30
The groups should be:
It will contain loads from yaml or list of yaml files.