Please enable JavaScript.
Coggle requires JavaScript to display documents.
Table Extraction - Coggle Diagram
Table Extraction
-
-
-
Kompleksitas
Deteksi tabel
format table yg berbeda", bahkan ada yg tanpa batas
Transformasi gambar, dimana perlu menyempurnakan data dan batas serta memilih algoritma preprocessing yg tepat, sperti unutuk thresholding dan edge detectornya
Kualitas gambar, tp untuk saat ini bukan masuk ke case kita
Berbagai macam struktur layout dan template, kaya sel yg dimerge (ver&hor), garis/font tebal=header, jadi perlu membangun algoritma yang kuat dalam menangani struktur tabel yang berbeda
Padding, margin dan border sel yg berbeda". butuh algo preprocessing yg kuat
Ekstraksi table
-
Konten yang padat, konten bisa berisi teks dan angka, namun untuk yg teks biasanya padat serta ada akronim dan singkatan yg bikin ambigu
Untuk memahami table, jangan ada teks yg ambigu serta jangan ada singkatan"
Jenis font dan pemformatan font yg berbeda, seperti gaya, warna dan ketinggian yg berbeda
Table multiple page, Baris teks dalam tabel sensitif terhadap ambang batas yang telah ditentukan, kadang klo sel suka dimerge jdi susah bedain, ini masih dalam satu sel atau bukan, kemudian juga jadinya susah bedain ini table yg sama atau bukan. Table yg jarang dan tidak teratur itu menyulitkan.
garis dan dan tata letak konten harus digunakan bersama sebagai sumber penting untuk melihat wilayah tabel.
Konversi Table
mengonversi informasi yang diekstrak dari tabel untuk mengkompilasinya sebagai dokumen yang dapat diedit, baik dalam excel atau bentuk lainnya
Atur tata letak, Ketika berbagai format tabel diekstraksi dari dokumen yang dipindai, kita perlu memiliki tata letak tabel yang tepat untuk mendorong konten masuk. Terkadang, algoritma gagal mengekstrak informasi dari sel.
Oleh karena itu, merancang tata letak yang tepat juga sama pentingnya.
Berbagai pola presentasi nilai, Nilai dalam sel dapat disajikan menggunakan pola representasi sintaksis yang berbeda. Pertimbangkan teks dalam tabel menjadi 6 ± 2. Algoritme mungkin gagal mengonversi informasi tertentu. Oleh karena itu ekstraksi nilai numerik membutuhkan pengetahuan tentang kemungkinan pola presentasi.
Representasi untuk visualisasi: Sebagian besar format representasi untuk tabel, seperti bahasa markup di mana tabel dapat dijelaskan, dirancang untuk visualisasi. Oleh karena itu, sulit untuk memproses tabel secara otomatis.
-
-