pengembangan-web-mp-pd.com

Struktur a PDF mengajukan?

Untuk proyek kecil saya harus mengurai file pdf dan mengambil bagian tertentu dari mereka (rangkaian karakter sederhana). Saya ingin menggunakan python untuk melakukan ini dan saya telah menemukan beberapa perpustakaan yang mampu melakukan apa yang saya inginkan dalam beberapa hal.

Tetapi sekarang setelah beberapa penelitian, saya bertanya-tanya apa struktur sebenarnya dari file pdf, apakah ada yang tahu apakah ada spesifikasi atau beberapa penjelasan di mana saja online? Saya telah menemukan tautan di Adobe tetapi tampaknya itu tautan mati :(

57

Berikut ini tautan ke materi referensi Adobe

http://www.Adobe.com/devnet/pdf/pdf_reference.html

Anda harus tahu bahwa PDF hanya tentang presentasi, bukan struktur. Parsing tidak akan mudah.

38
minty

Ketika saya pertama kali mulai bekerja dengan PDF, saya menemukan referensi PDF sangat sulit dinavigasi ..__ Mungkin membantu Anda mengetahui bahwa gambaran umum struktur file ditemukan dalam sintaksis, dan apa yang Adobe sebut struktur dokumen adalah struktur objek dan bukan struktur file. Itu juga ditemukan di Sintaks. Deskripsi operator disembunyikan di Lampiran A - sangat berguna untuk memahami apa yang terjadi di aliran konten. Jika Anda pernah kesulitan bekerja dengan ruang warna Anda akan menemukan itu tersembunyi di Grafik! Semoga petunjuk ini akan membantu Anda menemukan hal-hal lebih cepat daripada saya.

Jika Anda menggunakan windows, pdftron CosEdit memungkinkan Anda untuk menelusuri struktur objek untuk memahaminya. Ada demo gratis yang tersedia yang memungkinkan Anda memeriksa file tetapi tidak menyimpannya.

22
danio

Saya menemukan GNU Pengantar PDF untuk membantu memahami struktur. Ini termasuk file contoh PDF yang mudah dibaca yang mereka gambarkan dengan detail lengkap.

Tautan bermanfaat lainnya:

20
Jeff Moser

Berikut referensi mentah dari PDF 1.7 , dan inilah artikel yang menggambarkan struktur file PDF . Jika Anda menggunakan Vim, plugin pdftk adalah cara yang baik untuk menjelajahi dokumen dalam bentuk yang kurang mentah, dan utilitas pdftk itu sendiri (dan sumber GPL-nya) adalah cara yang bagus untuk memisahkan dokumen.

10
jmah

Saya mencoba melakukan hal yang hampir sama. Referensi PDF adalah dokumen yang sangat sulit dibaca. Tutorial ini saya pikir ini adalah awal yang lebih baik.

7
Noran

Ini mungkin membantu sedikit menjelaskan: (Dari halaman 11 dari PDF32000.book)

Sintaks PDF paling baik dipahami dengan menganggapnya sebagai empat bagian, seperti yang ditunjukkan pada Gambar 1:

• Objek. Dokumen PDF adalah struktur data yang terdiri dari sekumpulan kecil tipe dasar objek data . Sub-klausul 7.2, "Konvensi Leksikal," menjelaskan rangkaian karakter yang digunakan untuk menulis objek dan lainnya elemen sintaksis. Sub-klausa 7.3, "Objek," menjelaskan sintaks dan sifat-sifat esensial dari objek . Sub-klausa 7.3.8, "Stream Objects," memberikan detail lengkap dari tipe data paling kompleks, stream obyek.

• Struktur file. Struktur file PDF menentukan bagaimana objek disimpan dalam file PDF, bagaimana mereka diakses, dan bagaimana mereka diperbarui. Struktur ini tidak tergantung pada semantik benda. Sub- klausul 7.5, "Struktur File," menjelaskan struktur file. Sub-ayat 7.6, "Enkripsi," menjelaskan tingkat file mekanisme untuk melindungi konten dokumen dari akses yang tidak sah.

• Struktur dokumen. Struktur dokumen PDF menentukan bagaimana tipe objek dasar digunakan mewakili komponen dokumen PDF: halaman, font, anotasi, dan sebagainya. Sub-klausa 7.7, "Struktur Dokumen," menggambarkan keseluruhan struktur dokumen; klausa selanjutnya membahas detail semantik komponen.

• Konten mengalir. Aliran konten PDF berisi urutan instruksi yang menjelaskan tampilan halaman atau entitas grafis lainnya. Instruksi-instruksi ini, sementara juga direpresentasikan sebagai objek, secara konseptual. berbeda dari objek yang mewakili struktur dokumen dan dijelaskan secara terpisah. Sub-ayat 7.8, "Streaming Konten dan Sumber Daya," membahas aliran konten PDF dan sumber daya terkaitnya.

Sepertinya menavigasi file PDF akan membutuhkan sedikit lebih dari upaya yang lewat.

6
Josh Albert
3
Peter Teoh

Jika Anda ingin menguraikan PDF menggunakan Python, silakan lihat PDFMINER . Ini adalah perpustakaan terbaik untuk mem-parsing file PDF hingga saat ini.

3
codingscientist

Mengekstrak teks dari PDF adalah masalah yang sulit karena PDF memiliki struktur yang berorientasi tata letak. Anda dapat melihat docs dan kode sumber dari usaha saya yang hampir tidak berhasil di CPAN (implementasi saya ada di Perl). Struktur data PDF sangat keren dan dirancang dengan baik, tetapi lebih mudah untuk menulis daripada membaca.

2
Chris Dolan

Salah satu cara untuk mendapatkan beberapa petunjuk adalah membuat PDF file yang terdiri dari halaman kosong. Saya memiliki CutePDF Writer di komputer saya, dan membuat dokumen Wordpad kosong dari satu halaman. Dicetak ke file .pdf, lalu buka file .pdf menggunakan Notepad.

Selanjutnya, gunakan salinan file ini dan hilangkan baris atau blok teks yang mungkin menarik, kemudian muat ulang di Acrobat Reader. Anda akan terkejut melihat betapa sedikit informasi yang dibutuhkan untuk membuat satu halaman yang berfungsi PDF dokumen.

Saya mencoba membuat spreadsheet untuk membuat PDF form dari kode.

2
Daniel Kim

Anda memerlukan manual referensi PDF untuk mulai membaca tentang detail dan struktur file PDF. Saya sarankan untuk mulai dengan versi 1.7.

Pada windows saya menggunakan alat gratis PDF Analyzer untuk melihat struktur internal file PDF . Ini akan membantu dalam pemahaman Anda saat membaca manual referensi.

 enter image description here

0
juFo