Artwork

Konten disediakan oleh HPR Volunteer and Hacker Public Radio. Semua konten podcast termasuk episode, grafik, dan deskripsi podcast diunggah dan disediakan langsung oleh HPR Volunteer and Hacker Public Radio atau mitra platform podcast mereka. Jika Anda yakin seseorang menggunakan karya berhak cipta Anda tanpa izin, Anda dapat mengikuti proses yang dijelaskan di sini https://id.player.fm/legal.
Player FM - Aplikasi Podcast
Offline dengan aplikasi Player FM !

HPR3596: Extracting text, tables and images from docx files using Python

 
Bagikan
 

Manage episode 328537315 series 108988
Konten disediakan oleh HPR Volunteer and Hacker Public Radio. Semua konten podcast termasuk episode, grafik, dan deskripsi podcast diunggah dan disediakan langsung oleh HPR Volunteer and Hacker Public Radio atau mitra platform podcast mereka. Jika Anda yakin seseorang menggunakan karya berhak cipta Anda tanpa izin, Anda dapat mengikuti proses yang dijelaskan di sini https://id.player.fm/legal.

Tools to extract data from docx files:

  1. docx2txt
  2. python-docx2txt
  3. python-docx

Code Snippets

text = docx2txt.process(src, img_dest) with open("data.txt", "wt") as f: f.write(text) 
document = docx.Document(src) tables = document.tables data = [] for table in tables: table_data = [] for row in table.rows: row_data = [] for cell in row.cells: row_data.append(cell.text) table_data.append(row_data) data.append(table_table) for i, table in enumerate(tables): with open(f"{i}.csv", "wt") as f: writer = csv.writer(f) writer.writerows(table) 
  continue reading

4103 episode

Artwork
iconBagikan
 
Manage episode 328537315 series 108988
Konten disediakan oleh HPR Volunteer and Hacker Public Radio. Semua konten podcast termasuk episode, grafik, dan deskripsi podcast diunggah dan disediakan langsung oleh HPR Volunteer and Hacker Public Radio atau mitra platform podcast mereka. Jika Anda yakin seseorang menggunakan karya berhak cipta Anda tanpa izin, Anda dapat mengikuti proses yang dijelaskan di sini https://id.player.fm/legal.

Tools to extract data from docx files:

  1. docx2txt
  2. python-docx2txt
  3. python-docx

Code Snippets

text = docx2txt.process(src, img_dest) with open("data.txt", "wt") as f: f.write(text) 
document = docx.Document(src) tables = document.tables data = [] for table in tables: table_data = [] for row in table.rows: row_data = [] for cell in row.cells: row_data.append(cell.text) table_data.append(row_data) data.append(table_table) for i, table in enumerate(tables): with open(f"{i}.csv", "wt") as f: writer = csv.writer(f) writer.writerows(table) 
  continue reading

4103 episode

All episodes

×
 
Loading …

Selamat datang di Player FM!

Player FM memindai web untuk mencari podcast berkualitas tinggi untuk Anda nikmati saat ini. Ini adalah aplikasi podcast terbaik dan bekerja untuk Android, iPhone, dan web. Daftar untuk menyinkronkan langganan di seluruh perangkat.

 

Panduan Referensi Cepat