常州plc培训

常州PLC编程培训

常州和讯自动化培训中心欢迎您!
当前位置:网站首页 > 新闻中心 新闻中心
只需2行代码,轻松将PDF转换成Word-常州上位机学习,常州机器视觉学习
日期:2024/3/6 16:01:41人气:  标签:常州上位机学习 常州机器视觉学习

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。


pdf2docx功能

- 解析和创建页面布局

  - 页边距

  - 章节和分栏 (目前最多支持两栏布局)

  - 页眉和页脚 [TODO]


- 解析和创建段落

  - OCR 文本 [TODO] 

  - 水平(从左到右)或竖直(自底向上)方向文本

  - 字体样式例如字体、字号、粗/斜体、颜色

  - 文本样式例如高亮、下划线和删除线

  - 列表样式 [TODO]

  - 外部超链接

  - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距


- 解析和创建图片

  - 内联图片

    - 灰度/RGB/CMYK等颜色空间图片

    - 带有透明通道图片

    - 浮动图片(衬于文字下方)


- 解析和创建表格

  - 边框样式例如宽度和颜色

  - 单元格背景色

  - 合并单元格

  - 单元格垂直文本

  - 隐藏部分边框线的表格

  - 嵌套表格


- 支持多进程转换

pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。


限制

- 目前暂不支持扫描PDF文字识别

- 仅支持从左向右书写的语言(因此不支持阿拉伯语)

- 不支持旋转的文字

- 基于规则的解析无法保证100%还原PDF样式


安装

pip install pdf2docx


案例

from pdf2docx import parse


pdf_file = '/path/to/sample.pdf'

docx_file = 'path/to/sample.docx'


# convert pdf to docx

parse(pdf_file, docx_file)

Run

1709103180.png

本文网址:
下一篇:没有资料

相关信息:
版权所有 CopyRight 2006-2013 常州和讯自动化培训中心 电话:0519-85602926 地址:常州市新北区府琛商务广场2号楼1409室
《中华人民共和国电信与信息服务业务经营许可证》 编号:苏ICP证1312012312号 网站统计 技术支持:常州山水网络
本站关键词:常州plc培训 常州PLC编程培训网站地图 网站标签
在线与我们取得联系