虚位以待(AD)
虚位以待(AD)
首页 > 脚本专栏 > python > Ubuntu下使用python读取doc和docx文档的内容方法

Ubuntu下使用python读取doc和docx文档的内容方法
类别:python   作者:码皇   来源:互联网   点击:

今天小编就为大家分享一篇Ubuntu下使用python读取doc和docx文档的内容方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

读取docx文档

使用的包是python-docx

1. 安装python-docx包

    sudo pip install python-docx

2. 使用python-docx包读取数据

    #encoding:utf8 import docx doc = docx.Document('test.docx') docText = 'n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

    #encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

您可能感兴趣的文章:

  • Python实现批量读取word中表格信息的方法
  • Python读取Word(.docx)正文信息的方法
相关热词搜索: python doc docx读取