1。读取word文件有两种方法,用jacob包,可以修改生成word文件内容。如果只读取word里的文本内容的话,可以用poi读取word文件,先到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/下载tm-extractors-0.4.jar包
2。读取word里的文本内容的示列代码
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
public class TestPoi {
public TestPoi() {
}
public static void main(String args[]) throws Exception
{
try{
FileInputStream in = new FileInputStream ("D:/szqxjzhbase/doc/修改后/2001-2005年/重大致灾暴雨/20050819-20/技术总结/2005年8月20日一次大暴雨过程低空急流脉动与强降水关系分析 .doc");
// FileInputStream in = new FileInputStream ("D:/szqxjzhbase/技术测试/新建 Microsoft Word 文档.doc");
WordExtractor extractor = new WordExtractor();
System.out.println(in.available());
String str = extractor.extractText(in);
// System.out.println("the result length is"+str.length());
System.out.println(str);
}catch(Exception e){
e.printStackTrace();
}
}
}
3。问题:有时候有图片读的时候会报个错,但在图片前面加个回车符号就好了,可能与这个包的内部机制有关
分享到:
相关推荐
里面包含一个word转pdf的jar,和一个读取pdf的jar。可以实现Java读取Word文档的页数。
用Java读取Word文档
java读取不同版本文档的内容以及字体大小,实现对文档格式进行匹配!
本代码实现使用Java程序读取word文档成网页,将word文档按原样在网页输出。项目编码为UTF-8,文件编码也是utf8,再不要说乱码这种骚话了,选择utf8加载项目就不会乱码
整理了用java如何读取word文档,pdf文档的几种方法,含有程序
java读取word文档.pdf
java利用poi读取word文档内容所依赖的jar包。poi可以读取doc、docx格式文档。
通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中
Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...
java 利用POI读取Word文件中的内容 java 利用POI读取Word文件中的内容
JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)
java可以快速读取word里面的内容,如题所示
用java语言实现对word表格操作,实现自动批量往数据库中插入数据,节省插入数据时间。
java读取word文档 这是我收集的资料 加以汇总 希望对你有用~~
jacob官方文档,java读取word文档
java io读取word文件的基本操作 简单易用 其中用到组件tm-extractors-0.4.jar 说明:需要把tm-extractors-0.4.jar放到类路径下面
java准确读取word页码,正确率100%,请结合本文查看http://blog.csdn.net/tiandixuanwuliang/article/details/71298406
Java读取Word中的表格(Excel),并导出文件为Excel
java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...