「java检索文档」Java文件内容检索工具

admin 2022-11-29 07:29:05 1207

本篇文章给大家谈谈java检索文档，以及Java文件内容检索工具对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、哪位java高手可以告我如何实现对每一个word文档进行全文检索
2、java中如何实现全文检索
3、如何用java的lucene对数据库进行全文检索
4、java如何实现文件搜索功能

哪位java高手可以告我如何实现对每一个word文档进行全文检索

package cn.rain.main;

import java.io.File;

import java.io.IOException;

public class TT {

/**

* @param args

public static void main(String[] args) {

try {

Runtime.getRuntime().exec("C:\\Program Files\\Microsoft Office\\OFFICE11\\WINWORD.EXE aa.doc");

} catch (IOException e) {

// TODO 自动生成 catch 块

e.printStackTrace();

}

你的WORD安装路径C:\\Program Files\\Microsoft Office\\OFFICE11\\WINWORD.EXE空格后所加的aa.doc为你的文档文件名（有文件名重复的，路径，写法和安装路径的写法一样）

或者用Runtime.getRuntime().exec("cmd /c \"C:\\temp\\the list.doc\"");

也可以运行

java中如何实现全文检索

java的开源的免费全文检索工具Lucene

Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Lucene的作者：Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。

Lucene的发展历程：早先发布在作者自己的，后来发布在SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：

已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，比较著名的有：

Jive：WEB论坛系统；

Eyebrows：邮件列表HTML归档/浏览/查询系统，本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一，而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。

Cocoon:基于XML的web发布框架，全文检索部分使用了Lucene

Eclipse:基于Java的开放开发平台，帮助部分的全文索引使用了Lucene

对于中文用户来说，最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍，你会了解到由于Lucene良好架构设计，对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。

如何用java的lucene对数据库进行全文检索

lucene是一个公用的全文索引组件，它的目标是把各种各样格式的数据转化成lucene特有的索引文件格式，这样才能通过lucene的高速检索机制进行全文检索。

你的数据来源可以是关系数据库，可以是word、execl、txt文档，可以是html网页，对于这些数据源，你必须将它们内部的数据读取出来，并封装成lucene的document实例，之后让lucene帮你构建索引。

举个例子：你的有一个用户数据库，里面存储了几十万的用户信息，你现在要对这个数据库进行全文索引，那么你要做的事情是：

1.写一段传统的JDBC程序，讲每条的用户信息从数据库读取出来

2.针对每条用户记录，建立一个lucene document

Document doc = new Document();

并根据你的需要，将用户信息的各个字段对应luncene document中的field 进行添加，如：

doc.add(new Field("NAME","USERNAME", Field.Store.YES,Field.Index.UN_TOKENIZED));

然后将该条doc加入到索引中，如： luceneWriter.addDocument(doc);

这样就建立了lucene的索引库

3.编写对索引库的搜索程序（看lucene文档），通过对lucene的索引库的查找，你可以快速找到对应记录的ID

4.通过ID到数据库中查找相关记录

上面阐述了lucene的大体用法，不知道是不是说的很清楚。

java如何实现文件搜索功能

java实现文件搜索主要使用file类和正则表达式，如下示例：

package com.kiritor.util;

import java.io.File;

import java.io.FileFilter;

import java.util.Arrays;

import java.util.Collections;

import java.util.List;

/**

* 文件的相关操作类

* @author Kiritor

public class FileOperation {

private static String contentPath;

private static String filePath;

private static File[] fileList = null;// 保存文件列表,过滤掉目录

public FileOperation() {

}

/** 构造函数的参数是一个目录 */

public FileOperation(String path) {

File file = new File(path);

if (file.isDirectory())

this.contentPath = path;

else

this.filePath = path;

}

/**获取文件列表*/

public static File[] getFiles() {

if (contentPath == null) {

File file = new File(filePath);

fileList = new File[1];

fileList[0] = file;

return fileList;

}

fileList = new File(contentPath).listFiles(new FileFilter() {

/**使用过滤器过滤掉目录*/

@Override

public boolean accept(File pathname) {

if(pathname.isDirectory())

{

return false;

}else

return true;

}

});

return fileList;

}

/** 对当前目录下的所有文件进行排序 */

public static File[] sort() {

getFiles();

Arrays.sort(fileList, new FileComparator());

return fileList;

}

public static void tree(File f, int level) {

String preStr = "";

for(int i=0; ilevel; i++) {

preStr += " ";

}

File[] childs = f.listFiles();

//返回一个抽象路径名数组，这些路径名表示此抽象路径名表示的目录中的文件。

for(int i=0; ichilds.length; i++) {

System.out.println(preStr + childs[i].getName());

if(childs[i].isDirectory()) {

tree(childs[i], level + 1);

}

// 提供一个"比较器"

static class FileComparator implements java.util.ComparatorFile {

@Override

public int compare(File o1, File o2) {

// 按照文件名的字典顺序进行比较

return o1.getName().compareTo(o2.getName());

}

关于java检索文档和Java文件内容检索工具的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java检索文档