软件介绍
DocFetcher是一款非常好用的文档文本检索软件,它采用Java语言开发,可以帮助用户高效搜索电脑上的各种文档内容,非常适合用来查找代码或文献资料。DocFetcher操作很简单,支持众多常见的文档格式,有需要的用户快来下载吧。
DocFetcher特色功能
Unicode支持:DocFetcher随附所有主要格式的坚如磐石的Unicode支持,包括Microsoft Office,OpenOffice.org,PDF,HTML,RTF和纯文本文件。
存档支持:DocFetcher支持以下存档格式:zip,7z,rar和整个tar。*系列。可以定制zip存档的文件扩展名,从而允许您根据需要添加更多基于zip的存档格式。此外,DocFetcher可以处理无限的档案嵌套(例如,包含7z档案的zip档案和rar档案的zip等等)。
搜索源代码文件:可以自定义DocFetcher识别纯文本文件的文件扩展名,因此您可以使用DocFetcher来搜索任何类型的源代码和其他基于文本的文件格式。(与可自定义的zip扩展结合使用时,效果很好,例如,在Jar文件中搜索Java源代码。)
Outlook PST文件:DocFetcher允许搜索Outlook电子邮件,Microsoft Outlook通常将其存储在PST文件中。
检测HTML对:默认情况下,DocFetcher检测HTML文件对(例如,名为“ foo.html”的文件和名为“ foo_files”的文件夹),并将该对视为单个文档。起初,此功能似乎没有什么用,但是事实证明,当您处理HTML文件时,这会大大提高搜索结果的质量,因为HTML文件夹中的所有“杂物”都会从结果中消失。
基于正则表达式的文件从索引中排除:您可以使用正则表达式从索引中排除某些文件。例如,要排除Microsoft Excel文件,可以使用如下正则表达式:.*\.xls
MIME类型检测:您可以使用正则表达式为某些文件打开“ MIME类型检测”,这意味着DocFetcher不仅会通过查看文件名,还可以通过窥视文件内容来尝试检测其实际文件类型。 。这对于文件扩展名错误的文件非常有用。
强大的查询语法:除了OR,AND和NOTDocFetcher之类的基本结构之外,DocFetcher还支持:通配符,词组搜索,模糊搜索(“找到与...相似的单词”),邻近搜索(“这两个单词应为最多相距10个字”),增强(“增加包含...的文档的分数”)
DocFetcher支持格式
Microsoft Office(doc,xls,ppt)
Microsoft Office 2007和更高版本(docx,xl??sx,pptx,docm,xlsm,pptm)
Microsoft Outlook(PST)
OpenOffice.org(odt,ods,odg,odp,ott,ots,otg,otp)
便携式文件格式(pdf)
EPUB(epub)
HTML(html,xhtml,...)
TXT和其他纯文本格式(可定制)
富文本格式(rtf)
AbiWord(abw,abw.gz,zabw)
Microsoft编译的HTML帮助(chm)
MP3元数据(mp3)
FLAC元数据(flac)
JPEG Exif元数据(jpg,jpeg)
Microsoft Visio(vsd)
可缩放矢量图形(SVG)
DocFetcher使用方法
下面的屏幕快照显示了主用户界面。在(1)的文本字段中输入查询。搜索结果显示在结果窗格的(2)中。(3)处的预览窗格显示了当前在结果窗格中选择的文件的纯文本预览。文件中的所有匹配项均以黄色突出显示。
您可以按最小和/或最大文件大小(4),文件类型(5)和位置(6)过滤结果。(7)处的按钮分别用于打开手册,打开首选项和将程序最小化到系统托盘中。
DocFetcher要求您为要搜索的文件夹创建所谓的索引。简而言之,索引使DocFetcher可以非常快速地(以毫秒为单位)找出哪些文件包含一组特定的单词,从而大大加快了搜索速度。以下屏幕截图显示了DocFetcher的用于创建新索引的对话框:
单击该对话框右下角的“运行”按钮,开始编制索引。索引过程可能需要一段时间,具体取决于要建立索引的文件的数量和大小。一个好的经验法则是每分钟200个文件。
虽然创建索引需要时间,但每个文件夹只需要执行一次。此外,在文件夹内容更改后更新索引比创建索引要快得多-通常只需要几秒钟。