存档

文章标签 ‘搜索引擎’

TF-IDF来源及理论推导

2012年8月16日 7 条评论

---

了解文本挖掘的都知道TF-IDF这个概念,以前也做过一个文本分类的项目,用到TF-IDF,当时也就是照现成的公式用,也没想过它的公式为什么那么定义,只是有一个感观上的理解。

了解信息论的都知道“熵”这个概念,这是个了不得的成就,信息是个很抽象的概念,但信息熵的提出很好地解决了信息的量化问题。

信息熵的用处很多,一个典型的例子就是它在决策树算法中的应用了,我最初接触信息熵和决策树时整理了一点资料(入门看),在这里备份,方便以后查找。

  1. 20090701-Yx.Ac-信息熵
  2. 20090714-Yx.Ac-决策树ID3
  3. 20090714-ID3条件熵的选择推导证明

郁闷的是我现在才知道TF-IDF的定义原来是由信息熵推导而来的,信息熵真是不错,要知道TF-IDF的各种形式常被搜索引擎所应用,它已经深深影响并改变着人们的生活。TF-IDF用在向量空间模型中为文档向量进行权重赋值,那么使用TF-IDF计算的权重有何物理意义呢

阅读全文...

基于Nutch的站内搜索引擎搭建(二)

2012年8月9日 没有评论

---

Windows下Nutch的安装配置,参见:基于Nutch的站内搜索引擎搭建(一)

本节在上回基础上,对Nutch添加中文分词插件,进行二次开发,同时辅助Nutch分析工具了解Nutch的工作机制,并对其进行一些简单的优化配置。内容如下:

===部件及安装===

===Nutch添加中文分词插件===

===重新爬取建立索引发布===

===参考资料===

===========================================

部件及安装

Javacc:一个Java语法分析器,可以读取上下文无关且有着特殊意义的语法并把它转换成可以识别且匹配该语法的JAVA程序,这里主要用于将Nutch添加中文分词后进行重新编译生成Nutch的分词程序。附上快盘下载链接:Javacc下载

安装Javacc,解压缩包后,将Javacc的bin路径添加到环境变量Path中,然后可cmd测试命令Javacc验证。

IK Analyzer:开源分词软件,下载地址:http://code.google.com/p/ik-analyzer/

Luke:访问Lucene索引的开发分析工具,可以显示并修改Lucene索引内容,下载地址:http://www.getopt.org/luke/

阅读全文...

基于Nutch的站内搜索引擎搭建

2012年8月8日 2 条评论

---

以前配置过一次Nutch,后来干脆忘干净了,最近又折腾一次,记录下来,方便以后查阅。现在Nutch的版本已经出到1.51了(截止到7月份),新版资料少,入门还是找经典的版本混个眼熟先,本文采用0.9版,在Windows下搭建一个简单的站内搜索引擎,内容如下:

===所需装备===

===基本部件安装(从简述)===

===Nutch的安装与配置===

===Nutch部署到Eclipse===

===爬取网页:Nutch和Eclipse进行站内抓取===

===实现站内搜索:Nutch部署到Tomcat===

===参考资料===

===========================================

===所需装备

JDK1.6 不多说,大多数人都装有

Eclipse 不多说

Tomcat 开源web应用服务器,下载地址:http://tomcat.apache.org/

Nutch 0.9 下载地址:http://nutch.apache.org/  我安装时,官方没找到这个版本,这里提供一个快盘下载链接:Nutch-0.9

Cygwin 用来模拟运行UNIX类环境的,因Nutch是在Linux下开发的,故Windows环境下需要用Cygwin协助。下载地址:http://www.cygwin.com/ (本文没有在Cygwin环境下,大部分命令是通过Eclipse完成)

阅读全文...

《深入搜索引擎》读书笔记:第一章

2012年5月18日 4 条评论

---

最近想慢慢整理点关于搜索引擎的资料,主要结合自己实现的简易搜索引擎框架(以后慢慢展开)和《深入搜索引擎》这本书。

为了加深理解吧,也为了理解相关技术诞生的必要性,根据第一章内容简单回顾下历史:-)。

第一章主要讲述了处理海量数据时,索引与压缩技术的必要性。这里交代了在过去制作一个词汇索引是多么的耗时与费劲,从而引入本书的主题。

历史回顾

早期的词汇索引:1911年,为方便读者在英国诗人威廉.华兹华斯的诗集中找到感兴趣的词汇,对约211000个词汇建立了一个长达1136页的词汇索引。

工作团队:67人(号称是高效团队)

耗时:7个月

所用材料:大量的卡片、剪刀、胶水等

著名词汇索引工作:19世纪和20世纪早期完成,例如《圣经》、莎士比亚著作等。

发展

20世纪六七十年代,原因是有了计算机的辅助。

那个时候计算机虽不像现在这样智能,但也大量地减少了人们的工作,一个例子:拜伦的诗集,人工编撰的索引耗时25年,使用卡片285000张,1965年使用计算机辅助只需要几天就可以完成这个工作。这的确很震撼。

个人感悟:

早期的词汇索引工作意味着常年的辛勤工作,不知道如果他们知道现在使用计算机建立一个索引的时间后会作何感想,不得不佩服先人们的毅力,更为重要的是他们坚信词汇工作的价值并为之奋斗的那种信念。

全文检索:

随着计算机的发展,词汇编撰工作也越来越轻松和容易了,一个自然的结果就是:需要为任何文本都创建词汇索引,即全文索引。

阅读全文...

博客被各搜索引擎收录情况

2011年9月8日 1 条评论

 

记录一下,博客先后被Google,百度,soso,bing等收录啦!O(∩_∩)O~,下面是搜索“勇幸”关键词博客在各引擎的排名情况。

  • Google

写了几篇博文后,博客就被谷歌收录了,刚开始排在了第一页的末端,前几天已经上升到第一的位置啦,O(∩_∩)O~,截图留念

而且Google的网页更新周期相当快,几天吧,我对网站的更新,两三天后就收录了最新的。

google收录情况

阅读全文...