2015/1/10 9:1:37翻牌: 5389临幸: 3
    spimi算法实现的倒排索引的构建,并且对倒排索引进行了Gamma编码压缩,对词典进行了单一字符串压缩,分别写入了二进制的倒排索引文件和词典文件。源码可以在这里下载。http://download.csdn.net/detail/longmenwaideyu/8348061这其实是我刚刚上交了的现代信息检索的作业。spimi算法    内存式单遍扫描索引构建算法SPIMI(Single-pass in-memory indexing)基本思想如下    关键思想1: 对每个块都产生一个独立的词典--不需要在块之间进行term-termID的映射    关键思想2: 对倒排记录表不排序,...
2015/1/3 9:14:26翻牌: 4570临幸: 0
1. 朴素贝叶斯分类器    朴素贝叶斯分类是一种十分简单的分类算法,朴素贝叶斯根据给定的特征向量(若干个特征写成一行),求解在所以特征值都出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。用公式表示为y=c表示类别为c,粗体x表示一个特征向量,D是指当前数据集,因为学习是在某数据集的条件下。    可以看出,求某个类别在某些条件下出现的概率,使用的是贝叶斯公式,第一章已经提到。并且,公式的分母其实都一样,所以公式的左端正比于公式的右端分子,即每次只计算分子,哪个类别的分子大,就预测为哪个类别。从分子我们可以看出,大体上需要计算两个东西,一个是在某个类别时特征向量X出现的...
2015/1/1 8:58:58翻牌: 3042临幸: 4
零. 开篇序言        一个学期结束了,期末匆匆忙忙的开发了这个博客系统,当时壮志雄雄的说,等我博客上线了,我一定要把这学期学的东西整理成博客,第一个文集就叫机器学习。25号考完了机器学习就赖在床上一整周,甚至博客系统有些东西都没开发完,囧。直到前天才强打精神,算是大体上把博客开发完成了,虽然有些边边角角还是需要继续修的,不过发了几篇博客感觉还是不错的,赞一个。    前天昨天今天把以前一些个小玩意稍稍整理了一下发了几篇博客,语言都不完全,完全是先占个坑。以后慢慢的补,一方面是为了测试博客,一方面是先列个大纲。    这个文集不仅是机器学习这一门课程的内容整理,还参考了相关的其他几门课程...
2015/1/1 5:20:28翻牌: 3166临幸: 20
代码放在github上,欢迎下载,欢迎提出意见和建议https://github.com/longmenwaideyu/expressjs-blog主要功能和特色文集功能,将文章整理成册功能齐全的富文本编辑器,写博客更随心响应式布局,手机上效果也很出色搜索引擎优化,自动提取文章大纲和关键词,填入description和keywords占内存少,方便托管于bae的128m最小web服务上。漂亮的侧边栏自定义URL,连接可以体现博客主题待开发功能文章右侧边栏增加一个自动提取的文章大纲,充当文章的目录功能,自动添加锚点进行定位,用户无需手动添加增加markdown的编辑器回复审核和删除功能seo优化...
2015/1/1 2:39:27翻牌: 2510临幸: 2
1. string介绍(1)string类的构造函数如下:     a) string s; //生成一个空字符串s     b) string s(str) //拷贝构造函数 生成str的复制品     c) string s(str,stridx) //将字符串str内"始于位置stridx"的部分当作字符串的初值     d) string s(str,stridx,strlen) //将字符串str内"始于stridx且长度顶多strlen"的部分作为字符串的初值     e) string s(cstr) //将C字符串作为s的初值     f) string s(chars,cha...
2015/1/1 2:21:13翻牌: 2696临幸: 1
    在开发 Node.js 实现的 HTTP 应用时会发现,无论你修改了代码的哪一部份,都必须终止Node.js 再重新运行才会奏效。这是因为 Node.js 只有在第一次引用到某部份时才会去解析脚本文件,以后都会直接访问内存,避免重复载入,而像PHP之类的脚本则总是重新读取并解析脚本(如果没有专门的优化配置)。Node.js的这种设计虽然有利于提高性能,却不利于开发调试,因为我们在开发过程中总是希望修改后立即看到效果,而不是每次都要终止进程并重启。    supervisor 可以帮助你实现这个功能,它会监视你对代码的改动,并自动重启 Node.js。使用方法很简单,首先使用 npm 安...
2014/12/31 9:30:45翻牌: 3211临幸: 1
NodeJS 子进程提供了与系统交互的重要接口,其主要 API 有: 标准输入、标准输出及标准错误输出的接口 child.stdin 获取标准输入 child.stdout 获取标准输出 child.stderr 获取标准错误输出 获取子进程的PID:child.pid 提供生成子进程的重要方法:child_process.spawn(cmd, args=[], [options]) 提供直接执行系统命令的重要方法:child_process.exec(cmd, [options], callback) 提供杀死进程的方法:child.kill(signal="SIGTERM")error事件...
2014/12/31 9:19:40翻牌: 2143临幸: 3
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^\d{n}$"。只能输入至少n位的数字:"^\d{n,}$"。只能输入m~n位的数字:。"^\d{m,n}$"只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"。只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"。只能输入非零的正整数:"^\+?[1-9][0-9]*$"。只能输入非零的负整数:"^\-[1-9][]0-9"*$。只能输入长度为3的字符:...
2014/12/31 9:16:0翻牌: 2706临幸: 0
    cheerio是一个nodejs实现的类似jquery核心功能的一个模块,用它可以方便的将字符串解析成DOM文档,像用jquery一样方便的操作html。cheerio结合前面提到的nodejs的spider,可以将抓取的网页方便的提取出自己所需的内容。1. 安装cheerio    npm install cheerio2. 加载htmlvar cheerio = require("cheerio"); var $ = cheerio.load("<div><p>一行文字</p><img id = "img1" src="/a.jpg"/><img src="/b.jpg"/></...
2014/12/31 5:1:15翻牌: 2581临幸: 4
nodejs使用http.request抓取网页。option中还可以设置其他参数,例如timeout: 50000。即请求超时的时间。也可以加一些自定义的参数,比如加一个tryTime: 3, 当请求出错后,在回调中tryTime--,如果>=0 那么回调中再次的调用一次spider。回调函数示例function callback(data, opt, encode) {     if (data == null && opt.tryTimes-- > 0) {         console.log("path " + opt.path + " error, try again"); ...