火车头采集器伪原创的一些秘密

网站刚建成的时候,没有内容,只能上网到处copy+paste,没办法,谁让咱们没钱请编辑呢~

这个时候一款好的采集器就非常重要了,国内做的比较好的有火车头和ET,以前觉得ET还行,用了新版的火车头后.越发觉得它功能太简陋了,该更新更新啦.

下面说说我的一些伪原创秘诀:

1.自己编写php或者C#插件,目前洛阳百姓网准备编写插件投入使用;

2.直接编辑火车头的任务数据库,流程如下:打开火车头的目录,找到user文件夹,找到下面的config.mdb文件,是access数据库,用access工具打开。找到表名为“Rules”的表,然后找到字段“RegexReplace”这个是替换,格式如:年幼无知→少不更事○平坦大路→康庄大道○绵力薄材→绵力○钳形进攻→左右夹攻,如上所示,只要把要替换的词组换上去就可以了,我加了1万多组,采集速度也没影响,其实在软件里添加也是一样的,不过那样加1万条数据就不知道是多少时间了。

3.直接编辑采集后的数据库,语句如下:

UPDATE Content SET Content.内容 = Replace([内容],\"旧词组\",\"新词组\")
WHERE (((Content.内容) Like \"*\" & \"条件词组\" & \"*\"));
 
洛阳百姓网最初使用的是第三种,随着数据的增大,现在目前决定使用第一种,毕竟是自己写的插件,说什么也比直接替换数据库灵活和强大.

除非特别注明,本站所有文字均为原创文章,作者:matrix