您现在的位置: 首页技术文章>正文
火车头采集器伪原创的一些秘密
2010年10月30日 技术文章 评论数 8

网站刚建成的时候,没有内容,只能上网到处copy+paste,没办法,谁让咱们没钱请编辑呢~

这个时候一款好的采集器就非常重要了,国内做的比较好的有火车头和ET,以前觉得ET还行,用了新版的火车头后.越发觉得它功能太简陋了,该更新更新啦.

下面说说我的一些伪原创秘诀:

1.自己编写php或者C#插件,目前洛阳百姓网准备编写插件投入使用;

2.直接编辑火车头的任务数据库,流程如下:打开火车头的目录,找到user文件夹,找到下面的config.mdb文件,是access数据库,用access工具打开。找到表名为“Rules”的表,然后找到字段“RegexReplace”这个是替换,格式如:年幼无知→少不更事○平坦大路→康庄大道○绵力薄材→绵力○钳形进攻→左右夹攻,如上所示,只要把要替换的词组换上去就可以了,我加了1万多组,采集速度也没影响,其实在软件里添加也是一样的,不过那样加1万条数据就不知道是多少时间了。

3.直接编辑采集后的数据库,语句如下:

UPDATE Content SET Content.内容 = Replace([内容],\"旧词组\",\"新词组\")
WHERE (((Content.内容) Like \"*\" & \"条件词组\" & \"*\"));
 
洛阳百姓网最初使用的是第三种,随着数据的增大,现在目前决定使用第一种,毕竟是自己写的插件,说什么也比直接替换数据库灵活和强大.

目前有 8 条留言 其中:访客:6 条, 博主:2 条

  1. 最好的英语学习机 : 2011年02月06日21:03:39  -29楼 @回复 回复

    毕竟是自己写的插件,说什么也比直接替换数据库灵活和强大

  2. 青年文摘 : 2011年04月24日17:25:59  -28楼 @回复 回复

    很好 我就是 不知道如何为原创。。。。。

    • Matrix : 2011年04月27日23:12:56 @回复 回复

      呵呵 其实一般的伪原创是无法逃过搜索引擎法眼的,而高级的伪原创又对用户没有任何价值, 做网站 还是厚道点好,自己写些东西 何乐不为呢?

  3. 罗平 : 2011年05月19日01:42:54  -27楼 @回复 回复

    分享一下插件吧。

    • Matrix : 2011年05月20日22:37:46 @回复 回复

      呵呵 现在这个插件已经无用了 我们尝试过 发现伪原创跟抄袭基本上是没啥区别的 只要你有一段内容是别的网站的,那你的文章就被定性为转载了 真需要的话 我发你邮箱?邮箱地址留一下。

  4. hexihua : 2012年05月05日11:36:43  -26楼 @回复 回复

    麻烦给我发份插件,急需,谢谢。

  5. 桐华长相思 : 2013年03月12日11:21:01  -25楼 @回复 回复

    写的很好 我正困惑呢

  6. 桐华长相思 : 2013年03月12日11:22:35  -24楼 @回复 回复

    楼主能替换一万多组,能不能共享一下

给我留言