模块介绍

本模块仅适用于drupal7.x版本由万维网络开发,本文给出的链接并不是最终版本,最终版本在没电的笔记本里。

请勿马上投入运营使用,这并不是一个好的模块,只是本人在刚接触drupal之余无聊写的,如果您将其投入正常的使用,本人不服任何的责任。

模块功能

自定义采集字段,然后和drupal cck字段对应。模块html解析直接使用的SimpleHTMLDOM parser,所以采集规则填写为jquery获取html dom的规则即可,如果您不熟悉jquery的基本语法,请百度。

伪原创功能,这个当初写的很简单,大家还是不要使用了,生成的文章太乱,不论是人还是程序都是看不懂的,还会遇到一大堆的符号集中在一起,在下曾经用这个生成了两篇文章,虽然收录了但是反应极差,而且开启本功能可能会造成不可预料的错误。

定时采集,跟随drupal cron机制,在drupal执行cron时定时采集

模块总结

就算是用drupal做垃圾站,也暂时不要使用这个模块,可以留言,如果确实有人需要,本人会加以完善修改。

只所以放出这个东西更多的是让大家帮忙测试,很久前写的东西了,有什么问题、错误我也已经不清楚了,所以请求测试,然后留言,也请各位前辈指点。

下载链接

链接:http://pan.baidu.com/share/link?shareid=346636&uk=3708413917 密码:1933

这个链接里面包含多个模块,和本模块有依赖关系,好像有从织梦移植来的中文分词模块。

如果不能使用,好吧,请留言,这东西是从网盘翻出来才记起的。

未来考虑添加的功能

泛采集,泛采集才叫做采集,当然,只是自己的观点,泛采集的代码一直在测试,有一个好的版本才会放出来给大家。

多线程,现在也可以说是多线程,可是鉴于当初水平问题,就有很大问题。

伪原创,百度算法更新,必须要有更好的伪原创方法,这个还没着手,大家可以留言说出自己的意见。

手动采集,现在的采集还只能通过执行cron来采集。

原文地址:http://w3123.com/node/860