当前位置: 首页 > news >正文

大快搜索数据爬虫技术实例安装教学篇

2019独角兽企业重金招聘Python工程师标准>>> hot3.png


快搜索数据爬虫技术实例安装教学篇

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

 

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

c3d344e9b4b14c86274e0151e203349ae30.jpg

5ddca9dd11b11a7a493a72fee4c7068eded.jpg

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

2d971672ba73813553007616a96feef6404.jpg

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

fbc2b202b1cf207d638fb46221f73a6f20e.jpg

Redis相关配置看如下界面:

42e2f8e5aae801219e20cfe8f6bda836045.jpg

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes(这下面有一个没有改好的直接替换)

bd38451681e804495b3478e6fa0f29d10b0.jpg

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

00c8c27bc6fed1e7b800690455011976e30.jpg

 

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

11310da64501d08ba4843f21022575bfb3e.jpg

使用cd  crawler  命令进入  crawler 文件夹下

193a63f972a2017b3fb1d1fc8d12301ca34.jpg

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

537e3a00c6d3da50aa791fe7b982ee2e8df.jpg

5、分发爬虫文件

690437c7948c87abfaca4bb9e3ffd6688ec.jpg

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

7ca6212e4acdf8139005893ed1dce6b1d28.jpg

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

bdd09b64ebb88dc735c66a83b37fc2d3062.jpg

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

22d7af0a21ae49d55c5392afbea3c106a5e.jpg

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

bb9e5c1e9c05d774db4c5edafd1f590fd6f.jpg

 

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

 

转载于:https://my.oschina.net/u/3970810/blog/2868791

相关文章:

  • js递归,无限分级树形折叠菜单
  • Linux环境搭建及命令
  • 区块链教程Fabric1.0源代码分析Peer peer chaincode命令及子命令实现
  • 我的前端工具集(九)树工具重新封装和修改
  • Spring Cloud 2.x系列之网关zuul入门(三)
  • Can't create/write to file '/tmp/MLjnvU95' (Errcode: 13 - Permission denied)
  • 互融云保理业务系统助力企业快速拓展业务
  • 如何利用MongoDB打造TOP榜小程序
  • 4.时间复杂度和空间复杂度-2
  • 你真的懂Redis事务吗?
  • MySQL-去重留一
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • Presentational and Container Components
  • 使用Python一年多了,总结八个好用的Python爬虫技巧
  • IO的模式
  • 【108天】Java——《Head First Java》笔记(第1-4章)
  • 【391天】每日项目总结系列128(2018.03.03)
  • 【399天】跃迁之路——程序员高效学习方法论探索系列(实验阶段156-2018.03.11)...
  • 【技术性】Search知识
  • 【面试系列】之二:关于js原型
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • 2018一半小结一波
  • CSS3 变换
  • Invalidate和postInvalidate的区别
  • IOS评论框不贴底(ios12新bug)
  • JavaScript设计模式之工厂模式
  • JAVA并发编程--1.基础概念
  • Java教程_软件开发基础
  • Linux编程学习笔记 | Linux IO学习[1] - 文件IO
  • Promise面试题,控制异步流程
  • Python socket服务器端、客户端传送信息
  • REST架构的思考
  • Service Worker
  • TypeScript实现数据结构(一)栈,队列,链表
  • 初识 beanstalkd
  • 第2章 网络文档
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 前端技术周刊 2019-01-14:客户端存储
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 小程序开发中的那些坑
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 自定义函数
  • 第二十章:异步和文件I/O.(二十三)
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (12)Linux 常见的三种进程状态
  • (2)(2.10) LTM telemetry
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (7)STL算法之交换赋值
  • (C语言)fgets与fputs函数详解
  • (zhuan) 一些RL的文献(及笔记)
  • (二十三)Flask之高频面试点
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)socket Aio demo