当前位置: 首页 > news >正文

大快搜索数据爬虫技术实例安装教学篇

大快搜索数据爬虫技术实例安装教学篇

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

clipboard.png

clipboard.png

2、修改crawlerdkcrwjdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

clipboard.png

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

clipboard.png

Redis相关配置看如下界面:

clipboard.png

3、把已修改的crawlerdkcrw下的jdbc.properties配置文件替换到crawlerdkcrw-tomcat-7.0.56webappsROOTWEB-INFclasses下(这下面有一个没有改好的直接替换)

clipboard.png

修改好后把修改好的爬虫文件打压成压缩文件
4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

clipboard.png

unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹

clipboard.png

使用cd crawler 命令进入 crawler 文件夹下

clipboard.png

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

clipboard.png

5、分发爬虫文件

clipboard.png

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)
命令:
scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

clipboard.png

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限
命令:
chmod -R 755 {需要给权限的文件等}
例如:
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

clipboard.png

7、启动爬虫界面
命令:
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh

clipboard.png

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

clipboard.png

8、启动每个节点的dkcrw.jar
命令:
主节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。
前台启动命令java -jar dkcrw.jar master/slave

相关文章:

  • 解决项目不编译4大clean
  • 迭代器 /生成器 yield
  • mysql表与表之间的关系
  • 对标汽车之家,新势力杉车网的另类崛起
  • RabbitMq集群搭建
  • vue-cli2使用cdn方式引入cytoscape
  • VS2015 提示 无法启动 IIS Express Web 服务器
  • P5003 跳舞的线 - 乱拐弯
  • 阿里数据库十年变迁,那些你不知道的二三事
  • RTSP(Real Time Streaming Protocol)实时流传输协议详解
  • 《三块广告牌》
  • 【重磅】Spring Boot 2.1.0 权威发布
  • Laravel Telescope:优雅的应用调试工具
  • iOS 传感器集锦
  • 2018-2019-1 20165323 《信息安全系统设计基础》第七周学习总结
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • android图片蒙层
  • Android组件 - 收藏集 - 掘金
  • CAP理论的例子讲解
  • download使用浅析
  • iOS 颜色设置看我就够了
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • JavaScript函数式编程(一)
  • JS 面试题总结
  • Making An Indicator With Pure CSS
  • Promise面试题,控制异步流程
  • SpringBoot 实战 (三) | 配置文件详解
  • vue脚手架vue-cli
  • 大快搜索数据爬虫技术实例安装教学篇
  • 浮现式设计
  • 前端攻城师
  • 微信小程序填坑清单
  • 消息队列系列二(IOT中消息队列的应用)
  • 小程序01:wepy框架整合iview webapp UI
  • 源码之下无秘密 ── 做最好的 Netty 源码分析教程
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • 湖北分布式智能数据采集方法有哪些?
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • ​虚拟化系列介绍(十)
  • !! 2.对十份论文和报告中的关于OpenCV和Android NDK开发的总结
  • #NOIP 2014# day.2 T2 寻找道路
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • (07)Hive——窗口函数详解
  • (09)Hive——CTE 公共表达式
  • (C++20) consteval立即函数
  • (day 12)JavaScript学习笔记(数组3)
  • (MIT博士)林达华老师-概率模型与计算机视觉”
  • (附源码)springboot建达集团公司平台 毕业设计 141538
  • (四)【Jmeter】 JMeter的界面布局与组件概述
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转)EXC_BREAKPOINT僵尸错误
  • .Net 6.0 处理跨域的方式
  • .NET Micro Framework 4.2 beta 源码探析
  • .net 提取注释生成API文档 帮助文档