`

用户登录数据采集

 
阅读更多
1、 用户登录数据采集 用户登录
 
采 集银行或者其他企业数据 首先需要用户登录利用java语言的URL方法获取登录url 或者使用java的开源工具HTTPClient模拟登录,用到的插件有IE的httpwotch工具和FireFox里的Firebug工具和 cookie插件得到URL请求的post密码地址或者get密码地址。
 
2、 采集中对用户密码的登录难度及其验证码和证书解决方案
 
a) 对于普通的用户登录,只需要查看用户登录信息从中获取POST的值模拟post数据登录,抓取相关数据
 
b) 对于post提交中发现前台js做过md5加密,或者其他aes、des加密的,查看网站项目js源代码看是什么类型的加密方法,用其解密方法得到即可一 般aes加密的key会存储在客户端,所以得花费一定时间找到其加密key即可模拟登录,有些加密是用js做的相关加密,或者用的一些开发加密,而其他语 言的加密不相同这时候得需要Rhino JavaScript引擎技术去模拟js获取加密key再去登录。
 
c) 对于证书加密的解决方案 首先你要去打开一个https:///www.xxx.com 的网站 找到证书选择查看证书然后在详细信息里选择复制到文件选择der编制二进制x.509导出cer证书,将证书转换为c密钥的形式,在windows里有一 个keytool工具用此命令导出为加密的keystore文件格式的密钥文件,再用httpclient的keyStore工具获取密钥库登录密钥库密 码用sslsocketfactory注册密钥就可以达到密钥库登录的目的。
 
d) 对于第三方服务器认证服务器的密钥登录方式解决方案。一直登录通过firebug的url检测查看url访问路径和在html代码里对url的变动进行采 集分析dom数据查看是否有变动将获取的url得到数据继续模拟登录直到访问数据成功即可,一般这个比较耗费时间。
 
e) 对于机器IE加密证书和必须安装相关插件的数据抓取方案。有些网站为了限制是一台机器登录这下得按用户登录方式模拟登录、模拟登录时下载证书、模拟访问证 书路径、模拟下载证书后访问的页面最后他会有可能生成一个key这个key有可能是按天去生成的有可能每天得去模拟一次然后按照用户post的数据模拟登 录提交key即可。
 
f) 对于有验证码破解的登录方式,用程序将图片去灰度做调整,用Google的开源项目tesseract-ocr去check验证码,有些验证码很难破解的 得想办法建立字典学习库。收集一些验证码让程序去学习达到破解的方法(注*得会用c语言写接口和左http服务 Google开源的tesseract-ocr用的c语言),也可以自己写算法实现验证码的破解。
 
g) 对于U-key登录方式的破解,看此U-KEY存储的是什么类型的key,有些是用证书做的key,有些是不对称加密key对于不同的key有不同的解决方案,可以破解key做一个模拟器,或者是把加密狗破解复制到其他加密狗里再去用。
 
3、 数据采集页面数据分析之分页和数据日常抓取相关注意事项
 
a) 对于普通的页面的分页数据分析,一般规律在html分页会存在于url里的参数对于一些带有search的先用sql注入测试一下是否可以直接出现所有数据一次爆出。如果是普通的直接url提交对应的page即可。
 
b) 对于一些aspx类型网站的数据抓取一般aspx网站很多人都会用一些做好的dll文件很多都会存在会话功能,就是访问第二页数据他会读取相关第一页面数据的input里hidden里的数据,每一页的数据都有所不同只需模拟抓取即可。
 
c) 对于其他的一些页面数据的抓取有些是ajax返回数据而前台无法解析的数据,对于这样的数据抓取最好的办法是直接用java解析json数据即可。有可能寻找json有些费力。
 
d) 对于有些横向分页和纵向分页数据的抓取,只能横向切换抓取然后再纵向抓取所有分页数据,有些横向数据的post参数咱们可以自己定义,并抓取得到数据。
 
4、 数据分析清洗数据
 
对于一些数据的清洗大致都是用Jsoup、xpath、regex做数据解析分析处理即可。有些数据得需要一些算法把数据取出来,二级数据页面分析解析方式取出数据即可。(对于不同的数据选择不同的解决方案)
 
5、 对于用户限制和ip限制的解决方案
 
对 于用户限制数据抓取方案只能采取时间间隔掌握网站频率抓取数据和排查用户登录对于多用户登录和ip查看的方案去抓取数据也可以申请多个账号进行抓取,对于 ip限定抓取的方式是可以伪装Google IP抓起数据,和用ADSL拨号方式抓取数据。需要消耗的时间比较长。其他方式可以买代理ip和高保真代理数据抓取。
 
6、 对于下载和编码相关注意事项
 
对于普通的抓取来说一般用url的数据流下载相关文档即可解析word和excel一般用POI即可达到效果对于pdf来说一般用PDFParser分析即可。其中有一些会造成乱码大多数是用InputStream之类所造成的一般用utf-8\gbk请求时查看请求的头信息看编码做对应的修改即可,有些网站得需要用字节才能才能解决乱码。对于下载有些则需要修改请求头信息才能下载。
 
对于一些定制化的数据抓取只能写定制化抓取方案解决,统一种子中心分发下载达到分布式数据抓取。(注*有些网站无法用分布式数据采集)。

 

 


 

分享到:
评论

相关推荐

    工业软件框架实现用户登录管理和西门子plc进行数据采集

    工业软件框架实现用户登录管理和西门子plc进行数据采集可以自行修改添加用户登录实现与PLC的数据交互。

    数据采集工具

    登录审计管理平台后如下图4.1-1所示,点击登录平台中间的“快捷切换”右边的下拉式箭头,在弹出的下拉式菜单中选择【02-数据采集转换系统】,数据采集转换系统操作界面功能如下图4.1-1左边树型结构所示: ...

    基于LabVIEW的多通道数据采集系统

    1. 本程序只在Windows XP 平台上经过完整测试,因此只能保证该程序在WinXP系统下正确运行。 2. 由于本程序使用的是MySQL...本设计为3通道数据采集,具有调节采样参数的功能,采集数据的实时显示和历史数据的查询。

    模拟量数据采集软件

    软件中包含用户登录界面,数据采集、串口通信、MOdbus协议解析,模拟量数据实时显示

    计算机毕业设计源码:基于python气象数据采集预测可视化系统 (机器学习)预测模型+爬虫

    系统功能主要包括数据采集功能、数据可视化功能、数据预测功能、用户登录与注册功能、数据管理功能。其中数据采集功能包含全国实时天气数据采集和上海历史天气数据采集。数据可视化功能包含全国综合天气数据可视化、...

    基于python机器学习的全国气象数据采集预测可视化系统 毕业设计 预测模型+爬虫(包含文档+源码+部署教程)

    系统功能主要包括数据采集功能、数据可视化功能、数据预测功能、用户登录与注册功能、数据管理功能。其中数据采集功能包含全国实时天气数据采集和上海历史天气数据采集。数据可视化功能包含全国综合天气数据可视化、...

    DMS数据采集

    用来提取用户登录Unix服务器的信息的,通过读取服务器的日志文件,将登录信息读取出来,之后写入到NETCTOSS统一的数据库中。需要每一台Unix服务器都单独部署DMS。

    14wifi多传感器数据采集用户登录作业.rar

    stm32f407基于stm32cubemax6通过wifi多传感器采集

    开放实验室数据采集系统

    采集系统定时将用户登录服务器的数据存入到了数据库中,但这些数据都是流水帐的数据,是用户每次使用Unix操作系统的用时。如果用户量大,用户频繁地登入/出,将产生大量的数据,不便于将来生成用户的月账单和对开放...

    基于LabWindows/CVI的数据采集与监控系统的设计与实现

    论文摘要 近年来,随着虚拟仪器技术、网络通讯技术的显著进步以及Intemet的迅速 普及,将网络技术应用到虚拟仪器,使信号采集、传输和处理分析一体化,已 ...据报表管理、交接班管理、用户登录与权限管理等功能。

    PDA采集条码程序

    扫描后,点采集完成,当前的单据操作完成,进行下一个单据的数据采集。 4、 入库扫描 下拉选择单据。直接在条码中扫描即可。 入库的扫描和出库的扫描程序相同,只是单据编号不一样。 选择单据编号,单据编号为...

    基于SpringBoot框架搭建的物联网数据采集系统服务器端(源码)

    * 将用户登录信息不直接存入session,而是存入Redis缓存,以实现分布式session共享 * 3.提交Data数据的异步任务支持。通过线程池实现异步地将Redis中缓存队列添加到数据库,减少数据库的写入压力。 * 4.nginx与...

    通用数据挖掘系统

    用户使用电信运营商提供的Unix实验室的服务需要缴纳一定的费用,电信运营商需要一套数据采集系统,把用户登录实验室的时间长度数据采集起来,便于在指定的时间范围内作为对用户的收费依据。 要求数据采集系统必须...

    C#上位机与单片机的完美结合(内附有用户登录,注册,截图,温度采集,历史数据展示,左边菜单右边内容展示的主界面

    C#上位机与单片机的完美结合(内附有用户登录,注册,截图,温度采集,历史数据展示,左边菜单右边内容展示的主界面

    基于SpringBoot框架搭建的物联网数据采集系统服务器端(源码+项目说明).zip

    基于SpringBoot框架搭建的物联网数据采集系统服务器端(源码+项目说明).zip ## 基于SpringBoot框架搭建的物联网数据采集系统服务器端 DAQ-IoT-SSM的升级版 #### 2020-7-15 更新内容 * 1.前端页面完全重构 * 使用...

    DMS电信数据挖掘系统源代码

    用户使用电信运营商提供的Unix实验室的服务需要缴纳一定的费用,电信运营商需要一套数据采集系统,把用户登录实验室的时间长度数据采集起来,便于在指定的时间范围内作为对用户的收费依据。要求数据采集系统必须...

    LabVIEW多通道数据采集系统源程序

    程序中使用ACCESS数据库来保存数据,使用LabSQL工具包来连接数据库,打开之前请确认安装了这个工具包。 程序一运行时会先弹出密码登录系统,用户名和密码都为“vihome”。 这个程序实现的功能或者说使用到的知识点...

    开单大师开源可定制房产中介ERP(房源采集)

    传输更快、更稳定,支持移动端的数据交互方案,更好提升您的用户体验。社区信息/座栋信息/房屋信息/图片信息实时更新,及时反馈房屋租售状况。全新智能定义房源等级标准,规则统一,标准统一,让资源优选自动化。...

    采集工具_采集软件_熊猫智能采集助手

    十、其它采集工具软件常见功能(模拟登录、伪原创、自动运行、多数据库引擎支持、自动发布、FTP同步上传、网页编码自动识别、图片与文件的下载、对采集结果进行过滤挑选、多线程、多任务等等)。 软件同时推出全...

    智动网页内容采集器 1.8

    软件介绍: 1、采用底层HTTP方式采集数据,快速稳定,可建多个任务多线程采同时采集多个网站数据 ...5、可以用登录采集方式采集需要登录帐号才能查看的网页内容 6、可以无限深入N个栏目采集内容、采链接

Global site tag (gtag.js) - Google Analytics