学科分类
/ 25
500 个结果
  • 简介:数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。

  • 标签: 数字资源建设 主题爬虫 搜索算法
  • 简介:地震宏观异常信息越来越多地以网络为媒介进行传播.通过对地震宏观异常的分析,确定地震宏观异常主题的描述方式,选取特征关键词,构建特征向量空间,利用向量空间模型计算主题相关度,从而实现面向地震宏观异常的主题爬虫.在实验中分别进行了主题爬虫与传统爬虫的信息采集工作,结果表明,主题爬虫在单位时间内可获取更多地震宏观异常信息,这也验证了主题爬虫在地震宏观异常网络信息的获取与传统爬虫相比具有更大优势.

  • 标签: 主题爬虫 地震宏观异常
  • 简介:摘要:当今科技迅速发展,计算机语言也迅速发展,涌现出很多新的流行的计算机语言,Python语言便是其中之一。而提到Python,网络爬虫技术是必不可少的,当今时代是一个海量数据的时代,为了更好的获取和处理数据,网络爬虫应运而生。

  • 标签:
  • 简介:摘要:随着信息技术的发展,网络数据成为一种重要资产,如何快速有效地提取和分析数据是目前该研究领域的热点。应用Requests技术分别开发了商品评论、百度贴吧图片爬虫,优化了爬虫算法,并为用户提供了有效的信息参考。下面本文就Python爬虫技术进行简要探讨。

  • 标签: Python 爬虫技术
  • 简介:随着互联网的飞速发展,网络上的信息呈爆炸式的增长趋势,为了采集网站上的有用的信息如文本、图片、视频等,可以使用网络爬虫技术从网站上进行爬取。首先主要介绍网络爬虫的基本概念,选择python语言的原因以及如何使用python3中的urllib库实现一个简单的网络爬虫,获取所需的信息。最后对网络爬虫技术的未来前景进行展望。

  • 标签:
  • 简介:随着社会的发展和科技的进步,互联网已成为人类获取信息的重要工具。在Internet给信息社会带来的极大便利的同时,也带来了许多安全隐患,跨站脚本攻击(XSS)在众多的Web漏洞中位居榜首。为此,提出了一种基于网络爬虫的XSS漏洞挖掘技术,包括网络爬虫模块、代码自动注入模块和漏洞检测模块。通过实验证明,本文对XXS漏洞检测效果较好。

  • 标签: XSS 网络爬虫 漏洞挖掘
  • 简介:对比新浪提供的API及传统的爬虫方式获取微博的优缺点,采用模拟登陆和网页解析技术,将获取的信息存入数据库中并进行分析。基于Python设计实现了新浪微博爬虫程序,可以根据指定的关键词获取相应的微博内容及用户信息。

  • 标签: 新浪微博 爬虫
  • 简介:摘要:网络信息量的迅猛增长,从海量的信息中准确的搜索到用户需要的信息提出了极大的挑战。网络爬虫具有能够自动提取网页信息的能力。对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用 Scrapyredis对爬虫进行拓展,利用 Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。

  • 标签: Python的网络爬虫程序 设计 应用
  • 简介:摘要:本文介绍了网络爬虫技术的发展脉络,简要描述了其工作原理以及如何对一个搜索引擎的好坏进行初步评价。

  • 标签: 搜索引擎 网络爬虫
  • 简介:随着科学技术的不断发展,云计算和大数据技术也在不断的进行着更深层次的研究和探索,网页信息的搜索技术是如今计算机领域的焦点问题,需要借用大数据技术来对信息进行采集和过滤,这是目前计算机领域的一个热点问题。本论文针对爬虫技术的自身特点做了概述,并且分析了爬虫技术在实际运用中的优点和劣势,针对目前互联网行业的难点问题,都利用爬虫技术试着解决,进一步对数据进行分析和过滤,从而达到技术的支持。特别是针对互联网金融信息数据的获取和搜集上目前研究的难点问题,进一步针对三种网络爬虫技术的搜索技术进行比较分析对深度优化搜索和广度优先搜索进行理论分析,继而对一种改进算法一一最好优先搜索方法进行JAVA程序实现,运用到的多线程技术可以提高程序的搜索效率。

  • 标签: 爬虫技术 互联网 JAVA多线程 网页挖掘
  • 简介:摘要现代信息技术飞速发展,不断的刷新人们的认知,只有加强对互联网技术的应用才能在未来的市场竞争中获得更大的发展空间。国家提出了“互联网+”的发展战略,我国各类企业都受到了一定程度的影响,电网工作也是逐渐改变观念,寻求新的突破。网页爬虫技术的日益发展优化了原有的搜索引擎技术,积极促进了各项工作的发展。本文针对网页爬虫技术的意义、分类以及相关应用技术做出一定分析。

  • 标签: 信息技术 互联网 搜索策略 分析方法 线程机制
  • 简介:随着“互联网+”概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.

  • 标签: 搜索引擎 网络爬虫 Jieba分词 正则表达式 词云
  • 简介:【摘要】:大数据时代,网络爬虫以较低的成本和较高的效率从互联网上获取资源和信息,给企业和个人生活带来了很多便利。但是万物都有两面性,恶意爬虫给网站带来难以估量的威胁和损失。为了避免网络爬虫被滥用甚至发展为恶意爬虫,网站通常会根据ip访问频率、浏览网页速度、账户登录、输入验证码、js加密、ajax混淆等技术来进行反爬虫。反爬不可能以某一种技术彻底封杀掉爬虫,只能想方设法提高攻击者的抓取成本,迫使抓取方在权衡成本效益后做出正确的选择。

  • 标签: 网络爬虫 反爬虫 大数据
  • 简介:摘 要: 人工智能和数据分析的基础是数据,获取数据的重要途径是网络爬虫,需要从众多的网页中爬取有效数据,是本文的研究内容,本文从简单网页爬虫,使用 urllib和requests获取数据;针对网页内容复杂度的特点,用Scrapy框架项目化方式进行爬取,但在实践中也会遇到一些问题,比如爬取的分页等问题,通过优化的方法,实现数据完整准确的爬取,实践表明,针对复杂度高的网页,使用scrapy框架爬取是行之有效。

  • 标签: 数据分析 网页爬虫 urllib和requests Scrapy框架
  • 简介:摘要:随着网络技术的发展,搜索引擎的出现使得用户可以足不出户,在网络上获取自己需要的资讯信息。然而搜索引擎由于数据量大,信息更新速度快,因此搜索网页所花费的时间也相对较长。本文主要通过设计网络爬虫来实现对网络爬虫爬取网页信息。

  • 标签: Python 资讯信息 网络爬虫设计
  • 简介:大数据审计的研究与应用是近年来审计领域的热点问题,如何获得审计需要的相关数据是开展大数据审计的关键环节。本文首先阐述了开展大数据审计的重要性,分析了目前大数据审计数据采集过程中存在的问题;在此基础上,提出了基于网络爬虫技术的大数据审计方法原理;最后,以某审计项目为例分析了如何采用网络爬虫技术实现所需要审计数据的采集。研究结果为今后开展大数据审计提供了技术方法。

  • 标签: 大数据审计 网络爬虫 数据采集 审计方法
  • 简介:随着云计算和大数据技术的深入发展,网页上的大量结构化和非结构化的信息搜索和挖掘技术成为一个热点研究问题。该文首先探讨了爬虫技术在互联网领域的应用情况,尤其针对互联网金融信息数据的获取和搜集上目前研究的难点问题,进一步针对三种网络爬虫技术的搜索技术进行比较分析,对深度优化搜索和广度优先搜索进行理论分析,继而对一种改进算法——最好优先搜索方法进行JAVA程序实现,运用到的多线程技术可以提高程序的搜素效率。

  • 标签: 爬虫技术 互联网 JAVA多线程 网页挖掘
  • 简介:摘要:最近一些年来,审计领域的一个焦点就是财务核销的研究和应用,怎样获得审计需要的有关数据,成为了财务核销的重点环节。信息化时代,有庞大的数据量且类型多种多样的核销数据,这就让传统审计方式无法持续高效的将核销任务完成,大数据技术使审计方法实现了创新。在财务核销领域中有效应用大数据技术,可以实现财务核销质量及效率的有效提升,并能降低财务核销成本,进而可将原来财务核销方式中不能对非结构化数据进行有效处理的弊端进行规避。鉴于此,文章详细论述了在数据财务核销中对网络爬虫技术的有效有效应用,旨在可以为行业人士提供有价值的参考和借鉴,进而更好的为行业的稳定、健康发展助力。

  • 标签: 网络爬虫技术 财务核销 应用