爬了个虫

2019-06-15 工作记录

初始需求

第一次接触到需求是要用到大量的成语、能区分出多音字

  • 自己首先想到的是GitHub,在GitHub上搜索了下,果然搜索到了好多成语的源

    在其中找了一个词库比较大的,下载了下来

  • 然后找了几个汉字转拼音的网页,其中大多数不支持多音字

    最后找到了:http://www.zhuanpinyin.com

  • 将所有的成语粘贴、转换;然后在Excel中使用if判断下,完活!

需求变更

需求有了新的变更,要提供些成语的解释和故事

  • 起初是想到百度文档上找
    但在上面找了一些之后,发现都不太好,要么是词量少,要么是东拼西凑的。

  • 然后想在专业网站上找找。最终确定了:http://www.gushi51.com

  • 上面大概有4000个成语故事,怎么将这4000个给搞下成了一个大问题。
    第一时间想到的是使用爬虫。
    直接使用python,是不太可能的。
    在几个爬虫软件中选择了八爪鱼,可视化操作,这点大大降低了门槛。

  • 网页使用的是统一的模版,网址有规律
    直接使用八爪鱼的批量生成。
    开始自动流程。

新的问题

批量生成的网址大概2W+,实际可用的网址也就4000,在实际跑的过程有遇到了大量无效的网址。

  • 刚开始的时候,是观察网址段,将任务分解。
    实际操作的过程中,实在是太多的段了,手动去操作能累死。

  • 这些网页有目录页,现在打算从这方面做文章
    使用自动翻页,将所有的目录页,显示在同一个网页内。
    使用Link Grabber,将所有符合的链接提取出来。

  • 再将这个链接放进入八爪鱼中。

现在问题算是基本完美的解决了!

其他问题

  • 八爪鱼免费版本地跑到800条数据时,效率明显下降。
  • 在笔记本上850条时就会偶现卡死,不过等待一段时间后还能响应,接近900时卡死只能结束进程了
  • 台式机上坚持到了920条出现假死,接近1000时等待后还可响应
Comments
Write a Comment