阅读和书源规则编写建议
本文创作于2023年4月30日 21:45阅读(legado)是一款很酷的应用,它可以让网络小说和漫画的爱好者导入自定义阅读源后享受便捷的阅读体验。但是阅读其实是一个灰色地带的应用,虽然并不违法,但是也上不了台面。
本质上,阅读就是一个网络浏览器,根据书源规则,把那些小说和漫画的网站更加方便地解析展示给大家。要说有罪,那任何网页浏览器都可以被定罪,但它和盗版是强相关的。虽然在法律上有争议,但我还是认为阅读是 Android 手机上不可或缺的阅读神器。阅读确实很方便舒适,但是我还是建议大家通过正规渠道购买和阅读网络小说和漫画,这样不仅能尊重和支持作者,还能维护整个行业的生态环境。
所以,下文的介绍都不基于对盗版资源的抓取,特此说明。
推荐书源:
关于书源
熟悉python爬虫框架Scrapy的人, 可以把书源规则认作Scrapy的Spider类. 书源规则定义了如何搜索书籍, 然后抓取书籍的详情/目录/内容.
阅读还包括订阅源规则不在本文的讨论之列, 它只是简化版的书源规则
入门书源规则编写的教程, 推荐如下:
另外, 还需要掌握知识包括不仅限于: 正则表达式, CSS元素选择器, XPath, JsonPath , HTML, JS, HTTP.
基于你熟悉这些后, 我们开始讨论"如何更加优雅的编写书源规则":
编写建议
- 不要依赖sourceUrl
- 不要修改sourceUrl
- 精确coverUrl/bookUrl
- 优先使用@html获取长段文本
- 下一页目录和下一页内容优先一次性获取
文章作者: qbeenslee