$ curl -A "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" "<https://search.douban.com/book/subject_search?search_text=9787500173625&cat=1001>" -L
读取输入文件(input.xlsx)获取 ISBN 列表
对每个 ISBN:
先检查是否有详情页缓存(book_html/{isbn}.html)
如果有缓存,直接解析获取所需信息,保存到结果中
如果没有缓存,才需要:
检查搜索结果缓存(book_urls.xlsx)获取 URL
如果没有 URL,则需要搜索获取 URL
用获得的 URL 访问详情页并保存缓存
最后把所有结果保存到输出文件(output.xlsx)