crawl_gooseeker_bbs.py 606 B

123456789101112131415161718192021
  1. #-*_coding:utf8-*-
  2. # 使用gsExtractor类的示例程序
  3. # 访问集搜客论坛,以xslt为模板提取论坛内容
  4. # xslt保存在xslt_bbs.xml中
  5. from urllib import request
  6. from lxml import etree
  7. from gooseeker import GsExtractor
  8. # 访问并读取网页内容
  9. url = "http://www.gooseeker.com/cn/forum/7"
  10. conn = request.urlopen(url)
  11. doc = etree.HTML(conn.read())
  12. # 生成xsltExtractor对象
  13. bbsExtra = GsExtractor()
  14. # 调用set方法设置xslt内容
  15. bbsExtra.setXsltFromFile("xslt_bbs.xml")
  16. # 调用extract方法提取所需内容
  17. result = bbsExtra.extract(doc)
  18. # 显示提取结果
  19. print(str(result))