数据挖掘--爬虫--动态渲染页面爬取

selenium的使用

  官方文档
  selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,还可以获取浏览器当前呈现页面的源码。

等待条件以及其含义

  官方文档

1
2
3
wait = WebDriverWait(browser,1)
wait.until(EC.presence_of_element_located((By.ID,'content_left')))
#until中的即为等待条件
等待条件 含义
title_is 标题是某内容
title_contains 标题包含某内容
persence_of_element_localted 节点加载出来,传入定位元素,如(By.ID,’p’)
visibility_of_element_localted 节点可见,传入定位元素
visibility_of 可见,传入节点对象
persence_of_all_element_localted 所有节点加载出来
text_to_be_present_in_element 某个节点文本包含某文字
text_to_be_present_in_element_value 某个节点值包含某文字
frame_to_be_availiable_and_switch_to_it 加载并切换
invisibility_of_element_located 节点不可见
element_to_be_clickable 节点可点击
staleness_of 判断一个节点是否仍在DOM,可判断页面是否已经刷新
element_t_be_selected 节点可选择,传入节点对象
element_located_to_be_clickable 节点可选择,传入定位元组
element_selection_state_to_be 传入节点对象以及状态,相等返回true,否则false
element_located_selection_state_to_be 传入定位元组以及状态,相等返回true,否则false
alert_is_present 是否出现警告