用 BS 解析这个 div 标签,然后打印结果只有第一行文字,到第一个
就结束了,这是为什么?
需要解析的内容:
<div class="text1">
- 乐视网即将复牌 关注分级基金溢价机会 </br>
- 航信转债 6 月 8 日付息登记日,每张 0.2 元</br>
- 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数</br>
- 不惑之年魔都土著夫妇如何保住自己的养老积蓄?</br>
</div>
python 代码
content_soup = soup.find('div',class_='text1').get_text()
print content_soup
1
RqPS6rhmP3Nyn3Tm 2016-06-03 05:05:47 +08:00 via Android
for 循环吧
|
2
RqPS6rhmP3Nyn3Tm 2016-06-03 05:06:47 +08:00 via Android
漏看标签了, sorry ,这里循环不管用
|
3
hiwljun 2016-06-03 07:15:54 +08:00 1
html = '<div class="text1"> \
- 乐视网即将复牌 关注分级基金溢价机会 </br> \ - 航信转债 6 月 8 日付息登记日,每张 0.2 元</br> \ - 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数</br> \ - 不惑之年魔都土著夫妇如何保住自己的养老积蓄?</br></div>' soup = BeautifulSoup(html, 'lxml') text = soup.find('div', 'text1').get_text(strip=True).encode('utf-8') print text 测试可以取到全部内容。 |
4
YUX 2016-06-03 07:17:15 +08:00 2
是 html.parser 的锅
你看这样 soup = BeautifulSoup(html_doc, "html.parser") print(soup) 输出会是什么? 是 <div class="text1"> - 乐视网即将复牌 关注分级基金溢价机会 </div> - 航信转债 6 月 8 日付息登记日,每张 0.2 元 - 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数 - 不惑之年魔都土著夫妇如何保住自己的养老积蓄? html.parser 把第一个</br>解析成了</div> 换一个解析器就好了, 比如 lxml HTML 解析器 > pip install lxml soup = BeautifulSoup(html_doc, "lxml") content_soup = soup.find('div',class_='text1').get_text() print(content_soup) 输出就是 - 乐视网即将复牌 关注分级基金溢价机会 - 航信转债 6 月 8 日付息登记日,每张 0.2 元 - 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数 - 不惑之年魔都土著夫妇如何保住自己的养老积蓄? |