博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
mysql 大牛博客_python爬虫抓取51cto博客大牛的文章保存到MySQL数据库
阅读量:5108 次
发布时间:2019-06-13

本文共 1575 字,大约阅读时间需要 5 分钟。

脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中。

#!/usr/bin/env python

#coding:utf-8

from  bs4  import  BeautifulSoup

import urllib

import re

import MySQLdb

k_art_name = []

v_art_url = []

db = MySQLdb.connect(‘192.168.115.5‘,‘blog‘,‘blog‘,‘blog‘)

cursor = db.cursor()

for page in range(1,5):

page = str(page)

url = ‘http://yujianglei.blog.51cto.com/all/7215578/page/‘  + page

request = urllib.urlopen(url)

response = request.read()

response = unicode(response,‘GBK‘).encode(‘UTF-8‘)

soup = BeautifulSoup(response,‘html.parser‘)

a_tag = soup.find_all(href=re.compile("^/\d{7,}/\d{7,}$"))

for i  in a_tag:

art_name = i.string

art_url  = ‘http://yujianglei.blog.51cto.com‘ + i[‘href‘]

k_art_name.append(art_name)

v_art_url.append(art_url)

if  len(k_art_name) == len(v_art_url):

number1 = len(k_art_name)

number2 = len(v_art_url)

for j in range(number1):

a = k_art_name[j]

b = v_art_url[j]

print a,b

sql = ‘‘‘INSERT   INTO    blog_51cto  (art_name,art_url)  VALUES ("%s","%s")‘‘‘   %(a,b)

try:

cursor.execute(sql)

db.commit()

except Exception, e:

print e

db.rollback()

else:

print   ‘k_art_name:‘,   len(k_art_name)

print   ‘v_art_url:‘ ,   len(v_art_url)

cursor.close()

db.close()

# insert  into  blog_51cto   (art_name,art_url)  VALUES ("oracle 手动归档、自动归档、归档位置、归档进程","http://yujianglei.blog.51cto.com/7215578/1560485")

#CREATE DATABASE blog;

#CREATE TABLE `blog_51cto` (

#   `id` int(11) NOT NULL AUTO_INCREMENT,

#   `art_name` varchar(500) DEFAULT NULL,

#   `art_url` varchar(500) DEFAULT NULL,

#   PRIMARY KEY (`id`)

# ) ENGINE=InnoDB AUTO_INCREMENT=1609 DEFAULT CHARSET=utf8;

原文:http://yujianglei.blog.51cto.com/7215578/1771143

转载地址:http://kqjdv.baihongyu.com/

你可能感兴趣的文章
「ZJOI2019」开关
查看>>
QLabel-标签控件的应用
查看>>
[BZOJ1221/Luogu2223][HNOI2001]软件开发
查看>>
Project Euler刷题记录
查看>>
多线程的使用
查看>>
模式识别---贝叶斯决策
查看>>
在博客园中使用pixijs
查看>>
leetCode-Contains Duplicate
查看>>
linux使用秘钥登录(禁用root密码登录)
查看>>
WPS莫名占用系统大部分资源
查看>>
一些常用的正则表达式
查看>>
前端取后台变量的值的写法?
查看>>
BZOJ 1645: [Usaco2007 Open]City Horizon 城市地平线 扫描线 + 线段树 + 离散化
查看>>
误删表数据恢复
查看>>
【codevs1949】兔兔与蛋蛋的游戏
查看>>
Windows Mobile Developer Resource Kit
查看>>
C语言 · 字符串变换
查看>>
C语言 · 确定元音字母位置
查看>>
任务表 燃尽图
查看>>
Python 列表的切片和连接
查看>>