Python爬取京东商品信息评论存并进MySQL_F11 - 专业站长和开发者的学习网站

分享到

Python爬取京东商品信息评论存并进MySQL

python 来源：互联网作者：秩名发布时间：2022-04-11 21:26:41 人浏览

摘要

构建mysql数据表问题：使用SQL alchemy时，非主键不能设置为自增长，但是我想让这个非主键仅仅是为了作为索引，autoincrement=True无效，该怎么实现让它自增长呢？ 1 2 3 4 5 6 7 8 9 10 11 12

构建mysql数据表

问题：使用SQL alchemy时，非主键不能设置为自增长，但是我想让这个非主键仅仅是为了作为索引，autoincrement=True无效，该怎么实现让它自增长呢？

from sqlalchemy import String,Integer,Text,Column

from sqlalchemy import create_engine

from sqlalchemy.orm import sessionmaker

from sqlalchemy.orm import scoped_session

from sqlalchemy.ext.declarative import declarative_base

engine=create_engine(

"mysql+pymysql://root:root@127.0.0.1:3306/jdcrawl?charset=utf8",

pool_size=200,

max_overflow=300,

echo=False

)

BASE=declarative_base() # 实例化

class Goods(BASE):

__tablename__='goods'

id=Column(Integer(),primary_key=True,autoincrement=True)

sku_id = Column(String(200), primary_key=True, autoincrement=False)

name=Column(String(200))

price=Column(String(200))

comments_num=Column(Integer)

shop=Column(String(200))

link=Column(String(200))

class Comments(BASE):

__tablename__='comments'

id=Column(Integer(),primary_key=True,autoincrement=True,nullable=False)

sku_id=Column(String(200),primary_key=True,autoincrement=False)

comments=Column(Text())

BASE.metadata.create_all(engine)

Session=sessionmaker(engine)

sess_db=scoped_session(Session)

第一版：

问题：爬取几页评论后就会爬取到空白页，添加refer后依旧如此

尝试解决方法：将获取评论地方的线程池改为单线程，并每获取一页评论增加延时1s

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

# 不能爬太快！！！不然获取不到评论

from bs4 import BeautifulSoup

import requests

from urllib import parse

import csv,json,re

import threadpool

import time

from jd_mysqldb import Goods,Comments,sess_db

headers={

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',

'Cookie': '__jdv=76161171|baidu|-|organic|%25E4%25BA%25AC%25E4%25B8%259C|1613711947911; __jdu=16137119479101182770449; areaId=7; ipLoc-djd=7-458-466-0; PCSYCityID=CN_410000_0_0; shshshfpa=07383463-032f-3f99-9d40-639cb57c6e28-1613711950; shshshfpb=u8S9UvxK66gfIbM1mUNrIOg%3D%3D; user-key=153f6b4d-0704-4e56-82b6-8646f3f0dad4; cn=0; shshshfp=9a88944b34cb0ff3631a0a95907b75eb; __jdc=122270672; 3AB9D23F7A4B3C9B=SEELVNXBPU7OAA3UX5JTKR5LQADM5YFJRKY23Z6HDBU4OT2NWYGX525CKFFVHTRDJ7Q5DJRMRZQIQJOW5GVBY43XVI; jwotest_product=99; __jda=122270672.16137119479101182770449.1613711948.1613738165.1613748918.4; JSESSIONID=C06EC8D2E9384D2628AE22B1A6F9F8FC.s1; shshshsID=ab2ca3143928b1b01f6c5b71a15fcebe_5_1613750374847; __jdb=122270672.5.16137119479101182770449|4.1613748918',

'Referer': 'https://www.jd.com/'

}

num=0 # 商品数量

comments_num=0 # 评论数量

# 获取商品信息和SkuId

def getIndex(url):

session=requests.Session()

session.headers=headers

global num

res=session.get(url,headers=headers)

print(res.status_code)

res.encoding=res.apparent_encoding

soup=BeautifulSoup(res.text,'lxml')

items=soup.select('li.gl-item')

for item in items[:3]: # 爬取3个商品测试

title=item.select_one('.p-name a em').text.strip().replace(' ','')

price=item.select_one('.p-price strong').text.strip().replace('￥','')

try:

shop=item.select_one('.p-shopnum a').text.strip() # 获取书籍时查找店铺的方法

except:

shop=item.select_one('.p-shop a').text.strip() # 获取其他商品时查找店铺的方法

link=parse.urljoin('https://',item.select_one('.p-img a').get('href'))

SkuId=re.search('\d+',link).group()

comments_num=getCommentsNum(SkuId,session)

print(SkuId,title, price, shop, link, comments_num)

print("开始存入数据库...")

try:

IntoGoods(SkuId,title, price, shop, link, comments_num)

except Exception as e:

print(e)

sess_db.rollback()

num += 1

print("正在获取评论...")

# 获取评论总页数

url1 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page=0&pageSize=10'

headers['Referer'] = f'https://item.jd.com/{SkuId}.html'

headers['Connection']='keep-alive'

res2 = session.get(url1,headers=headers)

res2.encoding = res2.apparent_encoding

json_data = json.loads(res2.text)

max_page = json_data['maxPage'] # 经测试最多可获取100页评论，每页10条

args = []

for i in range(0, max_page):

# 使用此链接获取评论得到的为json格式

url2 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

# 使用此链接获取评论得到的非json格式，需要提取

# url2_2=f'https://club.jd.com/comment/productPageComments.action?callback=jQuery9287224&productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

args.append(([session,SkuId,url2], None))

pool2 = threadpool.ThreadPool(2) # 2个线程

reque2 = threadpool.makeRequests(getComments,args) # 创建任务

for r in reque2:

pool2.putRequest(r) # 提交任务到线程池

pool2.wait()

# 获取评论总数量

def getCommentsNum(SkuId,sess):

headers['Referer']=f'https://item.jd.com/{SkuId}.html'

url=f'https://club.jd.com/comment/productCommentSummaries.action?referenceIds={SkuId}'

res=sess.get(url,headers=headers)

try:

res.encoding=res.apparent_encoding

json_data=json.loads(res.text) # json格式转为字典

num=json_data['CommentsCount'][0]['CommentCount']

return num

except:

return 'Error'

# 获取评论

def getComments(sess,SkuId,url2):

global comments_num

print(url2)

headers['Referer'] = f'https://item.jd.com/{SkuId}.html'

res2 = sess.get(url2,headers=headers)

res2.encoding='gbk'

json_data=res2.text

'''

# 如果用url2_2需要进行如下操作提取json

start = res2.text.find('jQuery9287224(') + len('jQuery9287224(')

end = res2.text.find(');')

json_data=res2.text[start:end]

'''

dict_data = json.loads(json_data)

try:

comments=dict_data['comments']

for item in comments:

comment=item['content'].replace('\n','')

# print(comment)

comments_num+=1

try:

IntoComments(SkuId,comment)

except Exception as e:

print(e)

sess_db.rollback()

except:

pass

# 商品信息入库

def IntoGoods(SkuId,title, price, shop, link, comments_num):

goods_data=Goods(

sku_id=SkuId,

name=title,

price=price,

comments_num=comments_num,

shop=shop,

link=link

)

sess_db.add(goods_data)

sess_db.commit()

# 评论入库

def IntoComments(SkuId,comment):

comments_data=Comments(

sku_id=SkuId,

comments=comment

)

sess_db.add(comments_data)

sess_db.commit()

if __name__ == '__main__':

start_time=time.time()

urls=[]

KEYWORD=parse.quote(input("请输入要查询的关键词："))

for i in range(1,2): # 爬取一页进行测试

url=f'https://search.jd.com/Search?keyword={KEYWORD}&wq={KEYWORD}&page={i}'

urls.append(([url,],None)) # threadpool要求必须这样写

pool=threadpool.ThreadPool(2) # 2个线程的线程池

reque=threadpool.makeRequests(getIndex,urls) # 创建任务

for r in reque:

pool.putRequest(r) # 向线程池提交任务

pool.wait() # 等待所有任务执行完毕

print("共获取{}件商品，获得{}条评论，耗时{}".format(num,comments_num,time.time()-start_time))

第二版：

经测试，的确不会出现空白页的情况

进一步优化：同时获取2个以上商品的评论

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

# 不能爬太快！！！不然获取不到评论

from bs4 import BeautifulSoup

import requests

from urllib import parse

import csv,json,re

import threadpool

import time

from jd_mysqldb import Goods,Comments,sess_db

headers={

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',

'Referer': 'https://www.jd.com/'

}

num=0 # 商品数量

comments_num=0 # 评论数量

# 获取商品信息和SkuId

def getIndex(url):

session=requests.Session()

session.headers=headers

global num

res=session.get(url,headers=headers)

print(res.status_code)

res.encoding=res.apparent_encoding

soup=BeautifulSoup(res.text,'lxml')

items=soup.select('li.gl-item')

for item in items[:2]: # 爬取2个商品测试

title=item.select_one('.p-name a em').text.strip().replace(' ','')

price=item.select_one('.p-price strong').text.strip().replace('￥','')

try:

shop=item.select_one('.p-shopnum a').text.strip() # 获取书籍时查找店铺的方法

except:

shop=item.select_one('.p-shop a').text.strip() # 获取其他商品时查找店铺的方法

link=parse.urljoin('https://',item.select_one('.p-img a').get('href'))

SkuId=re.search('\d+',link).group()

headers['Referer'] = f'https://item.jd.com/{SkuId}.html'

headers['Connection'] = 'keep-alive'

comments_num=getCommentsNum(SkuId,session)

print(SkuId,title, price, shop, link, comments_num)

print("开始将商品存入数据库...")

try:

IntoGoods(SkuId,title, price, shop, link, comments_num)

except Exception as e:

print(e)

sess_db.rollback()

num += 1

print("正在获取评论...")

# 获取评论总页数

url1 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page=0&pageSize=10'

res2 = session.get(url1,headers=headers)

res2.encoding = res2.apparent_encoding

json_data = json.loads(res2.text)

max_page = json_data['maxPage'] # 经测试最多可获取100页评论，每页10条

print("{}评论共{}页".format(SkuId,max_page))

if max_page==0:

IntoComments(SkuId,'0')

else:

for i in range(0, max_page):

# 使用此链接获取评论得到的为json格式

url2 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

# 使用此链接获取评论得到的非json格式，需要提取

# url2_2=f'https://club.jd.com/comment/productPageComments.action?callback=jQuery9287224&productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

print("开始获取第{}页评论:{}".format(i+1,url2) )

getComments(session,SkuId,url2)

time.sleep(1)

# 获取评论总数量

def getCommentsNum(SkuId,sess):

url=f'https://club.jd.com/comment/productCommentSummaries.action?referenceIds={SkuId}'

res=sess.get(url)

try:

res.encoding=res.apparent_encoding

json_data=json.loads(res.text) # json格式转为字典

num=json_data['CommentsCount'][0]['CommentCount']

return num

except:

return 'Error'

# 获取评论

def getComments(sess,SkuId,url2):

global comments_num

res2 = sess.get(url2)

res2.encoding=res2.apparent_encoding

json_data=res2.text

'''

# 如果用url2_2需要进行如下操作提取json

start = res2.text.find('jQuery9287224(') + len('jQuery9287224(')

end = res2.text.find(');')

json_data=res2.text[start:end]

'''

dict_data = json.loads(json_data)

comments=dict_data['comments']

for item in comments:

comment=item['content'].replace('\n','')

# print(comment)

comments_num+=1

try:

IntoComments(SkuId,comment)

except Exception as e:

print(e)

sess_db.rollback()

# 商品信息入库

def IntoGoods(SkuId,title, price, shop, link, comments_num):

goods_data=Goods(

sku_id=SkuId,

name=title,

price=price,

comments_num=comments_num,

shop=shop,

link=link

)

sess_db.add(goods_data)

sess_db.commit()

# 评论入库

def IntoComments(SkuId,comment):

comments_data=Comments(

sku_id=SkuId,

comments=comment

)

sess_db.add(comments_data)

sess_db.commit()

if __name__ == '__main__':

start_time=time.time()

urls=[]

KEYWORD=parse.quote(input("请输入要查询的关键词："))

for i in range(1,2): # 爬取一页进行测试

url=f'https://search.jd.com/Search?keyword={KEYWORD}&wq={KEYWORD}&page={i}'

urls.append(([url,],None)) # threadpool要求必须这样写

pool=threadpool.ThreadPool(2) # 2个线程的线程池

reque=threadpool.makeRequests(getIndex,urls) # 创建任务

for r in reque:

pool.putRequest(r) # 向线程池提交任务

pool.wait() # 等待所有任务执行完毕

print("共获取{}件商品，获得{}条评论，耗时{}".format(num,comments_num,time.time()-start_time))

第三版：

。。。。不行，又出现空白页了

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

# 不能爬太快！！！不然获取不到评论

from bs4 import BeautifulSoup

import requests

from urllib import parse

import csv,json,re

import threadpool

import time

from jd_mysqldb import Goods,Comments,sess_db

headers={

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',

'Referer': 'https://www.jd.com/'

}

num=0 # 商品数量

comments_num=0 # 评论数量

# 获取商品信息和SkuId

def getIndex(url):

global num

skuids=[]

session=requests.Session()

session.headers=headers

res=session.get(url,headers=headers)

print(res.status_code)

res.encoding=res.apparent_encoding

soup=BeautifulSoup(res.text,'lxml')

items=soup.select('li.gl-item')

for item in items[:3]: # 爬取3个商品测试

title=item.select_one('.p-name a em').text.strip().replace(' ','')

price=item.select_one('.p-price strong').text.strip().replace('￥','')

try:

shop=item.select_one('.p-shopnum a').text.strip() # 获取书籍时查找店铺的方法

except:

shop=item.select_one('.p-shop a').text.strip() # 获取其他商品时查找店铺的方法

link=parse.urljoin('https://',item.select_one('.p-img a').get('href'))

SkuId=re.search('\d+',link).group()

skuids.append(([SkuId,session],None))

headers['Referer'] = f'https://item.jd.com/{SkuId}.html'

headers['Connection'] = 'keep-alive'

comments_num=getCommentsNum(SkuId,session) # 评论数量

print(SkuId,title, price, shop, link, comments_num)

print("开始将商品存入数据库...")

try:

IntoGoods(SkuId,title, price, shop, link, comments_num)

except Exception as e:

print(e)

sess_db.rollback()

num += 1

print("开始获取评论并存入数据库...")

pool2=threadpool.ThreadPool(3) # 可同时获取3个商品的评论

task=threadpool.makeRequests(getComments,skuids)

for r in task:

pool2.putRequest(r)

pool2.wait()

# 获取评论

def getComments(SkuId,sess):

# 获取评论总页数

url1 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page=0&pageSize=10'

res2 = sess.get(url1, headers=headers)

res2.encoding = res2.apparent_encoding

json_data = json.loads(res2.text)

max_page = json_data['maxPage'] # 经测试最多可获取100页评论，每页10条

print("{}评论共{}页".format(SkuId, max_page))

if max_page == 0:

IntoComments(SkuId, '0')

else:

for i in range(0, max_page):

# 使用此链接获取评论得到的为json格式

url2 = f'https://club.jd.com/comment/productPageComments.action?productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

# 使用此链接获取评论得到的非json格式，需要提取

# url2_2=f'https://club.jd.com/comment/productPageComments.action?callback=jQuery9287224&productId={SkuId}&score=0&sortType=5&page={i}&pageSize=10'

print("开始获取第{}页评论:{}".format(i + 1, url2))

getComments_one(sess, SkuId, url2)

time.sleep(1)

# 获取评论总数量

def getCommentsNum(SkuId,sess):

url=f'https://club.jd.com/comment/productCommentSummaries.action?referenceIds={SkuId}'

res=sess.get(url)

try:

res.encoding=res.apparent_encoding

json_data=json.loads(res.text) # json格式转为字典

num=json_data['CommentsCount'][0]['CommentCount']

return num

except:

return 'Error'

# 获取单个评论

def getComments_one(sess,SkuId,url2):

global comments_num

res2 = sess.get(url2)

res2.encoding=res2.apparent_encoding

json_data=res2.text

'''

# 如果用url2_2需要进行如下操作提取json

start = res2.text.find('jQuery9287224(') + len('jQuery9287224(')

end = res2.text.find(');')

json_data=res2.text[start:end]

'''

dict_data = json.loads(json_data)

comments=dict_data['comments']

for item in comments:

comment=item['content'].replace('\n','')

# print(comment)

comments_num+=1

try:

IntoComments(SkuId,comment)

except Exception as e:

print(e)

print("rollback！")

sess_db.rollback()

# 商品信息入库

def IntoGoods(SkuId,title, price, shop, link, comments_num):

goods_data=Goods(

sku_id=SkuId,

name=title,

price=price,

comments_num=comments_num,

shop=shop,

link=link

)

sess_db.add(goods_data)

sess_db.commit()

# 评论入库

def IntoComments(SkuId,comment):

comments_data=Comments(

sku_id=SkuId,

comments=comment

)

sess_db.add(comments_data)

sess_db.commit()

if __name__ == '__main__':

start_time=time.time()

urls=[]

KEYWORD=parse.quote(input("请输入要查询的关键词："))

for i in range(1,2): # 爬取一页进行测试

url=f'https://search.jd.com/Search?keyword={KEYWORD}&wq={KEYWORD}&page={i}'

urls.append(([url,],None)) # threadpool要求必须这样写

pool=threadpool.ThreadPool(2) # 2个线程的线程池

reque=threadpool.makeRequests(getIndex,urls) # 创建任务

for r in reque:

pool.putRequest(r) # 向线程池提交任务

pool.wait() # 等待所有任务执行完毕

print("共获取{}件商品，获得{}条评论，耗时{}".format(num,comments_num,time.time()-start_time))

总结：

京东的反爬有点强，如果不想爬取到空白页，只能用单线程加延时一条一条的爬

您可能感兴趣的文章 :

原文链接 : https://kantlee.blog.csdn.net/article/details/113940559

Tag : python(762)

Python Django教程之实现新闻应用程序

Django是一个用Python编写的高级框架，它允许我们创建服务器端Web应用程序。在本文中，我们将了解如何使用Django创建新闻应用程序。我们将
书写Python代码的一种更优雅方式(推荐!)

一些比较熟悉pandas的读者朋友应该经常会使用query()、eval()、pipe()、assign()等pandas的常用方法，书写可读性很高的「链式」数据分析处理代码
Python灰度变换中伽马变换分析实现

1. 介绍伽马变换主要目的是对比度拉伸，将图像灰度较低的部分进行修正伽马变换针对的是对单个像素点的变换，也就是点对点的映射形
使用OpenCV实现迷宫解密的全过程

一、你能自己走出迷宫吗？如下图所示，可以看到是一张较为复杂的迷宫图，相信也有人尝试过自己一点一点的找出口，但我们肉眼来解谜
Python中的数据精度问题的介绍

一、python运算时精度问题 1.运行时精度问题在Python中（其他语言中也存在这个问题，这是计算机采用二进制导致的），有时候由于二进制和
Python随机值生成的常用方法

一、随机整数 1.包含上下限：[a, b] 1 2 3 4 import random #1、随机整数：包含上下限：[a, b] for i in range(10): print(random.randint(0,5),end= | ) 查看运行结
Python字典高级用法深入分析讲解

一、 collections 中 defaultdict 的使用 1.字典的键映射多个值将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
Python浅析多态与鸭子类型使用实例

什么多态：同一事物有多种形态为何要有多态=》多态会带来什么样的特性，多态性多态性指的是可以在不考虑对象具体类型的情况下而直
Python字典高级用法深入分析介绍

一、 collections 中 defaultdict 的使用 1.字典的键映射多个值将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
Python淘宝或京东等秒杀抢购脚本实现(秒杀脚本

我们的目标是秒杀淘宝或京东等的订单，这里面有几个关键点，首先需要登录淘宝或京东，其次你需要准备好订单，最后要在指定时间快速