自动抓取抖音和小红书创作者中心里的视频播放、完播、点击、2s 跳出、播放时长、点赞、分享、评论、收藏、主页访问、粉丝增量等数据。

GitHub项目分享君 / 03-25 / 12点赞 / 0评论 / 648阅读

3 25

开源分享抖音数据抓取小红书数据抓取

> 自动抓取抖音和小红书创作者中心里的每条视频的播放、完播、点击、2s 跳出、播放时长、点赞、分享、评论、收藏、主页访问、粉丝增量等数据。 ![](https://cdn.res.knowhub.vip/c/2503/25/4788e6e8?G5wAAGRQz%2b%2fbWYiDlFI1kU5B%2bb%2bqspKD4Th%2bggHKM%2fCCXglcDjfutyz5wa%2f9JH0ebfCs2UOuO%2b24clbeAg8Ws3Y9TcPXZ4moiI4y0fo3nuFro9C81%2b%2bTr%2fTf1wJP5riI36rxD%2btgo4NHeFyj4OUE4HmYuypMEYjcdrdvXIlZ8hs94oz%2fFmksPrIsLn8%3d) ### 创建项目参数文件夹和文件 - • 新建project\_config文件夹，在文件夹内创建project.py文件，输入以下内容： ```csharp import os # 存放excel下载的路径,请注意可以用你自己本地的路径替换 file_path = r'E:\\' data_path = os.path.join(file_path,'data.xlsx') yesterday_data_path = os.path.join(file_path,'yesterday_data.xlsx') # 存放sql文件的路径，这个是我自己存放sql文件的，可以忽略 custom_count_sql = r'G:\New Code\douyin_video\sql\douyin_customer.sql' # 字段映射关系（name到label），这个也是我自己用的，可以忽略 video_content = { "_widget_1741257105163": "账号名称", "_widget_1741257105165": "账号ID", "_widget_1740798082550": "是否完整内容", "_widget_1740798082567": "完整内容提供", "_widget_1740798082568": "半成品内容提供", "_widget_1740798082569": "剪辑", "_widget_1740798082570": "发布运营", "_widget_1740646149825": "正片标题", "_widget_1740798082556": "正片链接", "_widget_1740646149824": "正片ID", "_widget_1740646149826": "提交日期", "_widget_1741934971937": "来源门店/部门", "_widget_1740655279753": "正片说明", "_widget_1740655279752": "正片封面", "_widget_1740656251325": "数量" } ``` ### 用法 #### 爬虫部分，在spiders文件夹中 - • 如果只是仅仅对抓取抖音和小红书后台内容有兴趣，直接运行spiders文件夹下的douyin.py和xhs.py即可。 - • 第一次需要扫码登录，登陆后回到代码界面输入回车，即可继续。 #### 数据处理部分，在data\_processing文件夹中 - • 可以先从后台下载对应的excel文件，清空标题以外的内容，命名为yesterday\_data.xlsx - • 系统会自动下载data.xlsx,并在处理完后，自动将data.xlsx命名为yesterday\_data.xlsx

本文来自投稿，不代表本站立场，如若转载，请注明出处：http//www.knowhub.vip/share/7/1713