使用python上传文件时的若干经验总结
bigegpt 2024-09-22 00:42 3 浏览
从学习并使用python已有一年半了,初衷是用它爬取数据、资料等。由于平时上传文档赚一些外快,不可避免的需要上传各类文档到网站,网站基本不提供上传工具,在第三方的上传工具,基本都需要几百元一个,有些又有缺陷,所以今年开始陆续编写了几个网站用的上软件,这样可以根据自己的意愿去实现一些功能,不过由于掌握知识并不全面,没有做UI,只是纯代码,所以本文也不会有软件的相关截图。为了留下个记录,同时也分享各位小伙伴,所以将过程中相关知识点作个总结。
1、并不是所有工具都要保持session
虽然python的request具有保持session的功能,此功能可用来将cookie等信息传递在各网页之间,这样可实现保持登录的效果。但我总是不好实际,如果工具只是自己用的话,可以直接将cookie放到自定义的headers中,免去啃一些太硬的骨头。
我的作法是定义一个字典,内放需要传到类中的参数:
params = {
'upload_path':'e:/newdoc/',
'thread':1,
'price':5,
'cookie':'这里粘贴cookie',
}
在类里的init()方法中,会初始化一些要用到的变量,包括request用到的headers:
self.upload_page_headers = {
'Cookie':self.cookie,
'Host': '*************',
'Referer': '**********************',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
}
2、不是任何加密数据都需要去解密
request的post或是get方式提交数据时,大多都有一些一看上去就是加了密的数据,但并不每个数据都需要你去找js来解密,大多数都在网页里的js代码中存放着,只需要读取网页内容,并使用正则或xpath等就可以取出来用,而且很多都是不会变化的(也有很大一部分是要变化的,但只需要去相关页面获取到即可)。
当你遇到提交的数据中有类似加密数据时,第一应该做的就是打开网页源码,然后在其中搜索该数据,如果你想验证该数据是否变化,那你可以刷新网页或是退出帐号再重新登录,基本上就可以确定这个数是否会变了。
3、关于Content-Type
上传文件的话,就会用到MultipartEncoder,同时需要在headers中添加Content-Type,经常将headers的定义放在init方法中,这里还没有MultipartEncoder,那么可以将Content-Type=’’,以之后再通过m.content_type添加数据:
4、关于多线程
我在程序中会设计成可以调整线程的方式,有些网站会容许多线程上传(不过大多都不希望),所以即使多线程上传,也要控制好,数量尽量少一些,每个过程结束时加个time.sleep(),以保持自己不被封IP或是封号。
技术上我是个实用主义者,所以至今我也没有搞明白(也没想去搞明白)线程、协程、进程等究竟的区别,只要比单线程快感觉就可以了,毕竟对于上传来说,太快没有啥有益之处,最大的可能就是被干掉。
5、关于列表推导式
最初在书上看到列表推导式时,我是直接跳过了的;后来编写程序时我都是用的书上的标准的写法,一般实现一个简单功能都会写好几行,我一直记得别人说的要写注释,不然几个月后就看不懂自己写的了,但同时我又在想,我写的这么多行,应该不会不记得吧,后来才知道别人是说的复杂的代码,我写的这种估计不用注释都可以。
后来在网上看到说如果用python而不会写推导式,就等于是没学过python,为了挽回用了一年多python的面子,偶尔用了用推导式,逐渐一发不可收拾,因为这东西太好用了,像上图中第一行代码就是一个获得某文件夹下所有文件的文件名的一个列表的推导式,当然推导式不太容易理解,就像我刚写这一长句话一样。
6、使用 re时
我以前是这样使用的:
self.id = re.findall('id="ctl00_Content_HiddenID" value="(.*?)"',result.text)[0]
后来老师(怕自学学不多,然后又交了7千RMB去网校学习)在教学时,教如下用:
self.id = ''.join(re.findall('id="ctl00_Content_HiddenID" value="(.*?)"',result.text)[0])
这样即使未找到数据也不会出错了。
7、关于https
现在提交数据的网站都是https开头的,所以在使用request提交时,需要加一个verify=False,但在pycharm的下面显示区域还是会出现红色的提示,我们在request前加上
requests.packages.urllib3.disable_warnings()
这样就不会再出现提示语句了。
8、MultipartEncoder
上传文件需要用到MultipartEncoder,关于其的使用我了解不多,都是从网上搜来的,而且是遇到通不过时我才会去搜索。
所有库我都没有说要导入啥、安装啥,因为在pycharm中,如果你用到了新的库但又没有安装的话,那你只需要alt+回车即可。
如果网站上传文件时,使用webForms得到的是content-type=multipart/form-data,name=’Filedata’;filename=’xxxxx’,而value侧则是\xb\xc啥的
那应如下构造:
有时网站的webForm中还可能是这样的:
name=’UpUpFile1’;filename=’’,同时value也是一片空白,这也是我今天花的时间最多的地方,那么应该这样写:
9、注意每一个变量名
不知是程序员编写时写错了还是故意这样写的,这儿可能应是FileName的,给写成了FileName,如果你顺手给写对了,那可能你半天都找不到错在了哪里。
10、用上try-except
上课时老师教用多种except,但我就只会用一种,就是try: except:我感觉这个超好用,因为我爬取数据或上传啥的,都不要求100%,只要搞定90%以下就好了,所以偶尔有产生错误我也并不去深究,此时就直接try except,如果一定要知道点啥,那就 try except Exception as e:
11、关于python中的日期
日期对于我也是一个谜一样的领域,在python中感觉比较头痛,下面这个方法我经常到处复制来使用,date这个参数是传入的时间戳,即time.time(),最后会输出一个年月日的字符串,因为我经常要用SQL语句,所以需要将日期转为字符串。
def getDate(self,date):
timeArray = time.localtime(int(date))
return time.strftime("%Y-%m-%d", timeArray)
相关推荐
- Dify「模板转换」节点终极指南:动态文本生成进阶技巧(附代码)Jinja2引擎解析
-
这篇文章是关于Dify「模板转换」节点的终极指南,解析了基于Jinja2模板引擎的动态文本生成技巧,涵盖多源文本整合、知识检索结构化、动态API构建及个性化内容生成等六大应用场景,助力开发者高效利用模...
- 我用C#造了个AI程序员:自动调试+重构代码实战
-
在软件开发的世界里,调试和重构代码往往占据了程序员大量的时间。我一直梦想着能有一个智能助手,帮我处理这些繁琐的工作。于是,我决定用C#打造一个AI程序员,让它具备自动调试和重构代码的能力。系统架构设计...
- 公文自动排版vba代码(公文自动排版vba代码)
-
Sub公文自动排版()'设置页面参数(单位:厘米)WithActiveDocument.PageSetup.TopMargin=CentimetersToPoints(3.7)...
- Anthropic最强代码神器:Claude Code系统提示词
-
最近,在融合Opus-4之后,ClaudeCode的整体能力直线飙升.甚至一度把曾经的最强开发工具——Cursor打的抬不起头来。无论是代码生成的准确度,还是智能补全的丝滑体验,都让人印象深...
- 使用 Ruff 进行 Python 代码格式化与静态检查
-
随着Python项目的规模增大,保持一致的代码风格和高质量的代码变得尤为重要。Ruff是一个现代、高性能、支持lint和格式化的Python工具,能帮助你快速发现并修复常见代码问题。本文...
- 基础语法篇:格式化输出 含完整示例代码
-
所谓格式化输出就是按照一定格式来输出对应的内容,在Python的语法中格式化输出包含两种:格式化符号、格式化字符串一、格式化符号常用的格式化符号包括%s(将内容转换为字符串,放入占位位置)、%d(将内...
- 代码整洁如诗!Keil 插件上线,一键格式化代码,告别风格混乱!
-
引言:代码格式不统一?你的团队还在为“括号位置”吵架吗?嵌入式开发者们,你是否经历过这些抓狂瞬间?代码风格“百花齐放”:同事的代码缩进用空格,你的用Tab,合并时冲突频发!手动调整耗时费力:为了通过C...
- [信捷PLC] 信捷PLC之C函数编程(一)
-
前言写PLC程序,越来越觉得结构化文本编程语言(ST)给PC编程带来的便利,在处理一些数据上,可以写的更加灵活。所以,在项目PLC选型上,我都会优先选择支持结构化文本的PLC。国内有些厂商推出了一些较...
- C语言-HelloWorld解析(c语言的helloworld怎么写)
-
使用VisualStudio2017开发工具新创建一个项目,编写第一个C语言程序。#include<stdio.h>voidmain(){printf("HelloW...
- VSCode 配置 C++ 开发环境!教程详解
-
第一步、安装VSCode应用程序打开VSCode官网,下载对应安装包并默认安装(这里指明:安装路径可以修改)第二步、安装相关插件此时的VSCode仅仅是一个英文文本编辑器,还称不上开发工具,所以需要...
- C语言进阶教程:C语言与汇编语言交互
-
C语言和汇编语言的交互是底层编程和性能优化中的一个重要方面。理解它们如何协同工作,可以帮助开发者更好地控制硬件、优化关键代码段以及理解编译器的行为。为什么需要在C语言中嵌入汇编?尽管C语言已经提供了相...
- C语言如何处理平台相关代码(c语言的开发平台)
-
在进行跨平台C编程时,不可避免地会遇到需要针对不同操作系统或硬件架构编写特定代码的情况。C语言通过预处理器指令,特别是条件编译指令,为我们提供了处理平台相关代码的有效机制。最常用的就是利用预定义的宏(...
- C语言:hello world(c语言helloworld代码)
-
环境:a.初学者建议用“啊哈C”,这款软件简单易装;b.devc.visualstdiod.Vc6.0第一行代码:#include<stdio.h>#<stdio.h&g...
- C语言之编译器集合(编写c语言编译器)
-
C语言有多种不同的编译器,以下是常见的编译工具及其特点:一、主流C语言编译器1.GCC(GNUCompilerCollection)特点:开源、跨平台,支持多种语言(C、C++、Fortran...
- 适合零基础初学者学习C语言第一课教程,揭开C语言的神秘面纱
-
一、C语言简介我刚接触编程,首先想要学习的就是C语言,这次我就把我的感悟用我自己理解的文字表述出来,这样对刚学C语言的人来说,才是比较友好的。因为我们都没有C语言的基础,不懂啥是编程,啥事代码。我们...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- vscode使用技巧 (83)
- secure-file-priv (67)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)