二进制线的multipart / form-data的文件上传(Binary lines in mu

2019-08-18 01:39发布

我用Python写一个简单的Web服务器,它允许用户使用的multipart / form-data的上传文件。 据我所知,多MIME数据应该是基于行的。 例如,边界必须是在一行的开头。

我无法弄清楚如何数据二进制在这方面的处理。 我的客户(火狐) 没有编码成位的ASCII或任何东西,它只是原始的二进制数据它发送。 它是否将数据分割为任意位置线? 有没有多的数据指定的最大行长度? 我试图寻找通过RFC的多/表单数据,但没有发现任何东西。

Answer 1:

通过RFC的挖掘后,我想我终于在我的脑袋把一切都直。 的身体部位(即,一个单独的部分的一个的主体内容multipart/*消息)只需要基于行的,在所述部分的端部的边界开始于CR+LF 。 但除此之外,数据不一定是基于行的,如果内容碰巧有它的换行符,它们之间没有最大距离,也不需要在反正(逃脱,除非也许是Content-Transfer-Encoding是带引号的字符串)。 7位,8位和二进制的选项Content-Transfer-Encoding实际上并不表明任何编码已经针对该数据执行(因此没有编码需要被撤销),他们只是为了说明数据的类型,你可以期望的身体部位看。

我真的在得到我的[不善表达]问题是如何读/从套接字缓冲区中的数据,这样我可以确保我抓住了边界,而无需有一个任意大的缓冲区(例如,如果有发生要在内容没有换行符,等等readline最终缓冲整个事情)。

我落得这样做是从一个插座缓冲readline使用的最大长度,因此缓冲区永远不会超过15分钟,但也将确保终止,如果遇到断行。 这保证了当边界来(继CR+LF ),这将是在缓冲区的开始。 我不得不做一些额外的胡闹周围,以确保我没有包括最后的CR+LF在实际的正文内容,因为根据RFC它的边界之前需要真实,因此不是内容本身的一部分。



Answer 2:

请详阅RFC 2045 。 通常,二进制内容被转换成BASE64 “:Base64的内容传输编码”,由应用程序使用,并包括在多部分消息。 还有其它机制来传送二进制数据,但是这是很常见的。 二进制数据被转换成八位位组和在arbitary长度字符串(取决于编码的变体 - 参见上面的BASE64链路)分块的。 接收应用程序然后将其解码成原来的二进制内容。

我不是一个Python程序员,但我会感到惊讶它你真的有任何的这种自行编码。 我怀疑有预置的Python库函数来为你做这个。



文章来源: Binary lines in multipart/form-data (file upload)