百度/腾讯网盘：大文件高速秒传原理分析,优劣及隐患

原理篇：

要实现秒传，最核心的就是建立服务端与客户端的文件比对功能，这个比对当下可以用的有MD5这样的算法或者其他HASH算法。其步骤如下：

1. 让用户下载客户端，这个可以是浏览器插件，也可以是客户端软件 —— 百度这里是IE插件；

2. 在文件上传之初，将本地文件进行HASH计算，得出文件指纹；

3. 将文件指纹数据上传到服务器；

4. 服务端将文件指纹和现存的文件指纹进行比对，并返回比对结果给客户端；

5.客户端获取比对结果；

6. 如果是比对成功，则说明服务端已经有同样的文件存在，则直接将文件名和指纹及文件标识符一并上传到服务端，而服务端在接受到之后，只是将文件名存放在客户的名下，文件则是映射到原有文件的路径中，返回秒传成功信息；

7. 如果比对不成功，就变得和普通上传并无二致，老老实实的通过HTTP的方式，将文件1比特，1比特的上传到服务端。

好吧，这就是玄乎的文件秒传了。至于为什么要4GB的限制，这个个人初步认为是因为指纹计算也是需要消耗资源，如果文件过大，在计算指纹的时候，其占用资源也会相对较多，可能会造成一定的影响。真相具体为什么，还有请懂行的指点。

优势：

1. 对于服务端：进行文件的服务端比对，而后进行文件映射的这种方式，对于大型的存储来说，由于在服务端只存在一份文件实体，因此，对于系统的存储消耗将能极大的降低。特别是在文件数量达到海量，并且有很多重复文件时（多用户各自保存文件时），其效果更佳。

2. 对于传输的带宽：对于用户来说，由于服务端的海量文件，自己传输的如果是其中已存在的文件时，能够极大的降低带宽的占用情况。

劣势：

由于要实现秒传，并达到最优的效果，核心是要求服务端保存海量文件，而且及时所有用户将文件删除，服务端为了在下次实现秒传，都必须将文件保存在服务端，而不能进行删除。如果未被映射的文件数量巨大，这势必会增加存储成本。

隐患：

也许秒传给客户带来了便利，让我们感觉良好。但我们从秒传的原理中也不难发现其中的安全隐患。由于文件必须在服务端保留，因此，如果你传输到服务端的文件包含隐私，那么，一旦上传完成，你的隐私就永远的存在于服务端了，这就很难保证你的这些隐私在将来不会泄漏。如果真要使用这么一些个服务的时候，我们需要仔细的分析其中的风险。并且做出必要的决断。 —— 至少，在我看到这个功能之后，我当即就决定，只将自己的一些电影文件和其他不涉及隐私文件上传到服务端，而涉及到隐私的，或稍微敏感些的其他文件，我将用其他办法来处理。

没有软件能够保护隐私安全，为了自身的利益，他们只会在最大的可能范围能截取客户隐私，要保护这些敏感信息，只能靠你自己！

原文链接 http://tv1314.com/post-205.html