GitList

Browse code

Use the ThreadPool interface to thread multipart uploads and return a proper response

Jerome Leclanche authored on 2011/05/31 18:59:01
Showing 2 changed files

S3/MultiPart.py index dfc9a75..55c90f4 100644
S3/S3.py index ef23d37..d15571b 100644

@@ -56,6 +56,7 @@ class MultiPartUpload(object):
                      		self.file = file
                      		self.uri = uri
                      		self.upload_id = None
                     +		self.parts = {}
                      	def initiate_multipart_upload(self):
                      		"""
@@ -69,7 +70,7 @@ class MultiPartUpload(object):
                      		self.upload_id = upload_id
                      		return s3, key, upload_id
                     -	def upload_all_parts(self, num_processes = 1, chunk_size = MIN_CHUNK_SIZE):
                     +	def upload_all_parts(self, num_threads = 4, chunk_size = MIN_CHUNK_SIZE):
                      		"""
                      		Execute a full multipart upload on a file
                      		Returns the id/etag dict
@@ -80,7 +81,7 @@ class MultiPartUpload(object):
                      		chunk_size = max(self.MIN_CHUNK_SIZE, chunk_size)
                      		id = 1
                     -		parts = {}
                     +		pool = ThreadPool(num_threads)
                      		while True:
                      			if id == self.MAX_CHUNKS:
@@ -89,10 +90,11 @@ class MultiPartUpload(object):
                      				data = self.file.read(chunk_size)
                      			if not data:
                      				break
                     -			parts[id] = self.upload_part(data, id)
                     +			pool.add_task(self.upload_part, data, id)
                      			id += 1
                     -		return parts
                     +		debug("Thread pool with %i threads and %i tasks awaiting completion." % (num_threads, id))
                     +		pool.wait_completion()
                      	def upload_part(self, data, id):
                      		"""
@@ -107,19 +109,21 @@ class MultiPartUpload(object):
                      		request = self.s3.create_request("OBJECT_PUT", uri = self.uri, headers = headers, extra = query_string)
                      		response = self.s3.send_request(request, body = data)
                     -		return response["headers"]["etag"]
                     +		self.parts[id] = response["headers"]["etag"]
                     -	def complete_multipart_upload(self, parts):
                     +	def complete_multipart_upload(self):
                      		"""
                      		Finish a multipart upload
                      		http://docs.amazonwebservices.com/AmazonS3/latest/API/index.html?mpUploadComplete.html
                      		"""
                      		parts_xml = []
                      		part_xml = "<Part><PartNumber>%i</PartNumber><ETag>%s</ETag></Part>"
                     -		for id, etag in parts.items():
                     +		for id, etag in self.parts.items():
                      			parts_xml.append(part_xml % (id, etag))
                      		body = "<CompleteMultipartUpload>%s</CompleteMultipartUpload>" % ("".join(parts_xml))
                      		headers = { "Content-Length": len(body) }
                      		request = self.s3.create_request("OBJECT_POST", uri = self.uri, headers = headers, extra = "?uploadId=%s" % (self.upload_id))
                      		response = self.s3.send_request(request, body = body)
+                    +
                     +		return response
                     \ No newline at end of file

S3/S3.py

History View file @ c58bbc3

@@ -675,7 +675,7 @@ class S3(object):
                      		# S3 from time to time doesn't send ETag back in a response :-(
                      		# Force re-upload here.
                      		if "etag" not in response["headers"]:
                     -			response['headers']['etag'] = ''
                     +			response["headers"]["etag"] = ""
                      		if response["status"] < 200 or response["status"] >= 300:
                      			try_retry = False
@@ -718,8 +718,10 @@ class S3(object):
                      		bucket, key, upload_id = upload.initiate_multipart_upload()
                      		file.seek(0)
                     -		parts = upload.upload_all_parts()
                     -		upload.complete_multipart_upload(parts)
                     +		upload.upload_all_parts()
                     +		response = upload.complete_multipart_upload()
                     +		response["speed"] = 0 # XXX
                     +		return response
                      		exit() # TODO return response
                      	def recv_file(self, request, stream, labels, start_position = 0, retries = _max_retries):