5 năm trước. Phó chủ tịch phụ trách công nghệ của Google, Partha Ranganathan đă nhận ra rằng. Định luật Moore không c̣n đúng, kể cả về mật độ transistor lẫn tác dụng của những con chip CPU đa dụng đối với từng nhu cầu cụ thể nữa.
Giờ không thể kỳ vọng cứ 1 năm rưỡi, hiệu năng chip xử lư lại tăng gấp đôi, nhưng chi phí không tăng quá cao nữa. Là người đảm trách công việc quản lư kinh phí để nâng cấp toàn bộ cơ sở hạ tầng của Google, cứ 4 năm nâng cấp một thế hệ chip mạnh gấp đôi trở thành một vấn đề đau đầu với ông Ranganathan. Khi ấy, ông biết Google cũng như YouTube phải làm điều ǵ đó mới mẻ.
Theo dơi kỹ quá tŕnh vận hành, ông Ranganathan cùng các cộng sự phát hiện ra, đối với dịch vụ YouTube, đ̣i hỏi sức mạnh xử lư lớn nhất trong toàn bộ quy tŕnh là giai đoạn transcode video.
Quy tŕnh này cho phép nén những video clip từ 360p đến 8K mọi người đăng tải lên YouTube, để mọi thiết bị xem đều có chất lượng đẹp nhưng dung lượng băng thông tải về là nhẹ nhất, cho dù đó là máy tính, laptop, điện thoại hay TV.
Để tiện so sánh, con số ước tính là cứ mỗi phút lại có 500 giờ video được tải lên YouTube. Đôi khi có những clip phức tạp đến mức, có một clip đơn lẻ phải xử lư để tạo ra từ 10 đến 15 phiên bản khác nhau, từ độ phân giải khác nhau, clip có HDR tone mapping hay không, và clip có phải định dạng quay 360 độ hay không…
Những con chip CPU đa dụng mà Google mua của Intel hay AMD không phục vụ được đúng nhu cầu đó theo cách kinh tế nhất mà họ mong muốn. Thứ họ cần là một chip ASIC (application-specific intergrated circuit) phục vụ chuyên biệt một tác vụ, hệt như cụm chip Neural Engine hoặc Media Engine trong Apple Silicon ấy. Tương tự, cũng là ASIC nhưng khi được tinh chỉnh để xử lư giải mă blockchain, chúng ta có những hệ thống đào Bitcoin hoặc tiền số với sức mạnh lớn hơn GPU đa dụng nhiều.
Scott Silver, phó chủ tịch phụ trách kỹ thuật ở YouTube nói: “Điều chúng tôi thực sự muốn là lấy tất cả những video được người dùng tải lên YouTube, rồi transcode chúng sang mọi định dạng có thể, tạo ra trải nghiệm tốt nhất có thể.” Nhu cầu và áp lực xử lư của data center YouTube nặng đến mức, chỉ cần 10 phút họp với CEO Susan Wojcicki, dự án tự phát triển chip ASIC dùng transcode video YouTube đă được phê duyệt.
Năm 2018, YouTube bắt đầu triển khai sử dụng chip Argos, một dạng Video Coding Unit (VCU) họ tự phát triển, nhưng măi đến năm 2021 mới công khai về sản phẩm này. Tên gọi con chip được lấy từ con quái vật nhiều mắt trong thần thoại Hy Lạp. Trong khoảng thời gian đó, Google nói rằng chip Argos của họ tạo ra hiệu năng mạnh gấp 20 đến 33 lần so với những phần cứng máy chủ mua bên ngoài, dù chúng đă được tinh chỉnh để transcode video nhanh nhất có thể.
Nhà phân tích thị trường chip bán dẫn Mike Feibus nói: “Với tác vụ transcoding, vốn là một quá tŕnh rất cụ thể và đ̣i hỏi sức mạnh phần cứng rất lớn, con chip của Google tạo ra sẽ đem lại cho họ tỷ lệ hiệu năng rất cao nhưng chi phí lại thấp."
Hiện tại th́ Google đang vận hành hàng ngh́n chip Argos thế hệ 2 ở rất nhiều data center của YouTube trên toàn thế giới, và đội ngũ nghiên cứu đang phát triển ít nhất 2 mẫu chip ASIC nữa.
Thông thường, bỏ tiền tự phát triển chip xử lư đều chỉ đi kèm với một mục đích duy nhất là tiết kiệm chi phí. Nhưng đôi khi tự làm chip cũng cho phép một tập đoàn công nghệ tự chủ và có được lợi thế kỹ thuật.
Hiện giờ, số lượng những hăng sản xuất được chip xử lư cho máy chủ, bán cho các đơn vị cũng chỉ đếm được trên đầu ngón tay: Nvidia, AMD, Intel. Và tất cả họ đều chỉ làm chip CPU và GPU đa dụng, không thể so sánh được với ASIC hoặc chip chuyên dụng.
Tự phát triển chip transcode không chỉ giúp YouTube xem mượt hơn, mà chính Google cũng có được lợi thế rất lớn về mặt công nghệ, chi phí vận hành cũng như chiến lược.
Không chỉ có Argos, năm 2016, Google đă giới thiệu chip ASIC phục vụ xử lư AI và deep learning, mang tên Tensor Processing Unit (TPU).
Hiện giờ họ đă có 4 thế hệ chip TPU, một trong số đó đang được trang bị bên trong chiếc Pixel 6 và 6 Pro, tạo ra lợi thế không nhỏ về mặt hiệu năng xử lư AI so với các đơn vị khác trên thị trường.