GPU 28nm đầu tiên trên thế giới, card đồ hoạ PCI Express (PCIe) 3.0 đầu tiên trên thế giới, card đồ hoạ DirectX (DX) 11.1 đầu tiên trên thế giới, chiếc card Radeon dùng kiến trúc GCN đầu tiên của AMD, chiếc card đầu tiên hỗ trợ giao tiếp HDMI với độ phân giải 4K x 2K ... có rất nhiều thứ khiến cho HD 7970 trở thành một model độc nhất mà AMD từng ra mắt. Lần này, chúng ta sẽ bàn về mặt quan trọng còn lại của chiếc card HD 7000 đầu tiên của AMD - khả năng chơi game (gaming).
Trước hết, hãy nhìn vào các thông số cơ bản của HD 7970, cùng các đại diện Radeon trước đây. Bạn thấy rằng số lượng nhân xử lý (SP) có trên HD 7970 thực sự không tăng nhiều so với HD 6970 hay HD 5870 (chỉ nhiều hơn 33%). Số lượng TMU (texture mapping unit) về thực tế là đi kèm theo kiến trúc : cứ 16 SP lại đi với 1 TMU (GCN và VLIW4) hoặc 20 SP đi với 1 TMU (VLIW5) nên cơ bản có thể nói hiệu năng xử lý texture tỷ lệ với số lượng SP. Chỉ riêng lượng ROP (render output unit) là không đổi trong một thời gian dài. Điều này cho thấy AMD hoàn toàn tự tin với năng lực render mà hãng này hiện có (hãng này chỉ "mới" tăng lượng ROP lên 32 đơn vị từ HD 5870, model HD 4870 chỉ có 16 ROP đi kèm với 800 SP).
Như vậy bạn có xem HD 7970 về cơ bản khá giống HD 6970 khi nhìn từ góc độ game. Khác biệt chính yếu nằm ở con số SP, xung của từng SP và kích thước băng thông nhớ. Nhưng băng thông nhớ chỉ ảnh hưởng khi bạn chơi game ở độ phân giải lớn (1920 x 1200 trở lên hoặc nhiều màn hình). Bắt đầu từ HD 5000, AMD giới thiệu công nghệ Eyefinity cho phép một GPU có thể xuất cùng lúc tín hiệu ra nhiều màn hình, và điều này cần đến một bộ nhớ "khủng" hơn để đáp ứng tất cả. Đây là lý do tại sao AMD lại "hào phóng" gắn đến 3 GB GDDR5 lên HD 7970.
Kết hợp với chênh lệch xung nhân ~ 5%, chúng ta có thể nói "về lý thuyết" : HD 7970 mạnh hơn HD 6970 ~ 40%. "Trong thực tế", con số này sẽ thấp hơn.
Hiểu thêm về GCN
Nếu theo dõi ở trên, một vài bạn đọc có thể cho rằng GCN cơ bản tương tự VLIW4 : đấy là các nhóm 16 SP hợp lại thành một bộ tứ rồi từng bộ tứ này lại chia sẻ với nhau một bộ đệm L1 Cache để tạo thành một CU, hoàn toàn rất giống với một SIMD VLIW4 có 16 SP nhưng mỗi SP lại là một bộ tứ các ALU. Chung quy lại thì CU hay SIMD cũng đều chỉ có 64 ALU (16 x 4). Vậy thì có gì mới ?
Thứ mới ở đây, không hoàn toàn nằm ở cấu tạo từng SIMD hay CU, mà ở cách hoạt động của từng SIMD hoặc CU. Hãy quan sát hình dưới đây.
Bên phải bạn là một SIMD VLIW4 có 16 SP, mỗi SP có 4 ALU. Bên trái bạn là một CU có 4 SIMD GCN, mỗi SIMD có 16 ALU. Các đơn vị tính toán này sẽ xử lý các làn sóng lệnh (wavefront) mà bộ điều lệnh (scheduler) hoặc trình biên dịch (compiler) gửi đến. Và đây là điểm thú vị : các CU sẽ xử lý lần lượt theo tập lệnh (instruction) - từ trên xuống - trong khi các SIMD VLIW4 sẽ xử lý lần lượt theo wavefront - từ trái qua phải. Và đây là vấn đề : thực tế các CU hoặc SIMD sẽ nhận wavefront rồi mỗi wavefront lại ngắt ra nhiều tập lệnh khác nhau. Nói cách khác nếu một / nhiều tập lệnh trong wavefront B cần kết quả tính toán từ wavefront A thì quá trình xử lý wavefront B sẽ phải "chờ" wavefront A hoàn tất để tiếp tục. Bạn có thể xem ví dụ minh hoạ sau.
- Có 15 wavefront cần phải xử lý. Nếu mọi thứ "hoàn hảo" thì chỉ có 15/4 ~ 4 chu kỳ nạp lệnh để một CU hoặc SIMD VLIW4 hoàn tất công việc
- Song "đời không là mơ", có 5 wavefront lệ thuộc vào kết quả tính toán của wavefront trước đó, nên SIMD VLIW4 không xử lý tất cả trong 4 chu kỳ được mà thực tế là 6 chu kỳ.
- Vậy còn CU ? Vì CU xử lý theo tập lệnh, không theo wavefront. Thế nên gặp wavefront nào "đang chờ", CU sẽ bỏ qua để nhận lệnh khác xử lý tiếp. Do vậy về cơ bản các CU sẽ xử lý nhanh hơn các SIMD VLIW4. Như ở đây là trong 4 chu kỳ, tức nhanh hơn 30% so với VLIW4, trong khi lượng ALU bằng nhau
Dĩ nhiên vẫn có các tình huống "cay đắng" khi mà 15 wavefront đều lệ thuộc lẫn nhau. Trong bối cảnh ấy thì hiệu năng 2 kiến trúc hoàn toàn như nhau song nhìn chung GCN hiệu quả hơn khi tận dụng thời gian làm việc của từng ALU nhiều hơn.
Không chỉ là hiệu năng
Như đã nói, HD 7970 là chiếc card khá quan trọng với AMD. Nó gồm rất nhiều thứ "đầu tiên". Mặc dù nhiều tính năng như vậy, song điều đáng tiếc là rất nhiều bạn đọc không có điều kiện tận dụng hết khả năng của nó. Do vậy ở đây tôi chỉ liệt kê sơ bộ một số tính năng "hay" nhưng có dùng được không thì ... tuỳ bạn !
- DX 11.1
Tahiti là GPU đầu tiên hỗ trợ DX 11.1. Bộ DX này được biết sẽ xuất hiện cùng với Windows 8 mà Microsoft chuẩn bị ra mắt. Các tính năng mới trên DX 11.1 vẫn chưa được biết rõ, song "nghe chừng" Windows 8 sẽ hỗ trợ công nghệ Stereo 3D (S3D) mà muốn dùng món này thì đòi hỏi bạn phải có màn hình / kính 3D mới trải nghiệm được.
- Partially Resident Textures (PRT)
Khi độ phân giải dành cho game ngày một lớn (thông qua AMD Eyefinity hay NVIDIA Surround), điều này đồng nghĩa với kích thước texture cũng tăng theo. Kích thước càng lớn sẽ càng làm nặng băng thông nhớ và góp phần tăng độ trễ mỗi khi copy dữ liệu từ khu vực này sang khu vực khác. Và ý tưởng để giải quyết khó khăn này dùng một loại texture mới - PRT (nguyên thuỷ của nó là Megatexture) có thể chia cắt được ra nhiều khối texture nhỏ để copy "dần dần" nhằm giảm bớt khối lượng cho bộ nhớ.
- Eyefinity Technology 2.0
Nếu bạn "có điều kiện" trang bị đến 3 màn hình để trải nghiệm Eyefinity, HD 7970 sẽ khắc phục bớt một vài nhược điểm mà công nghệ cũ vẫn còn sót. Bạn có thể "định vị" lại giao diện desktop cho "vừa mắt", nghe dàn âm thanh "vòm" đến từ cả 3 phía màn hình chứ không chỉ từ một chiếc như trước. Song tôi không nghĩ có nhiều bạn đọc ở đây có thể trải nghiệm được điều này (lý do thì bạn cũng rõ).
- Fast HDMI
Đây có thể xem là tính năng đi tắt đón đầu của AMD : hỗ trợ các màn hình HDMI có độ phân giải 4K x 2K. Để đáp ứng được điều này thì băng thông dữ liệu trên cable HDMI phải tăng lên. Và AMD thực hiện điều đó bằng cách đẩy xung tín hiệu HDMI lên 340 MHz. Song không hiểu vì sao họ lại marketing gây hiểu lầm thành 3 GHz HDMI !?
- Video Codec Engine (VCE)
Nếu Intel có công nghệ Quick Sync khá hay trên dòng chip Sandy Bridge (SnB), giúp giảm thiểu thời gian chuyển đổi định dạng phim thì AMD cũng không chịu thua kém. Thậm chí, AMD còn đi xa hơn một bước bằng cách khai thác các SP trên Tahiti để tăng tốc hơn nữa ở chế độ Hybrid. Vâng, tôi đang nói đến tính năng VCE, một phiên bản cạnh tranh với Quick Sync đến từ AMD. Khác biệt là VCE chạy trên GPU, còn Quick Sync chạy trên các CPU SnB socket LGA 1155.
- PCI Express (PCIe) 3.0
Khi ra mắt HD 7970, AMD đồng thời chiếm lấy vị trí hãng đầu tiên có GPU hỗ trợ PCIe 3.0. Nhiều người cho rằng NVIDIA sẽ đạt được điều này trước với các chip Kepler, thế nhưng AMD mới là người giành chiến thắng. Về cơ bản PCIe 3.0 cung cấp băng thông gấp đôi PCIe 2.0 : 16 vs. 8 GB/s khi chạy ở 16x. Tuy nhiên hiệu quả thực tế hiện chưa thấy được với các card đồ hoạ hiện nay. Sẽ cần vài thế hệ card nữa mới khai thác được giao tiếp mới này.
- ZeroCore
HD 7970 không chỉ rất mạnh mẽ, mà nó còn rất tiết kiệm điện khi ở chế độ nghỉ (idle). Điều này có được một phần nhờ công nghệ 28nm, một phần khác đến từ ý tưởng : không xuất tín hiệu màn hình thì không cần hoạt động. Bắt nguồn từ thực tế card chỉ xuất tín hiệu khi có gắn với màn hình. Vì vậy khi ở chế độ 2D (ngoài desktop) mà bạn chạy nhiều card (CrossFire), những card không nối với màn hình sẽ gần như tắt hẳn. Ngoài ra khi không có sự thay đổi về tín hiệu màn hình (chờ quá lâu), bản thân chiếc card chính cũng sẽ được giảm hoạt động tối đa. Tất cả những thứ này nhằm một mục tiêu duy nhất : tiết kiệm điện càng nhiều càng tốt. AMD cho hay : ở mức thấp nhất, HD 7970 có thể chỉ tốn 3W !
Thực tế hiệu năng
Lý thuyết nhiều như thế, còn thực tế thì sao ? Ở đây, tôi chọn ra các kết quả benchmark mới nhất từ AnandTech, bao gồm cả model riêng mà XFX sản xuất, HD 7970 Black Edition Double Dissipation, với tản nhiệt riêng và xung card được overclock (OC) sẵn lên mức 1 GHz (nhân) / 5,7 GHz (nhớ).
Vì HD 7970 (bản thường) có giá tại Mỹ vào 550 USD nên khi xuất hiện ở Việt Nam và các nước khác, chắc chắn giá sẽ không hề rẻ. Chiếc card này được định hướng nhằm vào đối tượng người dùng cao cấp, do vậy mà thực tế, chúng ta chỉ cần quan tâm hiệu năng ở các độ phân giải 1920 x 1200 trở lên (tôi không cho rằng ai lại mua chiếc card này để chơi game với màn hình nhỏ).
Hãy nhớ rằng về lý thuyết, HD 7970 mạnh hơn HD 6970 ~ 40%. Hãy xem thực tế như thế nào.
Rất rõ ràng, HD 7970 mạnh hơn hẳn đàn anh HD 6970 và cho cả đối thủ chính hiện nay là GTX 580 ở sau một khoảng khá an toàn. Đây là lý do tại sao AMD lại đặt giá của HD 7970 cao đến như thế : vì nó mạnh hơn GTX 580!
Nhiệt độ, điện năng, lời kết
Nhờ tiến trình 28nm, Tahiti trở thành một trong các GPU cao cấp có mức tiêu thụ điện ở idle gần như thấp nhất, mặc dù nó mang trên mình đến ... 4,3 tỷ transistor (!) nhiều hơn bất kỳ GPU nào hiện có. Nhưng ở chế độ tải (load) cao, đây vẫn là chiếc card Radeon đơn chip ngốn nhiều điện nhất. Song bù lại nó vẫn thấp hơn đối thủ chính bên NVIDIA là GTX 580, một ưu thế hoàn toàn hợp lý để chọn chiếc card này thay cho đại diện đơn chip cao cấp nhất nhà GeForce.
Về nhiệt độ & độ ồn, HD 7970 nằm ở một vị trí rất "thoải mái" so với các đại diện khác. Hệ thống tản nhiệt vapor chamber giữ cho nó luôn ở ngưỡng nóng "vừa đủ" và đảm bảo độ ổn định về mặt lâu dài (dĩ nhiên không bàn model của XFX tại đây).
Xét chung cuộc, chiếc card hội tụ của rất nhiều cái "đầu tiên" từ AMD đã cho thấy một hiệu năng ấn tượng, không chỉ về gaming mà về GPGPU lại càng khiến giới công nghệ ngạc nhiên (đặc biệt những ai muốn dùng nó cho nghiên cứu khoa học, tính toán thiên văn, dự báo thời tiết ...). Ngoại trừ yếu tố giá còn "chát" (do phải cao hơn GTX 580), gần như chẳng còn gì để chê HD 7970. Câu hỏi duy nhất còn lại là : khi nào thì nó sẽ xuất hiện ở Việt Nam và giá thành sẽ là bao nhiêu?