Arm Mali-G77 GPU-완벽한 입 / 출력

작가: Randy Alexander
창조 날짜: 3 4 월 2021
업데이트 날짜: 1 칠월 2024
Anonim
Arm Mali-G77 GPU-완벽한 입 / 출력 - 기술
Arm Mali-G77 GPU-완벽한 입 / 출력 - 기술

콘텐츠


Arm은 자사의 새로운 Cortex-A77 CPU 코어와 함께 차세대 스마트 폰 SoC를위한 차세대 GPU를 공개했습니다. 새로운 Mali-D77 디스플레이 프로세서와 혼동되지 않는 Mali-G77은 Arm 's Bifrost 아키텍처의 출발과 Valhall 로의 이전을 의미합니다.

새로운 아키텍처의 세부 사항을 잠시 후에 살펴 보겠습니다. 먼저, 성능 향상 측면에서 사용자가 기대할 수있는 것을 바로 살펴 보겠습니다.

말리 -G77 성능 개요

Arm은 오늘날의 Mali-G76 모델에 비해 차세대 Mali-G77 장치로 최대 40 %의 그래픽 성능 향상을 자랑합니다. 이 수치는 프로세스 개선과 아키텍처 개선을 고려하고 있습니다. Mali-G77은 7 개에서 16 개의 셰이더 코어로 구성 할 수 있으며 각 코어의 크기는 G76 코어와 거의 동일합니다. 이는 하이 엔드 스마트 폰이 오늘날과 비슷한 GPU 코어 수를 제공 할 가능성이 높다는 것을 의미합니다. 이를 통해 기존 칩셋에 대한 투기 성능 평가를 수행 할 수 있습니다.

인기있는 맨해튼 GFXBench 벤치 마크를 살펴보면 40 %의 성능 향상으로 현재 세대 하드웨어에 비해 상당한 리드가 열립니다. Qualcomm의 차세대 Adreno 칩은 경기장 수준을 유지하기 위해 자체 성능 업그레이드가 필요합니다. 테이블이 팔의 호의로 바뀌고있는 것 같습니다.

아키텍처 측면에서 게임 성능은 20 ~ 40 % 증가하고 머신 러닝은 60 % 향상됩니다

이 다소 거친 볼 파킹을 기반으로 10 코어 Mali-G77 (Huawei에서 흔히 볼 수있는 구성)은이 세대의 최고급 모바일 그래픽 하드웨어를 능가하는 것으로 보입니다. 일반적으로 삼성의 엑시 노스에서 볼 수있는 12 개의 핵심 구성은 Arm의 최신 GPU에 큰 도움이됩니다. 물론 실제 벤치 마크는 프로세스 노드, GPU 캐시 메모리, LPDDR 메모리 구성 및 테스트중인 애플리케이션 유형을 포함한 다른 요소에 따라 달라집니다. 따라서 위의 그래프를 다량의 소금으로 섭취하십시오.


Arm은 새로운 아키텍처만으로 말리 -G77이 에너지 효율과 성능 밀도를 평균 30 % 향상 시켰다고 밝혔다. INT8 도트 제품 지원 덕분에 머신 러닝 응용 프로그램의 성능도 60 % 크게 향상되었습니다. 게임 성능 기대치는 타이틀과 제공되는 그래픽 워크로드 유형에 따라 20 ~ 40 % 향상됩니다.

Arm이 어떻게이 성능 향상을 달성했는지 정확히 이해하기 위해 아키텍처에 대해 자세히 살펴 보겠습니다.

Bifrost의 후계자 Valhall을 만나보세요

Vahall은 Arm의 2 세대 스칼라 GPU 아키텍처입니다. 16 와트 워프 실행 엔진으로, GPU가 처리 단위당, 코어 당 16 개의 명령을 병렬로 실행한다는 의미입니다. Bifrost의 너비는 4와 8입니다.

다른 새로운 아키텍처 기능으로는 완전히 하드웨어로 관리되는 동적 명령 스케줄링과 Bifrost와 운영상 동등성을 유지하는 완전히 새로운 명령 세트가 있습니다. Arm의 AFBC1.3 압축 형식, FP16 렌더 타겟, 레이어 렌더링 및 버텍스 셰이더 출력에 대한 지원도 포함됩니다.

Mali-G77은 G76보다 33 % 더 많은 연산을 수행합니다.

주요 아키텍처 변경을 이해하는 핵심은 코어 내부의 실행 단위를 검사하여 찾을 수 있습니다. GPU의이 부분은 번호 크 런칭을 담당합니다.

실행 엔진 내부

Bifrost에서 일부 GPU 코어에는 일부 저가형 Mali-G52 설계의 경우 3 개의 실행 엔진 또는 2 개의 엔진이 포함되었습니다. 각 엔진에는 i- 캐시, 레지스터 파일 및 워프 제어 장치가 있습니다. Mali-G72에서 각 엔진은 사이클 당 4 개의 명령을 처리하여 작년 Mali-G76에서 8로 증가했습니다. 이 3 개의 코어를 통해 확산하면 사이클 당 12 및 24 개의 32 비트 부동 소수점 (FP32) 퓨즈 곱셈 누산 (FMA) 명령이 허용됩니다.


Valhall과 Mali-G77을 사용하면 각 GPU 코어 내에 단일 실행 엔진이 있습니다. 이전과 마찬가지로이 엔진에는 워프 제어 장치, 레지스터 및 icache가 포함되어 있으며 이제 두 처리 장치에서 공유됩니다. 각 처리 장치는 사이클 당 16 개의 워프 명령을 처리하여 코어 당 총 32 개의 FP32 FMA 명령을 처리합니다. Mali-G76보다 명령 처리량이 33 % 향상되었습니다.

ARM은 GPU 코어 당 3 개에서 1 개의 실행 장치로 전환되었지만 이제 G77 코어 내에 2 개의 처리 장치가 있습니다.

또한 이러한 각 처리 장치에는 두 개의 새로운 수학 함수 블록이 있습니다. 새로운 변환 단위 (CVT)는 기본 정수, 논리, 분기 및 변환 명령어를 처리합니다. 특수 함수 단위 (SFU)는 정수 곱셈, 나누기, 제곱근, 로그 및 기타 복잡한 정수 함수를 가속화합니다.

표준 FMA 장치는 사이클 당 16 개의 FP32 명령어, 32 개의 FP16 또는 64 개의 INT8 도트 제품 명령어를 지원하는 약간의 조정이 이루어졌습니다. 이러한 최적화는 머신 러닝 애플리케이션에서 60 %의 성능 향상을 가져옵니다.

쿼드 텍스처 매퍼

Mali-G77의 또 다른 주요 변경 사항은 이전 세대의 이중 텍스처 맵퍼에서 개선 된 쿼드 텍스처 맵퍼의 도입입니다. 텍스처 맵퍼는 장면의 3D 다각형을 화면에 표시되는 2D 표현으로 매핑합니다. 거칠고 품질이 낮은 가장자리를 피하기 위해 각진 이동 콘텐츠를 매끄럽게하기 위해 샘플링, 보간 및 필터링을 담당합니다.

이미지 품질을 지원하기 위해 저렴한 앤티 앨리어싱이 남아 있지만, 텍스처 성능이 두 배로 증가하는 것이 주요 이점입니다. 텍스쳐 유닛은 이제 이전에 2 개, 클럭 당 2 개의 3 선형 텍셀에서 클럭 당 4 개의 이중 선형 텍셀을 처리하고 더 빠른 FP16 및 FP32 필터링을 처리합니다.

쿼드 텍스처 맵퍼는 두 개의 경로로 분할되어 캐시의 컨텐츠에 부딪 치는 스레드에 대한 짧은 파이프 라인을 제공합니다. 형식 변환 및 텍스처 압축 해제를 처리하는 미스 경로는 L2 캐시에 대한 더 넓은 인터페이스를 제공합니다. 또한 메모리에서 새 데이터를 자주 가져와야하는 기계 학습 워크로드에도 유용합니다.

Mali-G77에서 모든 것을 하나로 모으기

Arm은 Valhall 아키텍처의 주요 변경 사항과 일치하도록 Mali-G77을 여러 가지로 조정했습니다. 내부 실행 스케줄러는 실제로 각 코어 내부에서보다 유연한 명령을 실행할 수 있도록하면서 단일 실행 장치 설계 덕분에 제어 블록이 단순화되었습니다. 각 코어의 처리량이 높을수록 데이터 경로는 대기 시간이 짧아지고 이전 8 개에서 4 주기로 단축됩니다.

새로운 디자인은 Vulkan API 와도 잘 맞아서 드라이버 디스크립터를 단순화하여 "금속에 대한"성능 향상을 위해 드라이버 오버 헤드를 줄입니다.

요약하면 Mali-G72와 Valhall은 게임 및 머신 러닝 응용 프로그램의 성능을 크게 향상시키는 Bifrost의 중요한 변경 사항을 적용합니다. 중요하게,이 디자인은 Bifrost와 동일한 전력 및 면적 예산에 적합하므로 열, 전력 및 실리콘 비용에 대한 걱정없이 모바일 장치가 더 높은 성능을 제공 할 수 있습니다. 성능 예측에 따라 Mali-G77은 Qualcomm의 차세대 Adreno에게 돈을 벌 수있는 좋은 기회를 제공 할 수 있어야합니다.

이동 통신사가 스트리밍 서비스를 제한하고 있다는 의심은 사실 일 가능성이 높습니다. 노스 이스턴 대학 (Northeatern Univerity)과 매사추세츠 대학 (Univerity of Maachuett Amhert)의 연구자들에 의한 새로운 연구에 따르면 온라인 비디오의 스로틀 링은 널리 퍼져 있으며 미국을 포함한 전세계 여러 지역에서 발생합니다....

우리는 당신이 누구인지 또는 어디에 있든지 훈련과 자격을 얻을 수있는 놀라운 시간에 살고 있습니다. 예산이 적당하지 않더라도 기업가와 디지털 전문가가 자신의 이력서를 키우고 새로운 기술을 익히고 더 취업 할 수있는 온라인 비즈니스 코스가 많이 있습니다.이것이 디지털 시대에 앞서가는 가장 좋은 방법입니다. 고용주가 추가 교육 비용을 지불 할 때까지 기다리지 ...

공유하다