cuda-samples/Samples/dmmaTensorCoreGemm/NsightEclipse.xml

<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE entry SYSTEM "SamplesInfo.dtd">
<entry>
  <name>dmmaTensorCoreGemm</name>
  <cflags>
    <flag>--std=c++11</flag>
  </cflags>
  <cuda_api_list>
    <toolkit>cudaMallocManaged</toolkit>
    <toolkit>cudaDeviceSynchronize</toolkit>
    <toolkit>cudaFuncSetAttribute</toolkit>
    <toolkit>cudaEventCreate</toolkit>
    <toolkit>cudaEventRecord</toolkit>
    <toolkit>cudaEventSynchronize</toolkit>
    <toolkit>cudaEventElapsedTime</toolkit>
    <toolkit>cudaFree</toolkit>
  </cuda_api_list>
  <description><![CDATA[CUDA sample demonstrates double precision GEMM computation using the Double precision Warp Matrix Multiply and Accumulate (WMMA) API introduced with CUDA 11 in Ampere chip family tensor cores for faster matrix operations. This sample also uses async copy provided by cuda pipeline interface for gmem to shmem async loads which improves kernel performance and reduces register presssure. Further, this sample also demonstrates how to use cooperative groups async copy interface over a group for performing gmem to shmem async loads.]]></description>
  <devicecompilation>whole</devicecompilation>
  <includepaths>
    <path>./</path>
    <path>../</path>
    <path>../../common/inc</path>
  </includepaths>
  <keyconcepts>
    <concept level="basic">Matrix Multiply</concept>
    <concept level="advanced">WMMA</concept>
    <concept level="advanced">Tensor Cores</concept>
  </keyconcepts>
  <keywords>
    <keyword>matrix multiply</keyword>
    <keyword>Async copy</keyword>
    <keyword>CPP11</keyword>
    <keyword>GCC 5.0.0</keyword>
  </keywords>
  <libraries>
  </libraries>
  <librarypaths>
  </librarypaths>
  <nsight_eclipse>true</nsight_eclipse>
  <primary_file>dmmaTensorCoreGemm.cu</primary_file>
  <scopes>
    <scope>1:CUDA Basic Topics</scope>
  </scopes>
  <sm-arch>sm80</sm-arch>
  <sm-arch>sm86</sm-arch>
  <supported_envs>
    <env>
      <arch>x86_64</arch>
      <platform>linux</platform>
    </env>
    <env>
      <arch>aarch64</arch>
    </env>
    <env>
      <platform>windows7</platform>
    </env>
    <env>
      <arch>ppc64le</arch>
      <platform>linux</platform>
    </env>
  </supported_envs>
  <supported_sm_architectures>
    <from>8.0</from>
  </supported_sm_architectures>
  <title>Double Precision Tensor Core GEMM</title>
  <type>exe</type>
</entry>
Add and update samples for cuda 11.0 support 2020-05-19 00:52:06 +08:00			`<?xml version="1.0" encoding="UTF-8"?>`
			`<!DOCTYPE entry SYSTEM "SamplesInfo.dtd">`
			`<entry>`
			`<name>dmmaTensorCoreGemm</name>`
			`<cflags>`
			`<flag>--std=c++11</flag>`
			`</cflags>`
			`<cuda_api_list>`
			`<toolkit>cudaMallocManaged</toolkit>`
			`<toolkit>cudaDeviceSynchronize</toolkit>`
			`<toolkit>cudaFuncSetAttribute</toolkit>`
			`<toolkit>cudaEventCreate</toolkit>`
			`<toolkit>cudaEventRecord</toolkit>`
			`<toolkit>cudaEventSynchronize</toolkit>`
			`<toolkit>cudaEventElapsedTime</toolkit>`
			`<toolkit>cudaFree</toolkit>`
			`</cuda_api_list>`
			<description><![CDATA[CUDA sample demonstrates double precision GEMM computation using the Double precision Warp Matrix Multiply and Accumulate (WMMA) API introduced with CUDA 11 in Ampere chip family tensor cores for faster matrix operations. This sample also uses async copy provided by cuda pipeline interface for gmem to shmem async loads which improves kernel performance and reduces register presssure. Further, this sample also demonstrates how to use cooperative groups async copy interface over a group for performing gmem to shmem async loads.]]></description>
			`<devicecompilation>whole</devicecompilation>`
			`<includepaths>`
			`<path>./</path>`
			`<path>../</path>`
			`<path>../../common/inc</path>`
			`</includepaths>`
			`<keyconcepts>`
			`<concept level="basic">Matrix Multiply</concept>`
			`<concept level="advanced">WMMA</concept>`
			`<concept level="advanced">Tensor Cores</concept>`
			`</keyconcepts>`
			`<keywords>`
			`<keyword>matrix multiply</keyword>`
			`<keyword>Async copy</keyword>`
			`<keyword>CPP11</keyword>`
			`<keyword>GCC 5.0.0</keyword>`
			`</keywords>`
			`<libraries>`
			`</libraries>`
			`<librarypaths>`
			`</librarypaths>`
			`<nsight_eclipse>true</nsight_eclipse>`
			`<primary_file>dmmaTensorCoreGemm.cu</primary_file>`
			`<scopes>`
			`<scope>1:CUDA Basic Topics</scope>`
			`</scopes>`
			`<sm-arch>sm80</sm-arch>`
Add and update samples for cuda 11.1 support 2020-09-16 02:15:56 +08:00			`<sm-arch>sm86</sm-arch>`
Add and update samples for cuda 11.0 support 2020-05-19 00:52:06 +08:00			`<supported_envs>`
			`<env>`
			`<arch>x86_64</arch>`
			`<platform>linux</platform>`
			`</env>`
			`<env>`
			`<arch>aarch64</arch>`
			`</env>`
			`<env>`
			`<platform>windows7</platform>`
			`</env>`
			`<env>`
			`<arch>ppc64le</arch>`
			`<platform>linux</platform>`
			`</env>`
			`</supported_envs>`
			`<supported_sm_architectures>`
			`<from>8.0</from>`
			`</supported_sm_architectures>`
			`<title>Double Precision Tensor Core GEMM</title>`
			`<type>exe</type>`
			`</entry>`