文章出處

.NET Core(開放源代碼,跨平臺,x-copy可部署等)有許多令人興奮的方面,其中最值得稱贊的就是其性能了。

感謝所有社區開發人員對.NET Core做出的貢獻,其中的許多改進也將在接下來的幾個版本中引入.NET Framework。

本文主要介紹.NET Core中的一些性能改進,特別是.NET Core 2.0中的,重點介紹各個核心庫的一些示例。

 

集合

集合是任何應用程序的基石,同時.NET庫中也有大量集合。.NET庫中的一些改進是為了消除開銷,例如簡化操作以便更好的實現內聯,減少指令數量等。例如,下面的這個使用Q<T>的例子:

using System;
using System.Diagnostics;
using System.Collections.Generic;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            var q = new Queue<int>();
            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 100_000_000; i++)
            {
                q.Enqueue(i);
                q.Dequeue();
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

PR dotnet/corefx #2515移除了這些操作中相對復雜的模數運算,在個人計算機,以上代碼在.NET 4.7上產生如下輸出:

000000.9392595 
000000.9390453 
000000.9455784 
000000.9508294 
000001.0107745

而使用.NET Core 2.0則會產生如下輸出:

000000.5514887 
000000.5662477 
000000.5627481 
000000.5685286 
000000.5262378

由于這是掛鐘時間所節省的,較小的值計算的更快,這也表明吞吐量增加了約2倍!

在其他情況下,通過更改操作算法的復雜性,可以更快地進行操作。編寫軟件時,最初編寫的一個簡單實現,雖然是正確的,但是這樣實現往往不能表現出最佳的性能,直到特定的場景出現時,才考慮如何提高性能。例如,SortedSet <T>的ctor最初以相對簡單的方式編寫,由于使用O(N ^ 2)算法來處理重復項,因此不能很好地處理復雜性。該算法在PRnetnet / corefx#1955中的.NET Core中得到修復。以下簡短的程序說明了修復的區別:

using System;
using System.Diagnostics;
using System.Collections.Generic;
using System.Linq;

public class Test
{
    public static void Main()
    {
        var sw = Stopwatch.StartNew();
        var ss = new SortedSet<int>(Enumerable.Repeat(42, 400_000));
        Console.WriteLine(sw.Elapsed);
    }
}

在個人電腦的.NET Framework上,這段代碼需要大約7.7秒執行完成。在.NET Core 2.0上,減少到大約0.013s(改進改變了算法的復雜性,集合越大,節省的時間越多)。

或者在SortedSet <T>上考慮這個例子:

public class Test
{
    static int s_result;

    public static void Main()
    {
        while (true)
        {
            var s = new SortedSet<int>();
            for (int n = 0; n < 100_000; n++)
            {
                s.Add(n);
            }

            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 10_000_000; i++)
            {
                s_result = s.Min;
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

.NET 4.7中MinMax的實現遍布SortedSet <T>的整個樹,但是只需要找到最小或最大值即可,因為實現可以只遍歷相關的節點。PR dotnet / corefx#11968修復了.NET Core實現。在.NET 4.7中,此示例生成如下結果:

000001.1427246
000001.1295220 
000001.1350696 
000001.1502784 
000001.1677880

而在.NET Core 2.0中,我們得到如下結果:

000000.0861391 
000000.0861183 
000000.0866616 
000000.0848434 
000000.0860198

顯示出相當大的時間下降和吞吐量的增加。

即使像List <T>這樣的主工作核心也有改進的空間。考慮下面的例子:

using System;
using System.Diagnostics;
using System.Collections.Generic;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            var l = new List<int>();
            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 100_000_000; i++)
            {
                l.Add(i);
                l.RemoveAt(0);
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到的結果如下:

000000.4434135 
000000.4394329 
000000.4496867 
000000.4496383 
000000.4515505

和.NET Core 2.0,得到:

000000.3213094 
000000.3211772 
000000.3179631 
000000.3198449 
000000.3164009

可以肯定的是,在0.3秒內可以實現1億次這樣的添加并從列表中刪除的操作,這表明操作開始并不慢。但是,通過執行一個應用程序,列表通常會添加到很多,同時也節省了總時間消耗。

這些類型的集合改進擴展不僅僅是System.Collections.Generic命名空間; System.Collections.Concurrent也有很多改進。事實上,.NET Core 2.0上的ConcurrentQueue <T>ConcurrentBag <T>完全重寫了。下面看看一個基本的例子,使用ConcurrentQueue <T>但沒有任何并發,例子中使用ConcurrentQueue <T>代替了Queue<T>

using System;
using System.Diagnostics;
using System.Collections.Concurrent;

public class Test
{
    public static void Main()
    {
        while (true)
        {
            var q = new ConcurrentQueue<int>();
            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 100_000_000; i++)
            {
                q.Enqueue(i);
                q.TryDequeue(out int _);
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在個人電腦上,.NET 4.7產生的輸出如下:

000002.6485174
000002.6144919 
000002.6699958 
000002.6441047 
000002.6255135

顯然,.NET 4.7上的ConcurrentQueue <T>示例比.NET 4.7中的Queue <T>版本慢,因為ConcurrentQueue <T>需要采用同步來確保是否安全使用。但是,更有趣的比較是當在.NET Core 2.0上運行相同的代碼時會發生什么:

000001.7700190 
000001.8324078 
000001.7552966 
000001.7518632 
000001.7560811

這表明當將.NET Core 2.0切換到30%時,ConcurrentQueue <T>的吞吐量沒有任何并發​​性提高。但是實施中的變化提高了序列化的吞吐量,甚至更多地減少了使用隊列的生產和消耗之間的同步,這可能對吞吐量有更明顯的影響。請考慮以下代碼:

using System;
using System.Diagnostics;
using System.Collections.Concurrent;
using System.Threading.Tasks;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            const int Items = 100_000_000;
            var q = new ConcurrentQueue<int>();
            var sw = Stopwatch.StartNew();

            Task consumer = Task.Run(() =>
            {
                int total = 0;
                while (total < Items) if (q.TryDequeue(out int _)) total++;
            });
            for (int i = 0; i < Items; i++) q.Enqueue(i);
            consumer.Wait();

            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,個人計算機輸出如下結果:

000006.1366044
000005.7169339 
000006.3870274 
000005.5487718 
000006.6069291

而使用.NET Core 2.0,會得到以下結果:

000001.2052460 
000001.5269184 
000001.4638793 
000001.4963922 
000001.4927520

這是一個3.5倍的吞吐量的增長。不但CPU效率提高了, 而且內存分配也大大減少。下面的例子主要觀察GC集合的數量,而不是掛鐘時間:

using System;
using System.Diagnostics;
using System.Collections.Concurrent;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            var q = new ConcurrentQueue<int>();
            int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
            for (int i = 0; i < 100_000_000; i++)
            {
                q.Enqueue(i);
                q.TryDequeue(out int _);
            }
            Console.WriteLine($"Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
        }
    }
}

在.NET 4.7中,得到以下輸出:

Gen0 = 162 Gen1 = 80 Gen2 = 0 
Gen0 = 162 Gen1 = 81 Gen2 = 0 
Gen0 = 162 Gen1 = 81 Gen2 = 0 
Gen0 = 162 Gen1 = 81 Gen2 = 0 
Gen0 = 162 Gen1 = 81 Gen2 = 0

而使用.NET Core 2.0,會得到如下輸出:

Gen0 = 0 Gen1 = 0 Gen2 = 0 
Gen0 = 0 Gen1 = 0 Gen2 = 0 
Gen0 = 0 Gen1 = 0 Gen2 = 0 
Gen0 = 0 Gen1 = 0 Gen2 = 0 
Gen0 = 0 Gen1 = 0 Gen2 = 0

.NET 4.7中的實現使用了固定大小的數組鏈表,一旦固定數量的元素被添加到每個數組中,就會被丟棄, 這有助于簡化實現,但也會導致生成大量垃圾。在.NET Core 2.0中,新的實現仍然使用鏈接在一起的鏈接列表,但是隨著新的片段的添加,這些片段的大小會增加,更重要的是使用循環緩沖區,只有在前一個片段完全結束時,新片段才會增加。這種分配的減少可能對應用程序的整體性能產生相當大的影響。

ConcurrentBag <T>也有類似改進。ConcurrentBag <T>維護thread-local work-stealing隊列,使得添加到的每個線程都有自己的隊列。在.NET 4.7中,這些隊列被實現為每個元素占據一個節點的鏈接列表,這意味著對該包的任何添加都會導致分配。在.NET Core 2.0中,這些隊列是數組,這意味著除了增加陣列所涉及的均攤成本之外,增加的還是無需配置的。以下可以看出:

using System;
using System.Diagnostics;
using System.Collections.Concurrent;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            var q = new ConcurrentBag<int>() { 1, 2 };
            var sw = new Stopwatch();

            int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
            sw.Start();

            for (int i = 0; i < 100_000_000; i++)
            {
                q.Add(i);
                q.TryTake(out int _);
            }

            sw.Stop();
            Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
        }
    }
}

在.NET 4.7中,個人計算機上產生以下輸出:

Elapsed=00:00:06.5672723 Gen0=953 Gen1=0 Gen2=0
Elapsed=00:00:06.4829793 Gen0=954 Gen1=1 Gen2=0
Elapsed=00:00:06.9008532 Gen0=954 Gen1=0 Gen2=0
Elapsed=00:00:06.6485667 Gen0=953 Gen1=1 Gen2=0
Elapsed=00:00:06.4671746 Gen0=954 Gen1=1 Gen2=0

而使用.NET Core 2.0,會得到:

Elapsed=00:00:04.3377355 Gen0=0 Gen1=0 Gen2=0
Elapsed=00:00:04.2892791 Gen0=0 Gen1=0 Gen2=0
Elapsed=00:00:04.3101593 Gen0=0 Gen1=0 Gen2=0
Elapsed=00:00:04.2652497 Gen0=0 Gen1=0 Gen2=0
Elapsed=00:00:04.2808077 Gen0=0 Gen1=0 Gen2=0

吞吐量提高了約30%,并且分配和完成的垃圾收集量減少了。

 

LINQ

在應用程序代碼中,集合通常與語言集成查詢(LINQ)緊密相連,該查詢已經有了更多的改進。LINQ中的許多運算符已經完全重寫為.NET Core,以便減少分配的數量和大小,降低算法復雜度,并且消除不必要的工作。

例如,Enumerable.Concat方法用于創建一個單一的IEnumerable <T>,它首先產生first域可枚舉的所有元素,然后再生成second域所有的元素。它在.NET 4.7中的實現是簡單易懂的,下面的代碼正好反映了這種行為表述:

static IEnumerable<TSource> ConcatIterator<TSource>(IEnumerable<TSource> first, IEnumerable<TSource> second) {
    foreach (TSource element in first) yield return element;
    foreach (TSource element in second) yield return element;
}

當兩個序列是簡單的枚舉,如C#中的迭代器生成的,這種過程會執行的很好。但是如果應用程序代碼具有如下代碼呢?

first.Concat(second.Concat(third.Concat(fourth)));

每次我們從迭代器中退出時,則會返回到枚舉器的MoveNext方法。這意味著如果你從另一個迭代器中枚舉產生一個元素,則會返回兩個MoveNext方法,并移動到下一個需要調用這兩個MoveNext方法的元素。你調用的枚舉器越多,操作所需的時間越長,特別是這些操作中的每一個都涉及多個接口調用(MoveNextCurrent)。這意味著連接多個枚舉會以指數方式增長,而不是呈線性增長。PR dotnet / corefx#6131修正了這個問題,在下面的例子中,區別是顯而易見的:

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
public class Test
{
    public static void Main()
    {
        IEnumerable<int> zeroToTen = Enumerable.Range(0, 10);
        IEnumerable<int> result = zeroToTen;
        for (int i = 0; i < 10_000; i++)
        {
            result = result.Concat(zeroToTen);
        }

        var sw = Stopwatch.StartNew();
        foreach (int i in result) { }
        Console.WriteLine(sw.Elapsed);
    }
}

在個人計算機上,.NET 4.7需要大約4.12秒。但在.NET Core 2.0中,這只需要約0.14秒,提高了30倍。

通過消除多個運算器同時使用時的消耗,運算器也得到了大大的提升。例如下面的例子:

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
public class Test
{
    public static void Main()
    {
        IEnumerable<int> tenMillionToZero = Enumerable.Range(0, 10_000_000).Reverse();
        while (true)
        {
            var sw = Stopwatch.StartNew();
            int fifth = tenMillionToZero.OrderBy(i => i).Skip(4).First();
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在這里,我們創建一個可以從10,000,000下降到0的數字,然后再等待一會來排序它們上升,跳過排序結果中的前4個元素,并抓住第五個。在個人計算機上的NET 4.7中得到如下輸出:

000001.3879042 
000001.3438509 
000001.4141820 
000001.4248908 
000001.3548279

而使用.NET Core 2.0,會得到如下輸出:

000000.1776617 
000000.1787467 
000000.1754809 
000000.1765863 
000000.1735489

這是一個巨大的改進(〜8x),避免了大部分的開銷。

類似地,來自justinvp的 PR dotnet / corefx#3429對常用的ToList方法添加了優化,為已知長度的源,提供了優化的路徑,并且通過像Select這樣的操作器來管理。在以下簡單測試中,這種影響是顯而易見的:

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
public class Test
{
    public static void Main()
    {
        IEnumerable<int> tenMillionToZero = Enumerable.Range(0, 10_000_000).Reverse();
        while (true)
        {
            var sw = Stopwatch.StartNew();
            int fifth = tenMillionToZero.OrderBy(i => i).Skip(4).First();
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到如下結果:

000000.1308687 
000000.1228546 
000000.1268445 
000000.1247647 
000000.1503511

而在.NET Core 2.0中,得到如下結果:

000000.0386857 
000000.0337234 
000000.0346344 
000000.0345419 
000000.0355355

顯示吞吐量增加約4倍。

在其他情況下,性能優勢來自于簡化實施,以避免開銷,例如減少分配,避免委托分配,避免接口調用,最小化字段讀取和寫入,避免拷貝等。例如,jamesqo為PR dotnet / corefx#11208做出的貢獻,大大地減少了Enumerable.ToArray涉及的開銷。請看下面的例子:

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
public class Test
{
    public static void Main()
    {
        IEnumerable<int> zeroToTenMillion = Enumerable.Range(0, 10_000_000).ToArray();
        while (true)
        {
            var sw = Stopwatch.StartNew();
            zeroToTenMillion.Select(i => i).ToList();
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到如下的結果:

Elapsed=00:00:01.0548794 Gen0=2 Gen1=2 Gen2=2
Elapsed=00:00:01.1147146 Gen0=2 Gen1=2 Gen2=2
Elapsed=00:00:01.0709146 Gen0=2 Gen1=2 Gen2=2
Elapsed=00:00:01.0706030 Gen0=2 Gen1=2 Gen2=2
Elapsed=00:00:01.0620943 Gen0=2 Gen1=2 Gen2=2

而.NET Core 2.0的結果如下:

Elapsed=00:00:00.1716550 Gen0=1 Gen1=1 Gen2=1
Elapsed=00:00:00.1720829 Gen0=1 Gen1=1 Gen2=1
Elapsed=00:00:00.1717145 Gen0=1 Gen1=1 Gen2=1
Elapsed=00:00:00.1713335 Gen0=1 Gen1=1 Gen2=1
Elapsed=00:00:00.1705285 Gen0=1 Gen1=1 Gen2=1

這個例子中提高了6倍,但是垃圾收集卻只有一半。

LINQ有一百多個運算器,本文只提到了幾個,其它的很多也都有所改進。

 

壓縮

前面所展示的集合和LINQ的例子都是處理內存中的數據,當然還有許多其他形式的數據處理,包括大量CPU計算和邏輯判斷,這些運算也在得到提升。

一個關鍵的例子是壓縮,例如使用DeflateStream,性能方面也有一些重大的性能改進。例如,在.NET 4.7中,zlib(本地壓縮庫)用于壓縮數據,但是相對未優化的托管實現了用于解壓縮的數據; PR dotnet / corefx#2906添加了.NET Core支持,以便使用zlib進行解壓縮。來自bjjones的 PR dotnet / corefx#5674使用英特爾生產的zlib這個更優化的版本。這些結合產生了非常棒的效果。下面的例子,創建一個大量的數據:

using System;
using System.IO;
using System.IO.Compression;
using System.Diagnostics;
public class Test
{
    public static void Main()
    {
        // Create some fairly compressible data
        byte[] raw = new byte[100 * 1024 * 1024];
        for (int i = 0; i < raw.Length; i++) raw[i] = (byte)i;
        var sw = Stopwatch.StartNew();

        // Compress it
        var compressed = new MemoryStream();
        using (DeflateStream ds = new DeflateStream(compressed, CompressionMode.Compress, true))
        {
            ds.Write(raw, 0, raw.Length);
        }
        compressed.Position = 0;

        // Decompress it
        var decompressed = new MemoryStream();
        using (DeflateStream ds = new DeflateStream(compressed, CompressionMode.Decompress))
        {
            ds.CopyTo(decompressed);
        }
        decompressed.Position = 0;

        Console.WriteLine(sw.Elapsed);
    }
}

在.NET 4.7中,這一個壓縮/解壓縮操作,會得到如下結果:

000000.7977190

而使用.NET Core 2.0,會得到如下結果:

000000.1926701

 

加密

.NET應用程序中另一個常見的計算源是使用加密操作,在這方面.NET Core也有改進。例如,在.NET 4.7中,SHA256.Create返回在管理代碼中實現的SHA256類型,而管理代碼可以運行得非常快,但是對于運算量非常大的計算,這仍然難以與原始吞吐量和編譯器優化競爭。相反,對于.NET Core 2.0,SHA256.Create返回基于底層操作系統的實現,例如在Windows上使用CNG或在Unix上使用OpenSSL。從下面這個簡單的例子可以看出,它散列著一個100MB的字節數組:

using System;
using System.Diagnostics;
using System.Security.Cryptography;

public class Test
{
    public static void Main()
    {
        byte[] raw = new byte[100 * 1024 * 1024];
        for (int i = 0; i < raw.Length; i++) raw[i] = (byte)i;

        using (var sha = SHA256.Create())
        {
            var sw = Stopwatch.StartNew();
            sha.ComputeHash(raw);
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到:

000000.7576808

而使用.NET Core 2.0,會得到:

000000.4032290

零代碼更改的一個很好提升。

 

數學運算

數學運算也是一個很大的計算量,特別是處理大量數據時。通過像dotnet / corefx#2182這樣的PR ,axelheerBigInteger的各種操作做了一些實質的改進。請考慮以下示例:

using System;
using System.Diagnostics;
using System.Numerics;

public class Test
{
    public static void Main()
    {
        var rand = new Random(42);
        BigInteger a = Create(rand, 8192);
        BigInteger b = Create(rand, 8192);
        BigInteger c = Create(rand, 8192);

        var sw = Stopwatch.StartNew();
        BigInteger.ModPow(a, b, c);
        Console.WriteLine(sw.Elapsed);
    }

    private static BigInteger Create(Random rand, int bits)
    {
        var value = new byte[(bits + 7) / 8 + 1];
        rand.NextBytes(value);
        value[value.Length - 1] = 0;
        return new BigInteger(value);
    }
}

在.NET 4.7中,會得到以下輸出結果:

000005.6024158

.NET Core 2.0上的相同代碼會得到輸出結果如下:

000001.2707089

這是開發人員只關注.NET的某個特定領域的一個很好的例子,開發人員使得這種改進更好的滿足了自己的需求,同時也滿足了可能會用到這方面功能的其他開發人員的需求。

一些核心的整型類型的數學運算也得到了改進。例如:

using System;
using System.Diagnostics;
public class Test
{
    private static long a = 99, b = 10, div, rem;

    public static void Main()
    {
        var sw = Stopwatch.StartNew();
        for (int i = 0; i < 100_000_000; i++)
        {
            div = Math.DivRem(a, b, out rem);
        }
        Console.WriteLine(sw.Elapsed);
    }
}

PR dotnet / coreclr#8125用更快的實現取代了DivRem,在.NET 4.7中會得到的如下結果:

000001.4143100

并在.NET Core 2.0上得到如下結果:

000000.7469733

吞吐量提高約2倍。

 

序列化

二進制序列化是.NET的另一個領域。BinaryFormatter最初并不是.NET Core中的一個組件,但是它包含在.NET Core 2.0中。該組件在性能方面有比較巧妙的修復。例如,PR dotnet / corefx#17949是一種單行修復,可以增加允許增長的最大大小的特定數組,但是這一變化可能對吞吐量產生重大影響,通過O(N)算法比以前的O(N ^ 2)算法要話費更長的操作時間。以下代碼示例,明顯的展示了這一點:

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.IO;
using System.Runtime.Serialization.Formatters.Binary;
class Test
{
    static void Main()
    {
        var books = new List<Book>();
        for (int i = 0; i < 1_000_000; i++)
        {
            string id = i.ToString();
            books.Add(new Book { Name = id, Id = id });
        }

        var formatter = new BinaryFormatter();
        var mem = new MemoryStream();
        formatter.Serialize(mem, books);
        mem.Position = 0;

        var sw = Stopwatch.StartNew();
        formatter.Deserialize(mem);
        sw.Stop();

        Console.WriteLine(sw.Elapsed.TotalSeconds);
    }

    [Serializable]
    private class Book
    {
        public string Name;
        public string Id;
    }
}

在.NET 4.7中,代碼輸出如下結果:

76.677144

而在.NET Core 2.0中,會輸出如下結果:

6.4044694

在這種情況下顯示出了12倍的吞吐量提高。換句話說,它能夠更有效地處理巨大的序列化輸入。

 

文字處理

.NET應用程序中另一種很常見的計算形式就是處理文本,文字處理在堆棧的各個層次上都有大量的改進。

對于正則表達式,通常用于驗證和解析輸入文本中的數據。以下是使用Regex.IsMatch重復匹配電話號碼的示例:

using System;
using System.Diagnostics;
using System.Text.RegularExpressions;
public class Test
{
    public static void Main()
    {
        var sw = new Stopwatch();
        int gen0 = GC.CollectionCount(0);
        sw.Start();

        for (int i = 0; i < 10_000_000; i++)
        {
            Regex.IsMatch("555-867-5309", @"^\d{3}-\d{3}-\d{4}$");
        }

        Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0}");
    }
}

在個人計算機上,.NET 4.7會得到的如下結果:

Elapsed=00:00:05.4367262 Gen0=820 Gen1=0 Gen2=0

而使用.NET Core 2.0會得到如下結果:

Elapsed=00:00:04.0231373 Gen0=248

由于PR dotnet / corefx#231的變化很小,這些修改有助于緩存一部分數據,因此吞吐量提高了25%,分配/垃圾收集減少了70%。

文本處理的另一個例子是各種形式的編碼和解碼,例如通過WebUtility.UrlDecode進行URL解碼。在這種解碼方法中,通常情況下輸入不需要任何解碼,但是如果輸入經過了解碼器,則輸入仍然可以通過。感謝來自hughbe的 PR dotnet / corefx#7671,這種情況已經被優化了。例如下面這段程序:

using System;
using System.Diagnostics;
using System.Net;
public class Test
{
    public static void Main()
    {
        var sw = new Stopwatch();
        int gen0 = GC.CollectionCount(0);
        sw.Start();

        for (int i = 0; i < 10_000_000; i++)
        {
            WebUtility.UrlDecode("abcdefghijklmnopqrstuvwxyz");
        }

        Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0}");
    }
}

在.NET 4.7中,會得到以下輸出:

Elapsed=00:00:01.6742583 Gen0=648

而在.NET Core 2.0中,輸出如下:

Elapsed=00:00:01.2255288 Gen0=133

其他形式的編碼和解碼也得到了改進。例如,dotnet / coreclr#10124優化了使用一些內置Encoding -derived類型的循環。例如下面的示例:

using System;
using System.Diagnostics;
using System.Linq;
using System.Text;
public class Test
{
    public static void Main()
    {
        string s = new string(Enumerable.Range(0, 1024).Select(i => (char)('a' + i)).ToArray());
        while (true)
        {
            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 1_000_000; i++)
            {
                byte[] data = Encoding.UTF8.GetBytes(s);
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中得到以下輸出,如:

000002.4028829 
000002.3743152 
000002.3401392 
000002.4024785 
000002.3550876

而.NET Core 2.0等到如下輸出:

000001.6133550 
000001.5915718 
000001.5759625 
000001.6070851 
000001.6070767

這些改進也適用于字符串和其它類型之間轉換,例如.NET中生成Parse和ToString方法。使用枚舉來表示各種狀態是相當普遍的,例如使用Enum.Parse將字符串解析為相應的枚舉。PR dotnet / coreclr#2933改善了這一點。請查看以下的代碼:

using System;
using System.Diagnostics;
public class Test
{
    public static void Main()
    {
        while (true)
        {
            var sw = new Stopwatch();
            int gen0 = GC.CollectionCount(0);
            sw.Start();

            for (int i = 0; i < 2_000_000; i++)
            {
                Enum.Parse(typeof(Colors), "Red, Orange, Yellow, Green, Blue");
            }

            Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0}");
        }
    }

    [Flags]
    private enum Colors
    {
        Red = 0x1,
        Orange = 0x2,
        Yellow = 0x4,
        Green = 0x8,
        Blue = 0x10
    }
}

在.NET 4.7中,會得到的以下結果:

Elapsed=00:00:00.9529354 Gen0=293
Elapsed=00:00:00.9422960 Gen0=294
Elapsed=00:00:00.9419024 Gen0=294
Elapsed=00:00:00.9417014 Gen0=294
Elapsed=00:00:00.9514724 Gen0=293

在.NET Core 2.0上,會得到以下結果:

Elapsed=00:00:00.6448327 Gen0=11
Elapsed=00:00:00.6438907 Gen0=11
Elapsed=00:00:00.6285656 Gen0=12
Elapsed=00:00:00.6286561 Gen0=11
Elapsed=00:00:00.6294286 Gen0=12

不但吞吐量提高了約33%,而且分配和相關垃圾收集也減少了約25倍。

當然,在.NET應用程序中需要進行大量的自定義文本處理,除了使用像Regex / Encoding這樣的內置類型和Parse和ToString這樣的內置操作之外,文本操作通常都是直接構建在字符串之上,并且大量的改進已經引入到了操作on String之上。

例如,String.IndexOf很擅長于查找字符串中的字符。IndexOfbnetyersmyth的dotnet / coreclr#5327中得到改進,他們為String實現了一系列的性能改進。正如下面的例子:

using System;
using System.Diagnostics;
public class Test
{
    public static void Main()
    {
        var dt = DateTime.Now;
        while (true)
        {
            var sw = new Stopwatch();
            int gen0 = GC.CollectionCount(0);
            sw.Start();

            for (int i = 0; i < 2_000_000; i++)
            {
                dt.ToString("o");
                dt.ToString("r");
            }

            Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0}");
        }
    }
}

在.NET 4.7上,會得到如下結果:

000005.9718129 
000005.9199793 
000006.0203108 
000005.9458049 
000005.9622262

而在.NET Core 2.0中,會得到如下結果:

000003.1283763 
000003.0925150 
000002.9778923 
000003.0782851

吞吐量提高約2倍。

下面是比較字符串部分。這是一個使用String.StartsWith和序數比較的例子: 

using System;
using System.Diagnostics;
using System.Linq;
public class Test
{
    public static void Main()
    {
        string s = string.Concat(Enumerable.Repeat("a", 100)) + "b";
        while (true)
        {
            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 100_000_000; i++)
            {
                s.IndexOf('b');
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7上會得到如下結果:

000001.3097317 
000001.3072381 
000001.3045015 
000001.3068244 
000001.3210207

.NET Core 2.0會得到如下結果:

000000.6239002 
000000.6150021 
000000.6147173 
000000.6129136 
000000.6099822

String的改進,也讓我們看到對于其它方面進行更多改進的可能性,這是非常有趣的。

 

文件系統

到目前為止,本文一直專注于內存中操縱數據的各種改進。但是.NET Core的許多更改都是​​關于I / O的。

下面從文件開始介紹。這是一個從文件中異步讀取所有數據并將其寫入另一個文件的示例:

using System;
using System.Diagnostics;
using System.IO;
using System.Threading.Tasks;
class Test
{
    static void Main() => MainAsync().GetAwaiter().GetResult();
    static async Task MainAsync()
    {
        string inputPath = Path.GetTempFileName(), outputPath = Path.GetTempFileName();
        byte[] data = new byte[50_000_000];
        new Random().NextBytes(data);
        File.WriteAllBytes(inputPath, data);

        var sw = new Stopwatch();
        int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
        sw.Start();

        for (int i = 0; i < 100; i++)
        {
            using (var input = new FileStream(inputPath, FileMode.Open, FileAccess.Read, FileShare.Read, 0x1000, useAsync: true))
            using (var output = new FileStream(outputPath, FileMode.Create, FileAccess.ReadWrite, FileShare.None, 0x1000, useAsync: true))
            {
                await input.CopyToAsync(output);
            }
        }

        Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
    }
}

 

FileStream中的開銷也在進一步減少,例如DOTNET / corefx#11569增加了一個專門的CopyToAsync實現,dotnet/ corefx#2929也改進了異步寫入的處理,.NET 4.7會得到如下結果:

Elapsed=00:00:09.4070345 Gen0=14 Gen1=7 Gen2=1

.NET Core 2.0會得到如下結果:

Elapsed=00:00:06.4286604 Gen0=4 Gen1=1 Gen2=1

 

網絡

網絡是值得關注的部分,這部分也將取得很大的改進。目前正在付出很大的努力來優化和調整低等級的網絡堆棧,以便高效地構建更高級別的組件。

這種改變帶來的一個很大的影響是PR dotnet / corefx#15141SocketAsyncEventArgsSocket上大量異步操作的核心,它支持同步完成模型,因此異步操作實際完成了同步操作,這樣避免了異步操作的分配消耗。但是,.NET 4.7中的同步操作運算是失敗的, PR修復了上述的實現問題,允許在socket上進行所有異步操作的同步完成。這樣的提升在以下代碼中變現的非常明顯:

using System;
using System.Diagnostics;
using System.Net;
using System.Net.Sockets;
using System.Threading;
using System.Threading.Tasks;
class Test
{
    static void Main()
    {
        using (Socket listener = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp))
        using (Socket client = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp))
        {
            listener.Bind(new IPEndPoint(IPAddress.Loopback, 0));
            listener.Listen(1);

            Task connectTask = Task.Run(() => client.Connect(listener.LocalEndPoint));
            using (Socket server = listener.Accept())
            {
                connectTask.Wait();

                using (var clientAre = new AutoResetEvent(false))
                using (var clientSaea = new SocketAsyncEventArgs())
                using (var serverAre = new AutoResetEvent(false))
                using (var serverSaea = new SocketAsyncEventArgs())
                {
                    byte[] sendBuffer = new byte[1000];
                    clientSaea.SetBuffer(sendBuffer, 0, sendBuffer.Length);
                    clientSaea.Completed += delegate { clientAre.Set(); };

                    byte[] receiveBuffer = new byte[1000];
                    serverSaea.SetBuffer(receiveBuffer, 0, receiveBuffer.Length);
                    serverSaea.Completed += delegate { serverAre.Set(); };

                    var sw = new Stopwatch();
                    int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
                    sw.Start();

                    for (int i = 0; i < 1_000_000; i++)
                    {
                        if (client.SendAsync(clientSaea)) clientAre.WaitOne();
                        if (clientSaea.SocketError != SocketError.Success) throw new SocketException((int)clientSaea.SocketError);

                        if (server.ReceiveAsync(serverSaea)) serverAre.WaitOne();
                        if (serverSaea.SocketError != SocketError.Success) throw new SocketException((int)clientSaea.SocketError);
                    }

                    Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
                }
            }
        }
    }
}

該程序創建兩個連接的socket,然后向socket寫入1000次,并且在案例中使用異步方法接收,但絕大多數操作將同步完成。在.NET 4.7中會得到如下結果:

Elapsed=00:00:20.5272910 Gen0=42 Gen1=2 Gen2=0

在.NET Core 2.0中,大多數操作能夠同步完成,得到如下結果:

Elapsed=00:00:05.6197060 Gen0=0 Gen1=0 Gen2=0

不僅僅是直接使用socket來實現組件的這種改進,而且還通過更高級別的組件來間接使用socket,其他PR的結果是更高級別組件(如NetworkStream)的額外性能提升。例如,PR dotnet / corefx#16502在SocketAsyncEventArgs上重新實現了基于Socket的SendAsync和ReceiveAsync操作,并且允許它們在NetworkStream中使用Read / WriteAsync和PR dotnet / corefx#12664添加了一個專門的CopyToAsync重寫,以便更有效地從NetworkStream讀取數據并將其復制到其他流中。這些變化對NetworkStream吞吐量和分配有非常大的影響。看看下面這個例子:

using System;
using System.Diagnostics;
using System.IO;
using System.Net;
using System.Net.Sockets;
using System.Threading;
using System.Threading.Tasks;
class Test
{
    static void Main() => MainAsync().GetAwaiter().GetResult();
    static async Task MainAsync()
    {
        using (Socket listener = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp))
        using (Socket client = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp))
        {
            listener.Bind(new IPEndPoint(IPAddress.Loopback, 0));
            listener.Listen(1);

            Task connectTask = Task.Run(() => client.Connect(listener.LocalEndPoint));
            using (Socket server = listener.Accept())
            {
                await connectTask;

                using (var serverStream = new NetworkStream(server))
                using (var clientStream = new NetworkStream(client))
                {
                    Task serverCopyAll = serverStream.CopyToAsync(Stream.Null);

                    byte[] data = new byte[1024];
                    new Random().NextBytes(data);

                    var sw = new Stopwatch();
                    int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
                    sw.Start();

                    for (int i = 0; i < 1_000_000; i++)
                    {
                        await clientStream.WriteAsync(data, 0, data.Length);
                    }
                    client.Shutdown(SocketShutdown.Send);
                    serverCopyAll.Wait();
                    sw.Stop();

                    Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
                }
            }
        }
    }
}

與之前的Socket一樣,下面我們創建兩個連接的socket,然后把它們包含在NetworkStream中。在其中一個流中,我們將1K數據寫入一百萬次,而另一個流則通過CopyToAsync操作讀出所有數據。在.NET 4.7中,會得到如下輸出:

Elapsed = 000024.7827947 Gen0 = 220 Gen1 = 3 Gen2 = 0

而在.NET Core 2.0中,時間減少了5倍,垃圾回收有效地減少到零:

Elapsed=00:00:05.6456073 Gen0=74 Gen1=0 Gen2=0

其它網絡相關組件也將得到進一步優化。例如SslStream通常將圍繞在NetworkStream中,以便向連接中添加SSL。下面的示例將看到這種影響,這個示例將在NetworkStream之上添加SslStream的用法:

using System;
using System.Diagnostics;
using System.Threading;
class Test
{
    static void Main()
    {
        while (true)
        {
            int remaining = 20_000_000;
            var mres = new ManualResetEventSlim();
            WaitCallback wc = null;
            wc = delegate
            {
                if (Interlocked.Decrement(ref remaining) <= 0) mres.Set();
                else ThreadPool.QueueUserWorkItem(wc);
            };

            var sw = new Stopwatch();
            int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
            sw.Start();

            for (int i = 0; i < Environment.ProcessorCount; i++) ThreadPool.QueueUserWorkItem(wc);
            mres.Wait();

            Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
        }
    }
}

在.NET 4.7中,會得到如下結果:

Elapsed=00:00:21.1171962 Gen0=470 Gen1=3 Gen2=1

.NET Core 2.0包含了諸如dotnet / corefx#12935dotnet / corefx#13274等PR的改進,這兩者都將大大減少了使用SslStream所涉及的分配。在.NET Core 2.0上運行相同的代碼時,會得到如下結果:

Elapsed=00:00:05.6456073 Gen0=74 Gen1=0 Gen2=0

85%的垃圾收集已被刪除!

 

并發

對于并發和并行性相關的原始化和基礎部分,也得到了許多改進。

這里的一個關鍵點是ThreadPool,它是執行許多.NET應用程序的核心。例如,PR dotnet / coreclr#3157減少了QueueUserWorkItem中涉及的某些對象的大小,PR dotnet / coreclr#9234使用了ConcurrentQueue <T>重寫來替換ThreadPool的全局隊列,其中會用到較少的同步和分配。從以下的示例中,會看到最終結果: 

using System;
using System.Diagnostics;
using System.Threading;
class Test
{
    static void Main()
    {
        while (true)
        {
            int remaining = 20_000_000;
            var mres = new ManualResetEventSlim();
            WaitCallback wc = null;
            wc = delegate
            {
                if (Interlocked.Decrement(ref remaining) <= 0) mres.Set();
                else ThreadPool.QueueUserWorkItem(wc);
            };

            var sw = new Stopwatch();
            int gen0 = GC.CollectionCount(0), gen1 = GC.CollectionCount(1), gen2 = GC.CollectionCount(2);
            sw.Start();

            for (int i = 0; i < Environment.ProcessorCount; i++) ThreadPool.QueueUserWorkItem(wc);
            mres.Wait();

            Console.WriteLine($"Elapsed={sw.Elapsed} Gen0={GC.CollectionCount(0) - gen0} Gen1={GC.CollectionCount(1) - gen1} Gen2={GC.CollectionCount(2) - gen2}");
        }
    }
}

在.NET 4.7中,會等到如下結果:

Elapsed=00:00:03.6263995 Gen0=225 Gen1=51 Gen2=16
Elapsed=00:00:03.6304345 Gen0=231 Gen1=62 Gen2=17
Elapsed=00:00:03.6142323 Gen0=225 Gen1=53 Gen2=16
Elapsed=00:00:03.6565384 Gen0=232 Gen1=62 Gen2=16
Elapsed=00:00:03.5999892 Gen0=228 Gen1=62 Gen2=17

而在.NET Core 2.0中,會得到如下結果:

Elapsed=00:00:02.1797508 Gen0=153 Gen1=0 Gen2=0
Elapsed=00:00:02.1188833 Gen0=154 Gen1=0 Gen2=0
Elapsed=00:00:02.1000003 Gen0=153 Gen1=0 Gen2=0
Elapsed=00:00:02.1024852 Gen0=153 Gen1=0 Gen2=0
Elapsed=00:00:02.1044461 Gen0=154 Gen1=1 Gen2=0

這是一個巨大的吞吐量的改善,并且這樣一個核心組件的垃圾量也將大幅減少。

同步原語也在.NET Core中得到提升。例如,低級并發代碼通常使用SpinLock來嘗試避免分配鎖定對象或最小化競爭鎖所花費的時間。PR dotnet / coreclr#6952改進了失敗的快速路徑,以下測試會得到顯而易見的結果:

using System;
using System.Diagnostics;
using System.Threading;
class Test
{
    static void Main()
    {
        while (true)
        {
            bool taken = false;
            var sl = new SpinLock(false);
            sl.Enter(ref taken);

            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 100_000_000; i++)
            {
                taken = false;
                sl.TryEnter(0, ref taken);
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到如下結果:

00:00:02.3276463
00:00:02.3174042
00:00:02.3022212
00:00:02.3015542
00:00:02.2974777

 

而在.NET Core 2.0中,會得到如下結果:

000000.3915327 
000000.3953084 
000000.3875121 
000000.3980009 
000000.3886977

吞吐量的這種差異可能會對運行這種鎖的熱路徑產生很大的影響。

這只是眾多例子中的一個。另一個例子圍繞著Lazy<T>,它被PR dotnet / coreclr#8963manofstick重寫,以便提高訪問初始化過的Lazy <T>的效率。這樣的提升效果從下面的示例中清晰可見:

using System;
using System.Diagnostics;
class Test
{
    static int s_result;

    static void Main()
    {
        while (true)
        {
            var lazy = new Lazy<int>(() => 42);
            s_result = lazy.Value;

            var sw = Stopwatch.StartNew();
            for (int i = 0; i < 1_000_000_000; i++)
            {
                s_result = lazy.Value;
            }
            Console.WriteLine(sw.Elapsed);
        }
    }
}

在.NET 4.7中,會得到的結果如下:

000002.6769712 
000002.6789140 
000002.6535493 
000002.6911146 
000002.7253927

而在.NET Core 2.0中,會得到的結果如下:

000000.5278348 
000000.5594950 
000000.5458245 
000000.5381743 
000000.5502970

吞吐量增加約5倍。

 

下一步是什么

本文只涉及了部分.NET Core的性能改進。在dotnet / corefxdotnet / coreclr repos 中的pull請求中搜索“perf”或“performance”,你會發現接近一千個合并的PR改進。其中一些是比較大的同時也很有影響力的改進,而另一些則主要減少了庫和運行時的消耗,這些變化一起起作用,保證了能夠在.NET Core上更快的運行應用程序。展望未來,性能將成為關注的重點,無論是以性能改進為目標的API還是現有庫的性能的改進。

歡迎大家深入了解.NET Core代碼庫,以便找到影響自己的應用程序和庫的瓶頸,并提交PR來修復它們。如果你的問題得到修復,也請將修復程序分享給所有需要的人。

原文鏈接:https://blogs.msdn.microsoft.com/dotnet/2017/06/07/performance-improvements-in-net-core/

轉載請注明出自:葡萄城控件

 

相關閱讀:

【報表福利大放送】100余套報表模板免費下載

Visual Studio 2017正式版發布全紀錄

從Visual Studio看微軟20年技術變遷

Visual Studio 20周年,我和VS不得不說的故事

 


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()