清理收藏夹 - 滴滴嘟嘟博客

下面的代码是gemini生成的，基本满足了我的要求，但是其实上还是有很多无效的页面没有被去掉，比如有的网站已经出售，有的网站只有一个页面，不是当时的页面了，不过由于自己的收藏乱七八糟，还是比较有效的过滤了好几千个。

还要说明的是，用c#的这个代码，使用下面的设置，然后发布的时候，可以让最后生成的可执行文件从60多兆缩减到6兆。主要是true这行。

最后生成的清理过的文件是html文件，需要将当前的收藏夹清空，然后再导入这个html文件就好了。

如果不喜欢使用收藏夹，也有可以直接将这个文件作为页面来看待。

1
<Project Sdk="Microsoft.NET.Sdk">
2

3

4

5
<PropertyGroup>
6

7
<OutputType>Exe</OutputType>
8

9
<TargetFramework>net8.0</TargetFramework>
10

11
<ImplicitUsings>enable</ImplicitUsings>
12

13
<Nullable>enable</Nullable>
14

15

16

17
<PublishAot>true</PublishAot>
18

19

20

21
<StripSymbols>true</StripSymbols>
22

23
</PropertyGroup>
24

25

26

27
</Project>

下面是Program.cs代码：

1
using System;
2
using System.Collections.Concurrent;
3
using System.Collections.Generic;
4
using System.IO;
5
using System.Linq;
6
using System.Net.Http;
7
using System.Text;
8
using System.Text.Json;
9
using System.Text.Json.Nodes;
10
using System.Threading;
11
using System.Threading.Tasks;
12

13
namespace BookmarkCleaner
14
{
15
    class Program
16
    {
17
        // 配置：并发线程数
18
        private const int MaxConcurrency = 50;
19
        // 配置：超时时间（秒）
20
        private const int TimeoutSeconds = 10;
21

22
        // HTTP 客户端 (单例)
23
        private static readonly HttpClient _httpClient = new HttpClient(new HttpClientHandler
24
        {
25
            AllowAutoRedirect = true, // 允许重定向
26
            CheckCertificateRevocationList = false,
27
            ServerCertificateCustomValidationCallback = (message, cert, chain, errors) => true // 忽略SSL错误（很多旧网站证书过期但内容还在）
28
        })
29
        {
30
            Timeout = TimeSpan.FromSeconds(TimeoutSeconds)
31
        };
32

33
        static async Task Main(string[] args)
34
        {
35
            Console.OutputEncoding = Encoding.UTF8;
36
            _httpClient.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36");
37

38
            Console.WriteLine("==========================================");
39
            Console.WriteLine("    Chrome/Edge 收藏夹强力清理工具");
40
            Console.WriteLine("==========================================");
41

42
            // 1. 自动寻找路径
43
            var bookmarkPaths = GetBookmarkPaths();
44
            if (bookmarkPaths.Count == 0)
45
            {
46
                Console.WriteLine("未找到 Chrome 或 Edge 的收藏夹文件。");
47
                return;
48
            }
49

50
            Console.WriteLine("检测到以下收藏夹文件：");
51
            for (int i = 0; i < bookmarkPaths.Count; i++)
52
            {
53
                Console.WriteLine($"{i + 1}. {bookmarkPaths[i].Browser}: {bookmarkPaths[i].Path}");
54
            }
55

56
            Console.Write("\n请输入要处理的序号 (例如 1): ");
57
            if (!int.TryParse(Console.ReadLine(), out int choice) || choice < 1 || choice > bookmarkPaths.Count)
58
            {
59
                Console.WriteLine("输入无效。");
60
                return;
61
            }
62

63
            var selected = bookmarkPaths[choice - 1];
64

65
            // 2. 读取并解析 JSON
66
            Console.WriteLine($"\n正在读取文件: {selected.Path}...");
67
            string jsonString = await File.ReadAllTextAsync(selected.Path);
68

69
            // 使用 System.Text.Json 解析为可变的 JsonNode
70
            var rootNode = JsonNode.Parse(jsonString);
71
            var roots = rootNode?["roots"]?.AsObject();
72

73
            if (roots == null)
74
            {
75
                Console.WriteLine("无法解析收藏夹结构。");
76
                return;
77
            }
78

79
            // 3. 收集所有 URL 节点
80
            var allUrlNodes = new List<UrlItem>();
81
            CollectUrls(roots, allUrlNodes);
82
            Console.WriteLine($"共发现 {allUrlNodes.Count} 个书签。准备开始检测...");
83

84
            // 4. 多线程检测
85
            var processedCount = 0;
86
            var invalidCount = 0;
87
            var lockObj = new object();
88

89
            Console.WriteLine($"\n启动 {MaxConcurrency} 线程进行极速检测...\n");
90

91
            var options = new ParallelOptions { MaxDegreeOfParallelism = MaxConcurrency };
92
            await Parallel.ForEachAsync(allUrlNodes, options, async (item, token) =>
93
            {
94
                bool isValid = await CheckUrlAsync(item.Url);
95

96
                lock (lockObj)
97
                {
98
                    processedCount++;
99
                    if (!isValid)
100
                    {
101
                        invalidCount++;
102
                        item.IsValid = false; // 标记为无效
103
                        // 实时打印失败的链接（可选）
104
                        // Console.WriteLine($"[无效] {item.Url}");
105
                    }
106

107
                    // 简单的进度条
108
                    if (processedCount % 10 == 0 || processedCount == allUrlNodes.Count)
109
                    {
110
                        Console.Write($"\r进度: {processedCount}/{allUrlNodes.Count} | 已发现无效: {invalidCount}   ");
111
                    }
112
                }
113
            });
114

115
            Console.WriteLine($"\n\n检测完成！共删除 {invalidCount} 个无效链接。");
116

117
            // 5. 从 JSON 树中移除无效节点
118
            Console.WriteLine("正在重组收藏夹结构...");
119
            RemoveInvalidNodes(roots, allUrlNodes);
120

121
            // 6. 导出为 HTML
122
            string exportFileName = $"{selected.Browser}_Cleaned_{DateTime.Now:yyyyMMdd_HHmmss}.html";
123
            string exportPath = Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), exportFileName);
124

125
            Console.WriteLine("正在生成 HTML 文件...");
126
            ExportToHtml(roots, exportPath);
127

128
            Console.WriteLine("==========================================");
129
            Console.WriteLine($"✅ 成功！文件已导出到桌面：");
130
            Console.WriteLine(exportPath);
131
            Console.WriteLine("您可以打开浏览器 -> 收藏夹管理 -> 导入书签，选择此文件。");
132
            Console.WriteLine("==========================================");
133
            Console.ReadKey();
134
        }
135

136
        // ---------------- 核心逻辑方法 ----------------
137

138
        // 检查 URL 有效性
139
        static async Task<bool> CheckUrlAsync(string url)
140
        {
141
            // 过滤非 HTTP 协议（如 javascript:, file:, chrome:）
142
            if (!url.StartsWith("http", StringComparison.OrdinalIgnoreCase)) return true;
143

144
            try
145
            {
146
                // 先尝试 HEAD 请求 (省流量)
147
                var request = new HttpRequestMessage(HttpMethod.Head, url);
148
                using var response = await _httpClient.SendAsync(request);
149

150
                if (response.IsSuccessStatusCode) return true;
151

152
                // 如果 HEAD 失败 (有些服务器不支持)，再尝试 GET
153
                using var getResponse = await _httpClient.GetAsync(url);
154

155
                // 检查状态码
156
                if (!getResponse.IsSuccessStatusCode) return false;
157

158
                // 检查内容长度 (如果连接成功但内容为空)
159
                // 注意：有些动态网站 Content-Length 可能为 null，需谨慎判断
160
                if (getResponse.Content.Headers.ContentLength.HasValue && getResponse.Content.Headers.ContentLength < 50)
161
                {
162
                    // 这里是个简单的启发式判断：如果页面小于 50 字节，可能是有问题的
163
                    return false;
164
                }
165

166
                return true;
167
            }
168
            catch
169
            {
170
                return false; // 超时、DNS解析失败、连接被拒绝
171
            }
172
        }
173

174
        // 递归收集 URL
175
        static void CollectUrls(JsonObject node, List<UrlItem> collection)
176
        {
177
            foreach (var property in node)
178
            {
179
                var childNode = property.Value;
180
                if (childNode is JsonObject obj)
181
                {
182
                    // 检查是否是文件夹还是具体的 URL 条目
183
                    if (obj.ContainsKey("type") && obj["type"]?.GetValue<string>() == "url")
184
                    {
185
                        string url = obj["url"]?.GetValue<string>() ?? "";
186
                        string id = obj["id"]?.GetValue<string>() ?? Guid.NewGuid().ToString();
187

188
                        if (!string.IsNullOrEmpty(url))
189
                        {
190
                            collection.Add(new UrlItem { Url = url, JsonRef = obj, IsValid = true, Id = id });
191
                        }
192
                    }
193
                    // 如果有 children 属性，说明是文件夹，继续递归
194
                    else if (obj.ContainsKey("children") && obj["children"] is JsonArray children)
195
                    {
196
                        foreach (var child in children)
197
                        {
198
                            if (child is JsonObject childObj)
199
                            {
200
                                // 这里需要构造一个临时的父节点结构来递归，或者直接针对 children 数组递归
201
                                // 由于 JsonNode API 的特性，我们直接对数组里的对象递归即可
202
                                // 但为了复用 CollectUrls 方法，我们需要判断
203
                                CollectUrlsRecursion(childObj, collection);
204
                            }
205
                        }
206
                    }
207
                    else
208
                    {
209
                        // 继续遍历其他可能的嵌套
210
                        CollectUrls(obj, collection);
211
                    }
212
                }
213
            }
214
        }
215

216
        static void CollectUrlsRecursion(JsonObject obj, List<UrlItem> collection)
217
        {
218
            if (obj.ContainsKey("type") && obj["type"]?.GetValue<string>() == "url")
219
            {
220
                string url = obj["url"]?.GetValue<string>() ?? "";
221
                if (!string.IsNullOrEmpty(url))
222
                {
223
                    collection.Add(new UrlItem { Url = url, JsonRef = obj, IsValid = true });
224
                }
225
            }
226
            else if (obj.ContainsKey("children") && obj["children"] is JsonArray children)
227
            {
228
                foreach (var child in children)
229
                {
230
                    if (child is JsonObject childObj) CollectUrlsRecursion(childObj, collection);
231
                }
232
            }
233
        }
234

235
        // 移除无效节点
236
        static void RemoveInvalidNodes(JsonObject roots, List<UrlItem> items)
237
        {
238
            // 建立一个待删除的 Set
239
            var invalidItems = items.Where(x => !x.IsValid).ToHashSet();
240

241
            // 定义递归移除函数
242
            void Prune(JsonNode node)
243
            {
244
                if (node is JsonObject obj && obj.ContainsKey("children") && obj["children"] is JsonArray children)
245
                {
246
                    // 倒序遍历以便删除
247
                    for (int i = children.Count - 1; i >= 0; i--)
248
                    {
249
                        var child = children[i];
250
                        if (child is JsonObject childObj)
251
                        {
252
                            // 如果是 URL 节点
253
                            if (childObj["type"]?.GetValue<string>() == "url")
254
                            {
255
                                // 检查这个节点是否在无效列表中
256
                                // 这里我们通过对象引用的相等性来判断，或者比对 URL
257
                                // 由于我们在 Collect 时保存了 JsonRef，直接比对引用最准确
258
                                var isInvalid = invalidItems.Any(x => x.JsonRef == childObj);
259
                                if (isInvalid)
260
                                {
261
                                    children.RemoveAt(i);
262
                                }
263
                            }
264
                            else
265
                            {
266
                                // 是文件夹，递归进去
267
                                Prune(childObj);
268
                            }
269
                        }
270
                    }
271
                }
272

273
                // 遍历 roots 下的顶层节点 (bookmark_bar, other, synced)
274
                if (node == roots)
275
                {
276
                    foreach (var kvp in roots)
277
                    {
278
                        if (kvp.Value is JsonObject rootChild) Prune(rootChild);
279
                    }
280
                }
281
            }
282

283
            Prune(roots);
284
        }
285

286
        // 导出为 HTML (Netscape Bookmark Format)
287
        static void ExportToHtml(JsonObject roots, string outputPath)
288
        {
289
            var sb = new StringBuilder();
290
            sb.AppendLine("<!DOCTYPE NETSCAPE-Bookmark-file-1>");
291
            sb.AppendLine("");
292
            sb.AppendLine("<META HTTP-EQUIV=\"Content-Type\" CONTENT=\"text/html; charset=UTF-8\">");
293
            sb.AppendLine("<TITLE>Bookmarks</TITLE>");
294
            sb.AppendLine("<H1>Bookmarks</H1>");
295
            sb.AppendLine("<DL><p>");
296

297
            // 定义递归写入 HTML
298
            void WriteNode(JsonNode node)
299
            {
300
                if (node is JsonObject obj)
301
                {
302
                    string type = obj["type"]?.GetValue<string>();
303
                    string name = obj["name"]?.GetValue<string>() ?? "Untitled";
304

305
                    if (type == "url")
306
                    {
307
                        string url = obj["url"]?.GetValue<string>() ?? "#";
308
                        sb.AppendLine($"<DT><A HREF=\"{url}\">{System.Net.WebUtility.HtmlEncode(name)}</A>");
309
                    }
310
                    else // 文件夹
311
                    {
312
                        // 根节点处理 (bookmark_bar 等) 没有 type 属性，或者 type 是 folder
313
                        // 或者是 roots 的直接子节点
314
                        sb.AppendLine($"<DT><H3>{System.Net.WebUtility.HtmlEncode(name)}</H3>");
315
                        sb.AppendLine("<DL><p>");
316

317
                        if (obj["children"] is JsonArray children)
318
                        {
319
                            foreach (var child in children) WriteNode(child);
320
                        }
321

322
                        sb.AppendLine("</DL><p>");
323
                    }
324
                }
325
            }
326

327
            // 处理主要的几个根目录
328
            var folders = new[] { "bookmark_bar", "other", "synced" };
329
            foreach (var folderKey in folders)
330
            {
331
                if (roots.ContainsKey(folderKey) && roots[folderKey] is JsonObject folderNode)
332
                {
333
                    // 顶层文件夹通常不想显示 "bookmark_bar" 这种名字，可以做个映射，也可以直接递归
334
                    // 为了结构好看，我们直接递归其 children，把它们放在最外层，或者保留文件夹结构
335
                    // 这里选择保留文件夹结构
336
                    WriteNode(folderNode);
337
                }
338
            }
339

340
            sb.AppendLine("</DL><p>");
341
            File.WriteAllText(outputPath, sb.ToString());
342
        }
343

344
        static List<(string Browser, string Path)> GetBookmarkPaths()
345
        {
346
            var list = new List<(string, string)>();
347
            var localAppData = Environment.GetFolderPath(Environment.SpecialFolder.LocalApplicationData);
348

349
            // Chrome
350
            string chromePath = Path.Combine(localAppData, @"Google\Chrome\User Data\Default\Bookmarks");
351
            if (File.Exists(chromePath)) list.Add(("Google Chrome", chromePath));
352

353
            // Edge
354
            string edgePath = Path.Combine(localAppData, @"Microsoft\Edge\User Data\Default\Bookmarks");
355
            if (File.Exists(edgePath)) list.Add(("Microsoft Edge", edgePath));
356

357
            return list;
358
        }
359

360
        class UrlItem
361
        {
362
            public string Id { get; set; }
363
            public string Url { get; set; }
364
            public JsonObject JsonRef { get; set; } // 保持对原始 JSON 对象的引用以便删除
365
            public bool IsValid { get; set; }
366
        }
367
    }
368
}