Chia Sẻ Tool Crawl Dữ Liệu Từ Tiki.vn Bằng C#
By Huy Nguyễn
116 views
0 likes
2 comments
10/10 rate
Trong thời đại số hiện nay, việc thu thập và phân tích dữ liệu từ các trang thương mại điện tử như Tiki.vn trở nên quan trọng hơn bao giờ hết.
Việc có trong tay một công cụ có thể crawl (thu thập) dữ liệu từ các trang web này không chỉ giúp bạn tiết kiệm thời gian mà còn mở ra nhiều cơ hội cho các nghiên cứu và phân tích thị trường.
Trong bài viết này, ProG Coder sẽ giới thiệu đến các bạn một tool được viết bằng C# có khả năng crawl dữ liệu từ Tiki.vn và lưu trữ vào cơ sở dữ liệu SQL Server.
Trước khi bắt đầu, bạn cần đảm bảo rằng hệ thống của mình đã được cài đặt những phần mềm sau:
Nếu bạn chưa cài đặt các phần mềm này, hãy truy cập vào trang chính thức của Microsoft để tải về và cài đặt.
Tool này được phát triển với các chức năng chính sau:
Crawl Dữ Liệu: Tool sẽ truy cập vào các trang sản phẩm trên Tiki.vn và thu thập thông tin như tên sản phẩm, giá cả, mô tả...
Lưu Dữ Liệu Vào Database: Sau khi thu thập, dữ liệu sẽ được lưu vào SQL Server, giúp bạn dễ dàng quản lý và phân tích sau này.
Tool cho phép người dùng đưa ra nhiều lựa chọn khác nhau để crawl sản phẩm ví dụ như crawl theo tên, theo danh mục sản phẩm,...
Dưới đây là một vài hình ảnh về tool
Bước 1: Tải Srouce Code
Truy cập vào GitHub và tải về mã nguồn của tool (Link ở dưới bài viết)
Bước 2: Đổi Connection String
Bạn sẽ cần chỉnh sửa CONNECTION_STRING để có thể kết nối tới Database. Chỉnh sửa tại file Data/ApplicationDbContext.cs
public class ApplicationDbContext : DbContext
{
private static readonly string CONNECTION_STRING = "Server=localhost,1434;Database=TikiCrawlerDB;User Id=sa;Password=123456789Aa;Trusted_Connection=True;TrustServerCertificate=True;Integrated Security=False;";
}
Bước 3: Chạy Tool
Nếu bạn sử dụng Visual Studio 2022 chỉ cần mở project với file ProGCoder_Tiki_Crawl_Tool.sln sau nó click vào chữ màu xanh như hình bên dưới
Đối với VS Code hoặc Command Line bạn chỉ cần chạy lệnh
dotnet run
Bước 6: Chọn option
Sau khi quá trình crawl hoàn tất, bạn có thể mở SQL Server để kiểm tra dữ liệu đã được lưu trữ bằng lệnh như sau:
DECLARE @ProductId VARCHAR(50) = 'NHẬP ID Sản Phẩm Có Trong Database';
SELECT * FROM [dbo].[Products] WHERE Id = @ProductId;
SELECT I.* FROM Images I
JOIN ProductImages PI
ON I.Id = PI.ImageId
JOIN Products P
ON PI.ProductId = P.Id
WHERE P.Id = @ProductId;
SELECT C.* FROM Categories C
JOIN ProductCategories PC
ON C.Id = PC.CategoryId
JOIN Products P
ON PC.ProductId = P.Id
WHERE P.Id = @ProductId;
SELECT PA.* FROM ProductAttributes PA
JOIN Products P
ON PA.ProductId = P.Id
WHERE P.Id = @ProductId;
Dưới đây là kết quả của mình
Tool crawl dữ liệu từ Tiki.vn được viết bằng C# không chỉ đơn giản hóa quy trình thu thập dữ liệu mà còn giúp bạn dễ dàng quản lý thông tin.
Với những bước hướng dẫn chi tiết trên, hy vọng bạn sẽ nhanh chóng triển khai và sử dụng tool này hiệu quả. Đừng quên theo dõi blog của tôi để cập nhật thêm nhiều bài viết hữu ích khác về lập trình và công nghệ!
Chúc bạn thành công trong việc thu thập và phân tích dữ liệu từ Tiki.vn!