Tìm kiếm


    Chia Sẻ Tool Crawl Dữ Liệu Từ Tiki.vn Bằng C#


    Giới Thiệu

    Trong thời đại số hiện nay, việc thu thập và phân tích dữ liệu từ các trang thương mại điện tử như Tiki.vn trở nên quan trọng hơn bao giờ hết.

    Việc có trong tay một công cụ có thể crawl (thu thập) dữ liệu từ các trang web này không chỉ giúp bạn tiết kiệm thời gian mà còn mở ra nhiều cơ hội cho các nghiên cứu và phân tích thị trường.

    Trong bài viết này, ProG Coder sẽ giới thiệu đến các bạn một tool được viết bằng C# có khả năng crawl dữ liệu từ Tiki.vn và lưu trữ vào cơ sở dữ liệu SQL Server.

    Yêu Cầu Hệ Thống

    Trước khi bắt đầu, bạn cần đảm bảo rằng hệ thống của mình đã được cài đặt những phần mềm sau:

    • .NET 8
    • SQL Server
    • Visual Studio 2022 / VS Code

    Nếu bạn chưa cài đặt các phần mềm này, hãy truy cập vào trang chính thức của Microsoft để tải về và cài đặt.

    Cách Thức Hoạt Động Của Tool

    Tool này được phát triển với các chức năng chính sau:

    1. Crawl Dữ Liệu: Tool sẽ truy cập vào các trang sản phẩm trên Tiki.vn và thu thập thông tin như tên sản phẩm, giá cả, mô tả...

    2. Lưu Dữ Liệu Vào Database: Sau khi thu thập, dữ liệu sẽ được lưu vào SQL Server, giúp bạn dễ dàng quản lý và phân tích sau này.

    Tool cho phép người dùng đưa ra nhiều lựa chọn khác nhau để crawl sản phẩm ví dụ như crawl theo tên, theo danh mục sản phẩm,...

    Giao Diện

    Dưới đây là một vài hình ảnh về tool

    Hướng Dẫn Sử Dụng Tool

    Bước 1: Tải Srouce Code

    Truy cập vào GitHub và tải về mã nguồn của tool (Link ở dưới bài viết)

    Bước 2: Đổi Connection String

    Bạn sẽ cần chỉnh sửa CONNECTION_STRING để có thể kết nối tới Database. Chỉnh sửa tại file Data/ApplicationDbContext.cs

    public class ApplicationDbContext : DbContext
    {
        private static readonly string CONNECTION_STRING = "Server=localhost,1434;Database=TikiCrawlerDB;User Id=sa;Password=123456789Aa;Trusted_Connection=True;TrustServerCertificate=True;Integrated Security=False;";
    }

    Bước 3: Chạy Tool

    Nếu bạn sử dụng Visual Studio 2022 chỉ cần mở project với file ProGCoder_Tiki_Crawl_Tool.sln sau nó click vào chữ màu xanh như hình bên dưới

    Đối với VS Code hoặc Command Line bạn chỉ cần chạy lệnh

    dotnet run

    Bước 6: Chọn option

    Kiểm Tra Data Đã Crawl

    Sau khi quá trình crawl hoàn tất, bạn có thể mở SQL Server để kiểm tra dữ liệu đã được lưu trữ bằng lệnh như sau:

    DECLARE @ProductId VARCHAR(50) = 'NHẬP ID Sản Phẩm Có Trong Database';
    
    SELECT * FROM [dbo].[Products] WHERE Id = @ProductId;
    
    SELECT I.* FROM Images I
    JOIN ProductImages PI
    	ON I.Id = PI.ImageId
    JOIN Products P
    	ON PI.ProductId = P.Id
    WHERE P.Id = @ProductId;
    
    SELECT C.* FROM Categories C
    JOIN ProductCategories PC
    	ON C.Id = PC.CategoryId
    JOIN Products P
    	ON PC.ProductId = P.Id
    WHERE P.Id = @ProductId;
    
    SELECT PA.* FROM ProductAttributes PA
    JOIN Products P
    	ON PA.ProductId = P.Id
    WHERE P.Id = @ProductId;

    Dưới đây là kết quả của mình

    Kết Luận

    Tool crawl dữ liệu từ Tiki.vn được viết bằng C# không chỉ đơn giản hóa quy trình thu thập dữ liệu mà còn giúp bạn dễ dàng quản lý thông tin.

    Với những bước hướng dẫn chi tiết trên, hy vọng bạn sẽ nhanh chóng triển khai và sử dụng tool này hiệu quả. Đừng quên theo dõi blog của tôi để cập nhật thêm nhiều bài viết hữu ích khác về lập trình và công nghệ!

    Chúc bạn thành công trong việc thu thập và phân tích dữ liệu từ Tiki.vn!


    Tiểu sử
    Are you one or zero?


    Bình luận