
Cách trích xuất văn bản từ PowerPoint bằng cách sử dụng API REST .NET.
Trong lĩnh vực xử lý thông tin hiện đại, các bài thuyết trình PowerPoint đã trở thành một phương tiện phổ biến để chia sẻ thông tin, trình bày những nội dung ấn tượng và truyền đạt ý tưởng. Bây giờ, nếu bạn đang tìm cách khám phá những xu hướng ẩn, tái sử dụng nội dung hoặc có được sự hiểu biết sâu sắc hơn, khả năng trích xuất văn bản từ PowerPoint là một kỹ năng tuyệt vời. Tuy nhiên, việc trích xuất văn bản từ những bài thuyết trình này có thể là một nhiệm vụ thách thức, đặc biệt khi xử lý các tập tin lớn hoặc phức tạp. Bài viết này tiết lộ một giải pháp mạnh mẽ để trích xuất văn bản từ PowerPoint, cũng như giải thích các khả năng đổi mới của Aspose.Slides Cloud SDK cho .NET.
- REST API để Trích xuất Văn bản PowerPoint
- Trích xuất văn bản từ PowerPoint sử dụng C# .NET
- Trích xuất văn bản từ slide cụ thể bằng cách sử dụng lệnh cURL
REST API để Trích Xuất Văn Bản PowerPoint
Khi nói đến việc trích xuất văn bản từ các bản trình bày PowerPoint, thì Aspose.Slides Cloud SDK for .NET nổi bật như một công cụ mạnh mẽ và linh hoạt. Với bộ tính năng phong phú và API toàn diện, SDK này cho phép các lập trình viên dễ dàng trích xuất văn bản từ các bản trình bày với độ chính xác và hiệu quả.
Bước đầu tiên là cài đặt SDK. Vì vậy, chúng ta cần tìm Aspose.Slides-Cloud
trong trình quản lý gói NuGet và nhấp vào nút Add Package
. Trong trường hợp bạn chưa có tài khoản hiện tại trên cloud dashboard, chỉ cần tạo một tài khoản miễn phí bằng cách làm theo các hướng dẫn được chỉ định trong quick start.
Trích xuất văn bản từ PowerPoint bằng C# .NET
Hãy cùng tìm hiểu chi tiết về cách chúng ta có thể hiệu quả trích xuất văn bản từ toàn bộ PowerPoint bằng đoạn mã C# .NET.
// Để biết thêm ví dụ, vui lòng truy cập http://github.com/aspose-slides-cloud
// Lấy thông tin xác thực của khách hàng từ http://dashboard.aspose.cloud/
string clientSecret = "7f098199230fc5f2175d494d48f2077c";
string clientID = "ee170169-ca49-49a4-87b7-0e2ff815ea6e";
// tạo một thể hiện của SlidesApi
SlidesApi slidesApi = new SlidesApi(clientID, clientSecret);
// name of input PowerPoint presentation
string sourcePPTX = "Inspirational bookmarks.pptx";
// Gọi API để trích xuất tất cả văn bản từ bài thuyết trình PowerPoint
var textItems = slidesApi.GetPresentationTextItems(sourcePPTX, true, null);
// Tạo một đối tượng StreamWriter để chúng ta có thể lưu nội dung đã trích xuất.
StreamWriter sw = new StreamWriter("Test.txt");
// Lặp lại qua từng trường hợp của văn bản đã trích xuất.
foreach (var textItem in textItems.Items)
{
// vi: ghi mỗi lần xuất hiện của văn bản vào tệp văn bản trên hệ thống
sw.WriteLine(textItem.Text);
}
// đóng StreamWriter
sw.Close();
Bây giờ hãy phát triển sự hiểu biết của chúng ta về đoạn mã đã nêu ở trên.
SlidesApi slidesApi = new SlidesApi(clientID, clientSecret);
Tạo một đối tượng của lớp SlidesApi mà chúng ta truyền thông tin xác thực của khách hàng làm tham số.
var textItems = slidesApi.GetPresentationTextItems(sourcePPTX, true, null);
Gọi API để trích xuất tất cả nội dung văn bản từ bài thuyết trình PowerPoint có sẵn trong lưu trữ đám mây.
StreamWriter sw = new StreamWriter("Test.txt");
Tạo StreamWriter sẽ giúp chúng ta lưu nội dung đã trích xuất trên ổ đĩa cục bộ.
foreach (var textItem in textItems.Items)
{
sw.WriteLine(textItem.Text);
}
sw.Close();
Lặp lại qua mỗi trường hợp của văn bản đã trích xuất và lưu đầu ra vào một tệp văn bản.

Xem trước việc trích xuất văn bản PowerPoint.
Bạn có thể xem xét việc tải xuống mẫu PowerPoint được sử dụng trong ví dụ trên từ Inspirational bookmarks.pptx.
Trích xuất văn bản từ slide cụ thể bằng lệnh cURL
Một phương án khác để trích xuất văn bản từ các slide PowerPoint là sử dụng các lệnh cURL. Với cURL, bạn có thể tương tác với API Aspose.Slides Cloud trực tiếp thông qua các yêu cầu HTTP, biến đây thành một lựa chọn linh hoạt và dễ tiếp cận cho khả năng trích xuất văn bản. Vì vậy, bằng cách xây dựng điểm cuối API phù hợp và chỉ định các tham số mong muốn, bạn có thể gửi một lệnh cURL để lấy văn bản từ các slide cụ thể hoặc toàn bộ bài thuyết trình.
Bước đầu tiên trong cách tiếp cận này là tạo ra một mã thông báo truy cập JWT. Vậy nên, vui lòng thực hiện lệnh sau:
curl -v "http://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Bây giờ, thực hiện lệnh sau để trích xuất văn bản từ trang thứ hai của một bài thuyết trình PowerPoint.
curl -v "http://api.aspose.cloud/v3.0/slides/{sourceFile}/slides/2/textItems?withEmpty=false" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "Extracted.txt"
Thay thế sourceFile
bằng tên của một PowerPoint đầu vào có sẵn trong lưu trữ đám mây, và accessToken
bằng mã thông báo truy cập JWT được tạo ra ở trên.
Kết luận
In conclusion, we have learned that the ability to extract text from PowerPoint slides is a valuable feature that allows us to access and utilize the textual content within presentations for various purposes. Whether it’s for data analysis, content parsing, or any other application, extracting text from PowerPoint slides empowers us to unlock the information contained within these files. By leveraging the Aspose.Slides Cloud SDK for .NET, we can easily and efficiently perform text extraction operations in .NET application or, the usage of cURL commands provides platform independent and a convenient approach.
Liên kết hữu ích
Bài viết liên quan
Chúng tôi rất khuyến khích bạn ghé thăm những blog sau: