آموزشگاه برنامه نویسی تحلیل داده
آموزشگاه برنامه نویسی تحلیل داده

آموزش خواندن محتوا از PDF، Word و فایل های متنی – C#

دوره های مرتبط با این مقاله

خواندن محتوا از فایل های PDF

در زیر می خواهیم نحوه ی خواندن متن از فایل های PDF را آموزش دهیم. مراحل زیر را به ترتیب دنبال نمایید:


گام اول

فایل assembly به نام itextsharp را از آدرس URL که در زیر عنوان شده، دانلود کنید. فایل را extract نموده (فایل itextsharp-dll-core را استخراج نمایید) و سپس اشاره گر (reference) به آن iTextSharp.dll)) را به پروژه اضافه نمایید:


http://sourceforge.net/projects/itextsharp/

گام دوم

namespace های زیر را با استفاده از دستور Using به iTextsharp اضافه نمایید:


using TextSharp.text;
using iTextSharp.text.pdf; 
using iTextSharp.text.pdf.parser;

گام سوم

کد زیر را جهت خواندن متن و محتوا از فایل های PDF به پروژه اضافه کنید. در زیر کدی که به پروژه اضافه شده است متن را در قالب رشته به عنوان خروجی برمی گرداند.


private string GetTextFromPDF() 
{ 
  StringBuilder text = new StringBuilder(); 
  using (PdfReader reader = new PdfReader("D:\\RentReceiptFormat.pdf")) 
  { 
   for (int i = 1; i <= reader.NumberOfPages; i++) 
   { 
     text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); 
   } 
  } 
  return text.ToString(); 
}

می توان با استفاده از دیگر ابزار نظیر PDFLib، PDFBox و غیره .. نتیجه ای که کد فوق بدست می دهد را کسب کرد. اما استفاده از این ابزار نیازمند مجوز ویژه است. ما در این مثال از یک assembly رایگان به نام iTextSharp استفاده کردیم.


خواندن متن و محتوا از فایل های Word

در زیر نحوه ی خواندن متن از فایل Word را با نوشتن کدهای C# به شما آموزش می دهیم.


گام اول


ابتدا فایل assembly به نام Microsoft.Office.interop.Word را به پروژه اضافه نمایید. تصویر زیر را درنظر داشته باشید.


Name Space

گام دوم

پس از افزودن assembly مورد نظر به پروژه، namespace زیر را به فایل های behind class/code اضافه نمایید.


using Microsoft.Office.Interop.Word;

حال کد زیر را جهت خواندن متن از فایل های word که محتوا را در قالب یک رشته برمی گرداند، به پروژه اضافه نمایید.


              /// < summary > 
/// Reading Text from Word document 
/// < /summary > 
/// < returns >< /returns > 
private string GetTextFromWord() {
  StringBuilder text = new StringBuilder(); 
  Microsoft.Office.Interop.Word.Application word = new Microsoft.Office.Interop.Word.Application(); 
  object miss = System.Reflection.Missing.Value; 
  object path = @"D:\Articles2.docx"; 
  object readOnly = true; 
  Microsoft.Office.Interop.Word.Document docs = word.Documents.Open(ref path, ref miss, ref readOnly, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss); 
  for (int i = 0; i < docs.Paragraphs.Count; i++) 
  { 
   text.Append(" \r\n " + docs.Paragraphs[i + 1].Range.Text.ToString()); 
  }  
  return text.ToString(); 
} 

خواندن محتوا از فایل های text

در این بخش نحوه ی خواندن محتوا از فایل های text را آموزش می دهم.


ابتدا namespace مورد نظر را با استفاده از دستور using System.IO; به پروژه اضافه نمایید. کد زیر محتوای فایل های text(.txt)، xml(.xml) و html(.html) را می خواند.


/// < summary > 
/// Reading text from text files 
/// < /summary > 
/// < returns >< /returns > 
private string GetTextFromText() 
{ 
  string text = System.IO.File.ReadAllText(@"D:\Articles2.txt"); 
  return text.ToString(); 
}
 • 5130
 •    3044
 • تاریخ ارسال :   1396/05/12

دانلود PDF دانلود سورس کد دانلود فیلم آموزشی دانشجویان گرامی اگر این مطلب برای شما مفید بود لطفا ما را در GooglePlus محبوب کنید
رمز عبور: tahlildadeh.com یا www.tahlildadeh.com
آموزش خواندن محتوا از PDF، Word و فایل های متنی – C#
ارسال دیدگاه نظرات کاربران
شماره موبایل دیدگاه
عنوان پست الکترونیک

ارسال

آموزشگاه برنامه نویسی تحلیل داده
آموزشگاه برنامه نویسی تحلیل داده

تمامی حقوق این سایت متعلق به آموزشگاه تحلیل داده می باشد .