• 1401/03/21

استخراج محتوای لینک ها در پایتون :

سلام. میخواستم بدونم چجوری میشه از یک سایت (سایتی که api نداره و باید از کدهای html استفاده کنیم) محتوای لینکهای موجود در یک صفحه را بردارم؟ مثلا تو صفحه اول سایت چندتا مقاله هست و من میخوام محتوای موجود در اون لینک ها را استخراج کنم. خود لینک را از طریق get(href) میارم ولی اینکه میزنی روی لینک و یک صفحه دیگه باز میشه و محتوای مربوط به اون صفحه ی تمام لینک ها را میخواستم. دوره webscrapping و pandas و numpy رو هم دیدم ولی هنوز نمیتونم این دستور را در web scrapper ای که دارم میسازم پیاده کنم.

ممنون میشم راهنمایی کنید

 

  • 1401/03/23
  • ساعت 19:57

با سلام.

 

به گمانم با Selenium (به همراه WebScrapping) بتوانید این کار را انجام دهید.


  • 1401/04/06
  • ساعت 10:32

سلام و وقت بخیر باید یک حلقه بزنی که تمامی لینک های اون صفحه رو بگیری ( مثلا داخل یک لیست append ش کن ) و بعد یک تابع بنویسی که با دیتای که دریافت کردی به صورت تک به تک به اون صفحات داخلی تر بره و قسمت های مختلف رو برات بگیره. کار پیچیده ای نباید باشه.

بهتر هستش که از BeautifulSoup یا scarpy کمک بگیری که کار خیلی ساده تر میکنه