fix(scheduler): 修复爬虫调度器的执行间隔和职位遍历逻辑
- 将分析待处理简历的调度任务间隔从5小时改为5分钟 - 取消限制职位遍历数量,改为遍历所有职位 - 修正职位爬取过程中职位数量限制过严的问题
This commit is contained in:
@@ -54,7 +54,7 @@ class CrawlScheduler:
|
|||||||
# 每小时执行一次完整分析
|
# 每小时执行一次完整分析
|
||||||
self.scheduler.add_job(
|
self.scheduler.add_job(
|
||||||
self._analyze_pending,
|
self._analyze_pending,
|
||||||
trigger=IntervalTrigger(hours=5),
|
trigger=IntervalTrigger(minutes=5),
|
||||||
id="analyze_pending",
|
id="analyze_pending",
|
||||||
name="分析待处理简历",
|
name="分析待处理简历",
|
||||||
replace_existing=True
|
replace_existing=True
|
||||||
@@ -89,7 +89,7 @@ class CrawlScheduler:
|
|||||||
print(f"[{datetime.now()}] 找到 {len(jobs)} 个职位")
|
print(f"[{datetime.now()}] 找到 {len(jobs)} 个职位")
|
||||||
|
|
||||||
# 遍历职位爬取候选人
|
# 遍历职位爬取候选人
|
||||||
for job in jobs[:3]: # 限制前3个职位,避免请求过多
|
for job in jobs:
|
||||||
print(f"[{datetime.now()}] 爬取职位: {job.title}")
|
print(f"[{datetime.now()}] 爬取职位: {job.title}")
|
||||||
|
|
||||||
# 爬取候选人
|
# 爬取候选人
|
||||||
|
|||||||
Reference in New Issue
Block a user