규도자 개발 블로그

[프로그래머스/Level2/파이썬3(python3)] 순위 검색 본문

알고리즘/풀이

[프로그래머스/Level2/파이썬3(python3)] 순위 검색

규도자 (gyudoza) 2021. 4. 12. 22:47

[프로그래머스/Level2/파이썬3(python3)] 순위 검색

문제

[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]

카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.


  • 코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
  • 지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
  • 지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
  • 선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.

인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다. 예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다. 코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?

물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.


  • 코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
  • 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?

즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.

* [조건]을 만족하는 사람 중 코딩테스트 점수를 X점 이상 받은 사람은 모두 몇 명인가?

[문제]

지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때, 각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.

[제한사항]

  • info 배열의 크기는 1 이상 50,000 이하입니다.

  • info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.

    • 개발언어는 cpp, java, python 중 하나입니다.
    • 직군은 backend, frontend 중 하나입니다.
    • 경력은 junior, senior 중 하나입니다.
    • 소울푸드는 chicken, pizza 중 하나입니다.
    • 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
  • query 배열의 크기는 1 이상 100,000 이하입니다.

  • query의 각 문자열은 "[조건] X" 형식입니다.

    • [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
    • 언어는 cpp, java, python, - 중 하나입니다.
    • 직군은 backend, frontend, - 중 하나입니다.
    • 경력은 junior, senior, - 중 하나입니다.
    • 소울푸드는 chicken, pizza, - 중 하나입니다.
    • '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
    • X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
    • 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.

입출력 예

infoqueryresult
["java backend junior pizza 150","python frontend senior chicken 210","python frontend senior chicken 150","cpp backend senior pizza 260","java backend junior chicken 80","python backend senior chicken 50"]["java and backend and junior and pizza 100","python and frontend and senior and chicken 200","cpp and - and senior and pizza 250","- and backend and senior and - 150","- and - and - and chicken 100","- and - and - and - 150"][1,1,1,1,2,4]

입출력 예에 대한 설명

지원자 정보를 표로 나타내면 다음과 같습니다.

언어직군경력소울 푸드점수
javabackendjuniorpizza150
pythonfrontendseniorchicken210
pythonfrontendseniorchicken150
cppbackendseniorpizza260
javabackendjuniorchicken80
pythonbackendseniorchicken50
  • "java and backend and junior and pizza 100" : java로 코딩테스트를 봤으며, backend 직군을 선택했고 junior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 100점 이상 받은 지원자는 1명 입니다.
  • "python and frontend and senior and chicken 200" : python으로 코딩테스트를 봤으며, frontend 직군을 선택했고, senior 경력이면서 소울 푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 200점 이상 받은 지원자는 1명 입니다.
  • "cpp and - and senior and pizza 250" : cpp로 코딩테스트를 봤으며, senior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 250점 이상 받은 지원자는 1명 입니다.
  • "- and backend and senior and - 150" : backend 직군을 선택했고, senior 경력인 지원자 중 코딩테스트 점수를 150점 이상 받은 지원자는 1명 입니다.
  • "- and - and - and chicken 100" : 소울푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 100점 이상을 받은 지원자는 2명 입니다.
  • "- and - and - and - 150" : 코딩테스트 점수를 150점 이상 받은 지원자는 4명 입니다.

풀이

def solution(info, query):
    answer = []
    applicants = defaultdict(list)
    for personal in info:
        divided = personal.split()
        conditions = divided[:-1]
        score = int(divided[-1])
        for i in range(5):
            for comb in combinations(conditions, i):
                applicants[''.join(comb)].append(score)

    for conditions in applicants:
        applicants[conditions].sort()

    for search in query:
        divided = search.split(' ')
        score = int(divided[-1])
        conditions = divided[:-1]
        conditions_as_string = ''.join(conditions).replace('-', '').replace('and', '')
        if conditions_as_string in applicants:
            scores = applicants[conditions_as_string]
            if len(scores) > 0:
                start, end = 0, len(scores)
                while end > start:
                    mid = (start + end) // 2
                    if scores[mid] >= score:
                        end = mid
                    else:
                        start = mid + 1
                answer.append(len(scores) - start)
        else:
            answer.append(0)
    return answer

설명

맨처음에 풀었던 답은 이래와 같다.

def solution(info, query):
    answer = []
    for search in query:
        search_query = search.split(' and ')
        language = search_query[0]
        division = search_query[1]
        career = search_query[2]
        food = search_query[3].split()[0]
        score = search_query[3].split()[1]
        filtered = []
        for personal in info:
            if language == '-':
                filtered.append(personal)
            elif language in personal:
                filtered.append(personal)
        for index, personal in enumerate(filtered):
            if division != '-' and division not in personal:
                filtered[index] = None
            if career != '-' and career not in personal:
                filtered[index] = None
            if food != '-' and food not in personal:
                filtered[index] = None
            if score != '-' and int(score) > int(personal.split()[-1]):
                filtered[index] = None
        answer.append(len(list(filter(lambda x: x is not None, filtered))))
    return answer

무식하게 풀어봤다. language는 더하는 filter로 쓰고 그 다음부터는 제거하는 필터로 썼는데 로직은 맞으나 효율성테스트에서 전부 시간초과 뜨더라. 왠지 그럴 것 같았다. 이건 이런식으로 풀라는 문제 같지가 않았으니까. 요행은 없구나 싶었다.
 문자열로 두면 조건의 길이를 l, 지원자 정보의 총 길이를 t라고 했을 때 0:l ~ t-l:t까지 검사를 하므로, 심지어는 query식이 들어오는 갯수만큼 검색을 하므로 로직이 굉장히 비효율적이게 된다. 주어진 문자열 자료형을 따로 검색하기 좋게 만들어서 하는 수밖에 없겠구나 하는 생각이 들었다.

그래서 개선해본다고 한 게 아래의 풀이였다.

def solution(info, query):
    answer = []
    applicants = []
    for personal in info:
        divided = personal.split()
        applicant = {
            'language': divided[0],
            'division': divided[1],
            'career': divided[2],
            'food': divided[3],
            'score': int(divided[4])
        }
        applicants.append(applicant)
    for search in query:
        search_query = search.split(' and ')
        language = search_query[0]
        division = search_query[1]
        career = search_query[2]
        food = search_query[3].split()[0]
        score = int(search_query[3].split()[1])
        filtered = []
        for applicant in applicants:
            if language == '-':
                filtered.append(applicant)
            elif language == applicant['language']:
                filtered.append(applicant)
        for index, personal in enumerate(filtered):
            if division != '-' and personal['division'] != division:
                filtered[index] = None
            if career != '-' and personal['career'] != career:
                filtered[index] = None
            if food != '-' and personal['food'] != food:
                filtered[index] = None
            if score != '-' and personal['score'] < score:
                filtered[index] = None
        answer.append(len(list(filter(lambda x: x is not None, filtered))))
    return answer

음, dict구조로 바꿔서 해당 key가 들어왔을 때 바로 검사를 진행해도 시간초과가 뜬다. 이때 느꼈다. 로직 자체를 내가 잘못생각했구나. 근데 내가 잘못생각한 건 알겠는데 뭘 어떻게 개선해야할지는 모르겠어가지고 다른사람들의 풀이를 참고했다. 그것이 맨 위, 풀이란에 적혀있는 코드이다.

 

로직은 기술블로그에 자세히 나와있다. 블로그에서도 말하듯이 내가 처음에 시도했던 방법, 조건이 추가될 때마다 검색하는 방법은 시간이 오래걸리니 다른방법을 강구하는게 맞았다. 특히 정답에서 요구하는 것이 합격한 사람의 정보가 아니라 숫자인것을 보면 말이다. 풀이를 보고 나니 모든게 명확해지는 현실.

 

간단하게 말하자면 지원자들의 정보를 검색 옵션과 결부시켜 그 조건 안에 점수리스트를 담아둔 뒤 어떤 조건이 들어오면 그 점수리스트를 가져와서 이분탐색 후에 조건 점수보다 높은 갯수를 list에 담아서 반환하는 것이다. 점수만 비교하는 이유는 이쯤 되면 다 알겠지만 다른 건 문자열의 일치여부만 검사하면 되는데 숫자는 고저의 차이로 조건이 갈리기 때문이다.

 

 

어쩌면 말로만 해서는 잘 이해가 안 갈 수도 있다. 그러니까 첫번째 참가자를 예로 들어보자. java backend junior pizza 150이라는 조건을 갖고 있다. 점수를 제외하고, 이사람이 걸리는 조건식은 몇개가 있을까? 바로 16개다. 어떻게 해서 16개가 되느냐

언어직군경력소울 푸드점수
javabackendjuniorpizza150
backendjuniorpizza150
javajuniorpizza150
javabackendpizza150
javabackendjunior150
juniorpizza150
backendpizza150
… (생략)    
java150
150

이런식으로 해서 총 16개가 된다. 조건 4개(언어, 직군, 경력, 소울 푸드)의 조합, 곧 4!이 되는 것이다. 이렇게 모든 지원자들의 점수를 "조건식에 걸리는 형태"로 바꿔서 list로 만들어준뒤 각 조건의 dict에 넣어준다. 이 작업을 완료하면

applicants = {'': [50, 80, 150, 150, 210, 260],
              'backend': [50, 80, 150, 260],
              'backendchicken': [50, 80],
              'backendjunior': [80, 150],
              'backendjuniorchicken': [80],
              'backendjuniorpizza': [150],
              'backendpizza': [150, 260],
              'backendsenior': [50, 260],
              'backendseniorchicken': [50],
              'backendseniorpizza': [260],
              'chicken': [50, 80, 150, 210],
              'cpp': [260],
              'cppbackend': [260],
              'cppbackendpizza': [260],
              'cppbackendsenior': [260],
              'cppbackendseniorpizza': [260],
              'cpppizza': [260],
              'cppsenior': [260],
              'cppseniorpizza': [260],
              'frontend': [150, 210],
              'frontendchicken': [150, 210],
              'frontendsenior': [150, 210],
              'frontendseniorchicken': [150, 210],
              'java': [80, 150],
              'javabackend': [80, 150],
              'javabackendchicken': [80],
              'javabackendjunior': [80, 150],
              'javabackendjuniorchicken': [80],
              'javabackendjuniorpizza': [150],
              'javabackendpizza': [150],
              'javachicken': [80],
              'javajunior': [80, 150],
              'javajuniorchicken': [80],
              'javajuniorpizza': [150],
              'javapizza': [150],
              'junior': [80, 150],
              'juniorchicken': [80],
              'juniorpizza': [150],
              'pizza': [150, 260],
              'python': [50, 150, 210],
              'pythonbackend': [50],
              'pythonbackendchicken': [50],
              'pythonbackendsenior': [50],
              'pythonbackendseniorchicken': [50],
              'pythonchicken': [50, 150, 210],
              'pythonfrontend': [150, 210],
              'pythonfrontendchicken': [150, 210],
              'pythonfrontendsenior': [150, 210],
              'pythonfrontendseniorchicken': [150, 210],
              'pythonsenior': [50, 150, 210],
              'pythonseniorchicken': [50, 150, 210],
              'senior': [50, 150, 210, 260],
              'seniorchicken': [50, 150, 210],
              'seniorpizza': [260]}

이런 형태가 된다. 여기까지 왔으면 거의 다 왔다. 이제 query에서 주어지는 조건들에서 '-'와 'and'를 지우고 그 key값으로 점수목록을 불러온 뒤 주어진 조건의 점수보다 더 큰 애들의 숫자를 세서 내보내면 된다.

 

근데 여기에서도 또 함정이 있는게 그냥 무작위로 정렬된 점수를 전부 검색해서 높은애들만 카운팅하면 또 시간초과에 걸린다. 그래서 오름차순으로 정렬한 뒤 이분탐색하면서 주어진 점수와 일치하거나 점수들 사이에 들어갈 수 있는 자리를 찾으면 이분탐색을 종료하고 그 index를 총 길이에서 빼는 식으로 해야 한다. 그러면 당연히 그 index 뒤부터는 주어진 점수보다 클 게 뻔하니 조건에 맞는 지원자들의 수가 되기 때문이다.

 

 

정말 오랜만에 이해도 어렵고 풀기도 어렵고 이분탐색도 하게 된 그런 문제였다. 재밌고 어려웠다.

Comments